AI自主决定说话时机，Soul App端到端全双工语音通话大模型全面升级

　　当AI深刻介入人类生活、重构链接方式，社交场景究竟需要怎样的底层能力创新带来交互体验的提升？

　　近日，社交平台Soul App自研端到端全双工语音通话大模型**升级。此次升级重新定义“全双工”交互范式，新模型摒弃了传统语音交互中依赖的 VAD(话音活性检测机制与延迟控制逻辑，打破行业中普遍存在的“轮次对话”模式，赋予 AI 自主决策对话节奏的能力。AI可实现主动打破沉默、适时打断用户、边听边说、时间语义感知、并行发言讨论等。同时，模型具备**度感知(包括时间感知、环境感知、事件感知等，口语化表达(如语气词、结巴、明显情绪起伏、音色复刻等能力，让AI更具“真人感”，支持打造更沉浸、类现实交互的语音互动新体验。

　　Soul新升级的端到端全双工通话大模型即将开启站内内测，后续将陆续落地于虚拟人实时通话、AI匹配等1V1互动场景。同时，Soul AI团队正探索将该能力应用于多人互动场景，让AI能在多人对话中，精准把握说话时机，适时加入交流、延展话题，推动多元关系网络的构建。

　　Soul App CTO陶明表示，社交是情绪价值和信息价值交换的双向关系，Soul始终致力于以创新的技术和产品方案为用户提供更智能、更沉浸、更优质的交互体验，让天下没有孤独的人。

　　全双工语音实时通话，重新定义AI社交陪伴场景的语音交互

　　此次Soul技术升级**聚焦在全双工实时语音通话能力在陪伴场景的交互突破。自新一轮人工智能浪潮兴起，AI对话、AI陪伴类产品率先迎来爆发，也成为了大众接触AI的**应用品类。但此前受限于技术发展，人机对话普遍存在“一问一答”的机械式互动现象，即“用户提问——AI输出”依次进行，过程中，延迟、打断等均将影响交互的沉浸感。

　　2024年，Soul推出自研端到端全双工语音通话大模型，具备**交互延迟、快速自动打断、超真实声音表达和情绪感知理解能力等特点，能够直接理解丰富的声音世界，支持超拟人化的多风格语言。为进一步实现更接近生活日常的交互对话和“类真人”的情感陪伴体验，近日，Soul再次升级模型，具体来看，升级后AI能力特点包括：

　　一、全双工语音交互，AI具备自主决策反应能力

　　新模型支持响应(Response、倾听(Listen与打断(Interrupt流式预测，AI自主决定发言时机，实现**端到端的全双工交互——AI 与用户可以同时说话(如辩论、吵架、合唱、适宜打断用户/被用户打断、AI主动打破沉默发起话题。

　　当AI拥有自主决策反应能力，在边听边说中，掌握互动时机、互动内容的“主动性”，将极大提升人机对话的自然度，并且在较长时间、多轮对话的交互中，实现沉浸的类真实交互体验。

　　二、日常表达口语化和情感化，情绪更鲜明的人机交互

　　让AI更具“真人感”，这包括在情绪表达、发音特点、对话内容等**度的综合指标提升，更加接近现实日常表达。例如，情绪表达方面，除了具备笑、哭、生气等情绪特色外，新模型的声音情绪起伏更加明显，并能结合对话推进实现同步变化。在发音特点上，具备语气词、结巴、常用口头禅、**等日常语音元素。此外，AI对话的内容更加口语化、社交化，而非书面语言。

　　三、时间、事件、环境感知能力，互动更具沉浸感

　　Soul的新模型基于纯自回归模型架构，统一文本和音频生成(Unified Model，充分利用大语言模型强大的学习能力，让AI发言深度整合人设、时间、环境及上下文对话等信息。这意味着，具备感知、理解能力的AI能够更好塑造“数字人格”，形成丰富的AI故事线，让人机交互真正成为“情感与信息的双向交流”。

　　值得一提的是，目前，Soul AI团队正探索全双工语音通话模型在多人场景的扩展，例如在多人语音对话中，AI凭借自主决策能力，判断说话时机，有效组织话题讨论与延伸，融入真实关系生态。

　　让AI融入社交关系网络，提供情绪价值和信息价值

　　2025年，伴随着AI在大众层面的渗透率进一步提升以及技术能力的持续跃进，“AI应用爆发”成为行业共识。在众多垂类应用场景，“社交”因具备极高流量价值、网络效应和交互入口等特点，被视为诞生AI时代“Killer App”重要领域之一。

　　作为较早思考将AI应用于社交的互联网平台，Soul App自2016年上线后便积极拥抱AI，重塑关系的发现、建立、沉淀环节，帮助用户在无压力的社交环境中，自在表达，基于兴趣构建多元社交关系网络。

　　2020年，Soul启动系统的AIGC技术研发工作，并在智能对话、语音、3D虚拟人等方面拥有前沿积累。自2023年推出自研语言大模型Soul X后，Soul还陆续上线了语音生成大模型、语音通话大模型、音乐生成大模型等大模型能力。2024年，Soul AI大模型能力已整体升级为多模态端到端大模型，支持文字对话、语音通话、多语种、多模态理解、真实拟人等特性。

　　在扎实的AI底层能力长期积累基础上，Soul团队基于深耕社交领域的深刻洞察，快速推动技术在应用层的落地，并围绕用户实际体验反馈总结优化方向。在发展过程中，Soul快速明确自身AI布局路线，即“AI帮助用户交朋友”(AI辅助社交和“AI与用户交朋友”(人机互动，在不同方向，已分别推出了AI虚拟人情感化陪伴体系“AI伴侣”、AI聊天辅助体系等功能，并受到了用户的热烈欢迎与积极反馈。

　　其中，人机互动的迭代方向便是让AI实现类真人能力，在交互中为用户带来情绪价值和信息价值。

　　根据Soul旗下Just So Soul研究院在今年3月发布的《2025 Z世代AI使用报告》(样本数3680份，近四成年轻人每天使用AI产品获得情感陪伴，此外，71.1%的年轻人表示愿意和AI做朋友，建立情感链接，对比该研究院在去年发布《2024 Z世代AIGC态度报告》(样本数3457份，当时选择愿意和AI做朋友的年轻人比例为32.8%。

　　从数据的增长中可以看到，AI的技术发展与应用普及正在重新塑造年轻一代对社交关系的认知，在这个变化过程中，也对AI能力提出了新要求。根据Soul面向“AI伴侣”活跃使用用户的专项调研显示，关于人机互动体验提升需求方向，约六成受访者表示“希望AI表现更接近真人”。

　　此次，全双工语音通话大模型的升级，极大提升了AI的互动能力，让人机交互具备在场感和情感温度，将推动AI社交进入全新阶段。

　　作为以真实的人与人社交为底色的平台，通过持续对新技术的探索和坚定投入，Soul致力于构建AI Being和Human Being共存的社交社区，让AI作为社交关系网络的重要组成，丰富用户的情感支撑体系，增强多元情感体验，**提升个体的幸福感和归属感。

王擎宇

AI自主决定说话时机，Soul App端到端全双工语音通话大模型全面升级

相关推荐