口语英语星火V4.0发布！科大讯飞刘庆峰：语音将成为人机交互主要方式

时间：2024-07-05 12:52:46 阅读： 30次来源：网络整理

6月27日，科大讯飞发布讯飞Spark大模型V4.0及相关落地应用。该模型基于国内首个万卡计算集群“飞星一号”进行训练，模型能力完全媲美GPT-4 Turbo，在文本生成、语言理解、知识问答、逻辑推理、数学能力等方面均超越GPT-4 Turbo，在图像和文字识别能力方面则领先于GPT-4o。

科大讯飞董事长刘庆峰在发布会上表示，这标志着完全自主可控大飞机进入新阶段，意义重大。

他说，在中美两国在科技人工智能领域最激烈的博弈下，国内大型模型基地的能力和支撑将决定行业在这条路上能走多远，能否在这波人工智能浪潮中享受到更多的红利。在他看来，只有拥有自主可控的繁荣生态，中国的通用人工智能才有大未来。

同时他谈到了GPT-4o发布后，世界对语音的关注度越来越高。他表示口语英语，语音将成为万物互联时代人机交互的主要方式。人机交互最重要的场景是远场、噪声、多人说话、多种语言。因此，万物互联时代的AIUI（人工智能用户界面）必须满足远场高噪声、多种语言和方言、全双工、多模态等标准。

近日口语英语口语英语星火V4.0发布！科大讯飞刘庆峰：语音将成为人机交互主要方式，科大讯飞作为“多语言智能语音关键技术及产业化”项目第一完成单位，荣获国家科技进步一等奖，该项目通过深度学习、大数据分析等前沿技术，在多语言语音识别、语音合成、语音翻译等多项关键技术上取得突破。

口语英语_口语英语软件_口语英语900句

这些突破包括但不限于：

通过复杂语音信号解耦建模技术，将内容、节奏、音色等属性充分解耦，有效解决了语音识别研究中最具挑战性的难题，即由远场、噪声、多人语音混叠等现象引起的典型“鸡尾酒会”效应，使复杂场景下的语音识别准确率和语音合成表现力取得重大突破，语音转录准确率首次超过专业速记员的水平。

通过多语言共享建模技术，解决了小语言知识缺乏、训练数据稀缺等问题，打破了国外技术的垄断，显著提升了小语言语音系统的性能。2021年，相关技术在国际低资源多语言语音识别竞赛OpenASR中，在15个语言限制赛道和7个语言不限制赛道中夺得冠军。在奇瑞、一汽等的交互评测中，科大讯飞的技术效果全面领先于国际车载语音技术竞争对手Cylance（原Nuance汽车公司），在华为的评测中也领先于谷歌。

通过语音与语义联合建模技术，很好地解决了语音交互、语音翻译在复杂应用场景下面临的深度语义理解困难、专业性不足等问题。2018年相关技术在行业内首次达到CATTI英语二级《口译实务（交替传译）》资质标准；2021年至2023年连续三届斩获国际权威机器口语评测大赛IWSLT冠军，涵盖同声传译、离线、方言翻译等任务。技术成果应用在多个方面：如英语口语评测首次达到人类专家水平，是唯一满足高考应用要求的技术，累计服务超过1.3亿考生；智能客服系统实现规模化应用，累计服务超过8亿人次，多行业对话成功率超过90%。

国产异构硬件平台训练推理加速技术，首次实现国产芯片智能语音训练推理性能达到国际主流芯片水平，构建了自主可控的智能语音技术体系。基于该技术，2023年，科大讯飞与华为将联合攻克国产大模型算力基础核心难点，打造首个万卡国产算力平台“飞星一号”，填补国内超大模型训练平台空白。

口语英语_口语英语900句_口语英语软件

基于在全球语音领域持续领先的深厚基础口语英语，科大讯飞于今年1月30日正式发布国内首个语音模型——Spark语音模型，首批37种主流语言的表现超越OpenAI Whisper V3。在多语言语音合成方面，Spark语音模型首批40种语言的拟人化程度达到83%以上，使科大讯飞翻译机迎来全新升级，助力人们更加自由地沟通，推动万物互联时代客服、汽车、机器人等场景的人机交互变革。

本次发布会上，Spark语音模型再次升级，支持37种语言、37种方言“自由对话”无需切换口语英语，识别准确率远超Whisper V3。发布会上，演示人员演示了讯飞输入法可以精准识别上海话、日语等多种方言的连续对话。

在大车型的加持下，乐驰汽车智能座舱全面升级，不仅拥有多语言、方言的“自由交互”，还拥有多情绪、多模态的超人性化交互，让人车交互更有温度。目前，科大讯飞语音交互产品在国内市场占有率稳定，并广泛出口到世界各地。乐驰大车型已经为一汽、奇瑞、广汽、江淮、长城等车企的众多车型赋予了高度智能化的交互体验。

同时赋能家电、运营商、机器人等更多行业场景。针对体化智能、人形机器人企业需求，科大讯飞正式发布机器人超脑平台2.0，业内首个支持多模态交互，目前已有400多家机器人企业采用科大讯飞机器人超脑平台。