口语英语 星火V4.0发布!科大讯飞刘庆峰:语音将成为人机交互主要方式
6月27日,科大讯飞发布讯飞Spark大模型V4.0及相关落地应用。该模型基于国内首个万卡计算集群“飞星一号”进行训练,模型能力完全媲美GPT-4 Turbo,在文本生成、语言理解、知识问答、逻辑推理、数学能力等方面均超越GPT-4 Turbo,在图像和文字识别能力方面则领先于GPT-4o。
科大讯飞董事长刘庆峰在发布会上表示,这标志着完全自主可控大飞机进入新阶段,意义重大。
他说,在中美两国在科技人工智能领域最激烈的博弈下,国内大型模型基地的能力和支撑将决定行业在这条路上能走多远,能否在这波人工智能浪潮中享受到更多的红利。在他看来,只有拥有自主可控的繁荣生态,中国的通用人工智能才有大未来。
同时他谈到了GPT-4o发布后,世界对语音的关注度越来越高。他表示口语英语,语音将成为万物互联时代人机交互的主要方式。人机交互最重要的场景是远场、噪声、多人说话、多种语言。因此,万物互联时代的AIUI(人工智能用户界面)必须满足远场高噪声、多种语言和方言、全双工、多模态等标准。
近日口语英语口语英语 星火V4.0发布!科大讯飞刘庆峰:语音将成为人机交互主要方式,科大讯飞作为“多语言智能语音关键技术及产业化”项目第一完成单位,荣获国家科技进步一等奖,该项目通过深度学习、大数据分析等前沿技术,在多语言语音识别、语音合成、语音翻译等多项关键技术上取得突破。
这些突破包括但不限于:
通过复杂语音信号解耦建模技术,将内容、节奏、音色等属性充分解耦,有效解决了语音识别研究中最具挑战性的难题,即由远场、噪声、多人语音混叠等现象引起的典型“鸡尾酒会”效应,使复杂场景下的语音识别准确率和语音合成表现力取得重大突破,语音转录准确率首次超过专业速记员的水平。
通过多语言共享建模技术,解决了小语言知识缺乏、训练数据稀缺等问题,打破了国外技术的垄断,显著提升了小语言语音系统的性能。2021年,相关技术在国际低资源多语言语音识别竞赛OpenASR中,在15个语言限制赛道和7个语言不限制赛道中夺得冠军。在奇瑞、一汽等的交互评测中,科大讯飞的技术效果全面领先于国际车载语音技术竞争对手Cylance(原Nuance汽车公司),在华为的评测中也领先于谷歌。
通过语音与语义联合建模技术,很好地解决了语音交互、语音翻译在复杂应用场景下面临的深度语义理解困难、专业性不足等问题。2018年相关技术在行业内首次达到CATTI英语二级《口译实务(交替传译)》资质标准;2021年至2023年连续三届斩获国际权威机器口语评测大赛IWSLT冠军,涵盖同声传译、离线、方言翻译等任务。技术成果应用在多个方面:如英语口语评测首次达到人类专家水平,是唯一满足高考应用要求的技术,累计服务超过1.3亿考生;智能客服系统实现规模化应用,累计服务超过8亿人次,多行业对话成功率超过90%。
国产异构硬件平台训练推理加速技术,首次实现国产芯片智能语音训练推理性能达到国际主流芯片水平,构建了自主可控的智能语音技术体系。基于该技术,2023年,科大讯飞与华为将联合攻克国产大模型算力基础核心难点,打造首个万卡国产算力平台“飞星一号”,填补国内超大模型训练平台空白。
基于在全球语音领域持续领先的深厚基础口语英语,科大讯飞于今年1月30日正式发布国内首个语音模型——Spark语音模型,首批37种主流语言的表现超越OpenAI Whisper V3。在多语言语音合成方面,Spark语音模型首批40种语言的拟人化程度达到83%以上,使科大讯飞翻译机迎来全新升级,助力人们更加自由地沟通,推动万物互联时代客服、汽车、机器人等场景的人机交互变革。
本次发布会上,Spark语音模型再次升级,支持37种语言、37种方言“自由对话”无需切换口语英语,识别准确率远超Whisper V3。发布会上,演示人员演示了讯飞输入法可以精准识别上海话、日语等多种方言的连续对话。
在大车型的加持下,乐驰汽车智能座舱全面升级,不仅拥有多语言、方言的“自由交互”,还拥有多情绪、多模态的超人性化交互,让人车交互更有温度。目前,科大讯飞语音交互产品在国内市场占有率稳定,并广泛出口到世界各地。乐驰大车型已经为一汽、奇瑞、广汽、江淮、长城等车企的众多车型赋予了高度智能化的交互体验。
同时赋能家电、运营商、机器人等更多行业场景。针对体化智能、人形机器人企业需求,科大讯飞正式发布机器人超脑平台2.0,业内首个支持多模态交互,目前已有400多家机器人企业采用科大讯飞机器人超脑平台。
猜你喜欢
发表评论
评论列表