IBM语音识别能力逼近人类水平,获深度学习巨头Yoshua Bengio盛赞
你知道吗? 人类每听到 20 个单词,实际上就有一两个单词漏网。 在一次五分钟的对话中,这个数字达到了 80。但是对于我们来说,少听一两个词并不会影响我们对语义的理解,但想象一下计算机要做到这一点会有多困难?
去年,IBM 在语音识别领域达到了一个新的里程碑:系统的错误率降至 6.9%。 雷锋网了解到,IBM Watson的语音识别系统近日将这一数字降低到了5.5%。
清华大学邓志东教授此前接受雷锋网采访时表示,人工智能技术只有达到人类水平,才能实现商业化。 技术越来越接近人类水平,一直是人工智能的终极目标。 在语音识别领域深度学习英语,降低两人对话语境下的错误率自然是业界努力的方向。 包括谷歌和百度在内的许多公司一直在追赶人类语音识别的错误率。 IBM 之前的最佳性能水平是 5.9%。 但是,人类的识别错误率一直很难超过5.1%,目前还没有一家公司达到这个水平。
以国内顶尖的百度人工智能研究院在语音识别方面的进展为例,雷锋网整理了近几年的一些研究进展:
IBM 用于测试系统的样本很困难,音频内容侧重于“买车”等日常话题。 而这个名为“SWITCHBOARD”的语料库已经使用了近20年,成为了语音识别的“试金石”。
IBM Research 利用深度学习技术拓展应用领域,结合 LSTM 和三种 WaveNet 音频模型:
在合作伙伴Appen的合作下,IBM对语音识别系统进行了重新调整,前者为IBM提供语音和检索的技术服务支持。 虽然IBM取得了5.5%的巨大突破,但官方表示,5.1%的人类水平才是他们努力的最终目标。
MILA 的 Yoshua Bengio 对 IBM 的工作表示认可深度学习英语,也表示语音识别领域的研究还有很长的路要走:
“虽然语音识别或物体识别等人工智能任务在过去几年取得了巨大进步并接近人类水平,但它们仍然存在科学挑战。诚然,标准数据并不总是揭示真实数据例如深度学习英语,不同的数据集合会根据不同的任务表现出不同的敏感度;我觉得只用人的水平作为系统评价的标准有点苛刻。例如,语音识别领域的所有参与者都是经过专业训练的独裁者。IBM继续取得长足进步在语音识别领域,并在声学和语言模型应用于神经网络和深度学习方面取得了巨大飞跃。”
在实验过程中,IBM 还发现,寻找一种衡量人类识别水平的标准方法,其实比想象的要复杂得多。 除了 SWITCHBOARD 之外,另一个名为“CallHome”的语料库提供了一组可以测试的语言数据,内容基于非预定义的、更口语的家庭成员之间的对话。 与前者相比,CallHome 的数据难度更具挑战性。 IBM 的系统在使用 CallHome 进行测试后显示错误率为 10.3%,而 Appen 提供的人工测试错误率为 6.8%。
此外,即使使用SWITCHBOARD进行测试,在测试集中,部分说话人的声音与训练数据是一致的,而CallHome则没有这种重叠数据,这也在一定程度上造成了错误率的差异。 因为这两个实验的前提条件不同,IBM认为两者不能相提并论。
IBM 相信他们在深度学习方面的进步最终可以克服目前的困难。 哥伦比亚大学计算机科学教授兼主席 Julia Hirschberg 也评论了当前语音识别技术面临的挑战:
“实现人类水平的语音识别是一项持续的挑战,而自发的人类对话尤其困难。 人类的表现很难定义,人类也不擅长理解他人的语言。 如果我们要将机器识别与人类识别进行比较,我认为需要满足以下两个条件:测试者的识别水平,以及不同人在同一语音中的表现差异。 IBM最近在SWITCHBOARD和CallHome上的表现非常惊艳,但我也对IBM对人类层面的理解有了新的认识。 这项科学研究与IBM目前在ASR方面的进展一样令人欣喜,但我们也知道IBM语音识别能力逼近人类水平,获深度学习巨头Yoshua Bengio盛赞,语音识别的研究还需要付出更多的努力。”
IBM 表示,其最新进展可以与之前的语音识别技术相结合,例如去年 12 月推出的 Watson 语音转文本技术。 IBM 将继续研究能够适应声音、听觉和大脑交互的技术深度学习英语,并根据研究进展发布可靠、准确的技术成果。
viaIBM,雷锋网整理
猜你喜欢
发表评论
评论列表