本帖最后由 细雨 于 2016-10-29 15:05 编辑
1. 微软新的语音识别技术能够抄写会话性言语,和人类一样好 (或甚至更好)。
2. 这项技术得到5.9%的错字率(worderror rate,WER),比才在上个月报告的6.3%WER还低。达到「人类水平」
根据发表的一项研究,被宣布为微软的历史成就。这项研究详述一种新的语音识别技术,能够像人类一样好的抄写会话性言语,或者是至少和人类专业抄写员一样好(比大部份的人类好)。
这项技术得到5.9%的错字率(word error rate,WER),比才在上个月报告的6.3%WER还低。微软报告:「这是产业标准witchboard语音识别工作所记录的最低值。」错字率与人类专业抄写员抄写相同会话的错字率一样(甚至更低)。
微软首席语音科学家Xuedong Huang说:「我们已经达到人类水平。」这项新科技使用自然语言模型,藉由把类似的字聚集在一起,允许更有效的归纳。
在1970年代开始研究语音模式辨识之后的数十年,达成这项成就。随着Google的DeepMind在语音和影像辨识(以及说话像人类)掀起波浪,对于快节奏的人工智能研发,这项科技是微软的适时贡献。
使用运算网络工具包(ComputationalNetwork Toolkit),微软自己的深度学习系统,这项成就是开放的。
下一步:了解
对于微软Windows和Xbox的个人语音助理,这项新科技应用一定会改善使用者经验。率领微软人工智能研究群的执行副总 Harry Shum兴奋地说:「这会让Cortana语音助理的功能更强,让真正的聪明助理变得有可能。当然,微软也将发展更好的语音转文字抄写软件。
然而,微软澄清,相同并不意味着完美。计算机不是清楚地辨识每一个字,甚至人类也无法完美做到(Siri或其现有的语音助理也做不到)。
虽然令人印象深刻,但还是有改进的空间。下一个目标:让计算机了解人类的会话。语音与对话研究群经理Geoffrey Zweig说:「下一个新领域是从辨识移到了解。」
|