人类打字的时代即将结束? 微软语音识别技术已和人类一样准确

细雨 · 发表于 2016-10-29 15:04

本帖最后由细雨于 2016-10-29 15:05 编辑

1. 微软新的语音识别技术能够抄写会话性言语，和人类一样好（或甚至更好）。

2. 这项技术得到5.9%的错字率（worderror rate，WER），比才在上个月报告的6.3%WER还低。达到「人类水平」

根据发表的一项研究，被宣布为微软的历史成就。这项研究详述一种新的语音识别技术，能够像人类一样好的抄写会话性言语，或者是至少和人类专业抄写员一样好（比大部份的人类好）。

这项技术得到5.9%的错字率（word error rate，WER），比才在上个月报告的6.3%WER还低。微软报告：「这是产业标准witchboard语音识别工作所记录的最低值。」错字率与人类专业抄写员抄写相同会话的错字率一样（甚至更低）。

微软首席语音科学家Xuedong Huang说：「我们已经达到人类水平。」这项新科技使用自然语言模型，藉由把类似的字聚集在一起，允许更有效的归纳。

在1970年代开始研究语音模式辨识之后的数十年，达成这项成就。随着Google的DeepMind在语音和影像辨识（以及说话像人类）掀起波浪，对于快节奏的人工智能研发，这项科技是微软的适时贡献。

使用运算网络工具包（ComputationalNetwork Toolkit），微软自己的深度学习系统，这项成就是开放的。

下一步：了解

对于微软Windows和Xbox的个人语音助理，这项新科技应用一定会改善使用者经验。率领微软人工智能研究群的执行副总 Harry Shum兴奋地说：「这会让Cortana语音助理的功能更强，让真正的聪明助理变得有可能。当然，微软也将发展更好的语音转文字抄写软件。

然而，微软澄清，相同并不意味着完美。计算机不是清楚地辨识每一个字，甚至人类也无法完美做到（Siri或其现有的语音助理也做不到）。

虽然令人印象深刻，但还是有改进的空间。下一个目标：让计算机了解人类的会话。语音与对话研究群经理Geoffrey Zweig说：「下一个新领域是从辨识移到了解。」

		自动登录	找回密码
密码			立即注册