目前还不成熟。 语音交互包括语音识别、语义理和语音合成三个部分。 从语音识别来讲,目前仅仅是近场语音识别率能达到较高的识别率,且对使用环境有比较高的要求;对于真实的使用场景即远场语音,还要考虑说话者与机器之间的距离,让说话者在屋子的任何位置下的语音命令都能被及机器识别,而这又牵扯到对噪声、混响、回声等干扰声音的处理,这是光靠深度学习解决不了的。
在语义理解上,当前技术还难以做到真正意义上的理解,聊天机器人只是通过搜索语料库返回最大概率的回答,与真实的人际交流还有很大差距;通过语音助手来执行各类操作更像是语音控制而非智能理解。
语音合成技术看上去最容易突破,但现实情况是大部分语音助手声音机械,缺乏人情味,微软的Cortana在语音合成这方面体验很好。
语音识别的最大瓶颈在于声学,近场语音有很高的识别率前提是环境低噪声、无混响、距离声源近;采用麦克风阵列只能解决部分远场化问题,真正做到在现实场景中的语音识别还需要声学领域的重大突破。
语音助手核心在于场景和性格,语音识别和场景也密切相关,不同的场景需要不同的模型适配,这才能保证其识别率;语义更是需要场景的辅助,毕竟圈子的语言还是有很大差异性的;另外一个问题就是语音助手本身也要定义一个性格,从心理学的角度讲,人对有情感的东西表现出更大的宽容心,即便是冷冰冰的问答控制,也要让语音助手体现出个性来,这也包括语音合成的语调问题。
好的产品并不需要100分的技术,只要达到80分过了用户心理预期的门槛就是一款好产品,更好的产品设计应该是充分发挥技术的优势,而巧妙避过技术的缺陷。 核心竞争不是技术,而是产品。技术特别是算法本身不容易形成壁垒,例如深度学习本身也只是一个工具。由于算法很难直接形成有商业价值的专利和标准,所以发展一定阶段就会开源,开源的结果就是训练一段时间,大家都可以训练一个还可以用的模型出来,核心问题只是怎么把这个模型优化得更好,更能落地到实际产业之中。而场景是可以形成壁垒的,在某个垂直领域做到No.1肯定比通用的有优势;另外场景和数据密切相关,而收集数据、处理数据是需要巨大投入的,因此在特定场景下积累到一定规模的数据也是可以形成壁垒的。
不需要。现在的语音交互实际上都是语音控制,当前阶段确实真的很难让计算机理解人的语言。在这个前提下,真正的多轮对话实际上很难做到,更多的是基于场景的搜索问题。一个问题问多遍不是多轮对话,而是一个问答反馈问题。真正的多轮对话可能不需要,而问答反馈是必须的。实际上,可以连续唤醒的单轮问答对话才是智能音箱的核心技术所在,简单可以理解为语音助手的唤醒是第一优先级的,必须支持连续的无数次唤醒,做到有问必答,也就是说用户可以随时唤醒并且打断其他对话直接唤醒,而且必须保障唤醒率和虚警率,虚警率太高显然不行,这会让设备总是莫名其妙自动对话。
需要。 人是视觉动物,我们80%的信息还是靠视觉来获取。亚马逊最新发布了一款带屏幕的Echo,弥补了语音助手在视觉体验上的不足,同时发挥了语音交互本身的便利性和视觉交互的直观反馈,而且拓展了语音助手之外的能力,比如看视频、阅读新闻、视频聊天等娱乐功能。语音助手未来形态极可能是智能音箱+屏幕。
第一代Echo设计为不用屏幕有两个目的:一是培养用户语音交互的使用习惯,二是实现商业上的平稳升级,避免和其他品种的商品冲突。如果一开始就定义为带屏幕的音箱,很容易让用户误以为是ipad。
一是客观理性看待AI,资本不要拔苗助长,媒体不要捧天摔地,创业者也不要自我陶醉,所有企业的成长都要遵循客观的历史规律,AI还只是对未来的期望。
二是AI只是通过技术升级推动行业的进步,宗旨还是造福人类,AI企业更应该合作共赢,一起教育和培养市场,共同推进AI技术生根发芽。
感知和认知是两个层面的问题,也是人工智能的两个层面:感知更多关注的是数据,认知更多关注的是推理。而现在我们还处在感知阶段,这个阶段所强调的智能其实不重要,控制才重要。可以把智能看作噱头,而控制才是根本。特别是正式场景下的感知问题,这才是一切AI的基础。感知牵涉到多学科融合的问题,比如真实场景下的语音识别问题,首先就是真实场景下获取数据的声学问题,这更多是一个物理学科的问题,而数据处理后又要涉及深度学习的问题,这又是一个计算机学科的问题,如何平衡这两类技术并且融合成一种新的技术体系显然也是一个难点。
参考资料:
[1] 远场语音交互体验的思考:Alexa为什么不用屏幕和多轮对话?