没有语音交互,何谈智能手表?
2015-01-29 13:57:07 - 行业资讯

随着今年Google的Android Wear以及Apple的Watchkit相继发布,智能手表的话题越来越火。在所有关于智能手表的争论中,一个问题显得尤为重要:最适合智能手表的交互方式是什么?

智能手表的自我修养:自由、安全感、活在当下

一块合格的智能手表,除了可以耍帅看时间外,还应该能够让用户获得生理和心理上的自由:即使双手不接触设备,也能方便地启动设备和发布指令;即使视线并不锁定在屏幕上,也能用眼角的余光快速获得最重要的信息。

同时,智能手表还应能及时推送最相关的资讯,过滤垃圾信息和噪音,给予用户随时在线的安全感,以便用户专注于最重要的事情。

简而言之,智能手表不应该是戴在手腕上的缩小版智能手机、另一个信息干扰源,而应帮助用户更好地活在当下,享受生命的真实和美好。

语音交互为何强:简单、直接、零学习成本

智能手表的天然限制(小屏幕、运动行进中的晃动场景)对其人机交互也提出了更高的要求:无论是用户输入还是最终的结果展现,都要简单快速、自然直接。

在这样的约束下,没有语音而只有触控的“智能”手表必将会是一场灾难。智能手表的小屏幕决定了其不适合精确的键盘输入及触控手势,试想一下,在那块伸出两根纤细的手指就能几乎遮挡整个表盘的狭小屏幕上,要求用户用指尖去进行小心翼翼的精确点击输入,那将会是多么尴尬;当行走在寒风中,双手提着大包小包的购物袋时,你不太可能腾出双手去触摸手表;另一些场景下,不合理的交互方式甚至会危及生命安全。

比如在驾驶汽车的时候,用户需要的是精神目光集中在路面,双手随时紧握方向盘和换挡机构。这时候用手去操作智能设备,哪怕是多一秒种的分心,都可能换来生命的代价…… 在这种情况下,如何减少触摸操作,解放双手,与机器进行自然直接的交互便显得尤为重要。

日常生活中,语言是人与人交流的最常用和直接方式。在电影《星际穿越》中男主角马大少与机器人TARS 对话式的交互令人印象深刻。即使身陷五维空间,马大少依然可以用自然语言向TARS咨询信息和下达自然语音指令。电影虽然虚构,但这样的交互着实令人神往。自然语言对话式的交互,即使是老人和小孩也无需学习。用户可以“无感”地唤醒设备,“无缝”地获取信息、给予指令,毫无生涩和违和感,这才是最好的智能设备交互方式。

从科幻回到现实,目前的智能手表大多仍以触控交互为主,尽管Android Wear和Apple Watch都在有意简化触控并引导用户更多地使用语音交互,但功能仍未尽善尽美,尤其在国内Google Now和Siri的中文识别体验更是不尽如人意。谷歌苹果尚且如此,更不用说其它一些备受用户“神吐槽”的各种语音交互软硬件了。

那么问题来了,既然语音是最简单直接的交互方式,为何现在难以成为主流,甚至仍被用户诟病呢?

真正的症结在于目前的语音交互技术尚不能达到人类的预期。由于环境噪音、网络不稳定等先天因素,使得很多时候系统并不能很好地接收用户的语音输入。即使系统听到了用户的语音并成功将其转化为准确的文本(语音识别),目前的算法也不能完全理解用户的真实本意(即语义识别),更不用说后续的准确搜索执行和结果呈现了。

目前市面上很多所谓的人工智能语音,大部分还是要求用户按照预置命令模板进行交互,用户需要付出较大的学习成本来适应机器。比如在某些所谓的“智能”车载设备上,用户必须说先说“导航”启动导航界面,然后说“北京”、“某区某街道”, 机器才能一步步识别找到目的地。如果用户直接说 “我要去某地”,机器是无法识别你的意图的。甚至有时用户已经按照预制模板来进行交互了,却仍然得不到想要的结果。太多时候,机器听不清楚,也听不懂用户在说什么。这样的人工伪智能,本身技术不成熟,营销宣传的时候又盲目夸大,导致了用户对语音交互产品的进一步失望。

渐进式革命:短期“触控+初级语音”,长期“全智能语音”

显然,生硬的预制语音命令肯定无法满足用户的需求。真正的人工智能语音交互,应该让机器来学习和适应人,而不是让人去适应机器。比如,机器应该可以在识别当下地点和时间的基础上,基于用户历史操作数据,进行用户喜好学习,深入地理解用户的语音输入,给出最佳的答案。用户无需多说,机器便可以准确判断用户意图并高效地执行。这样的交互,才是“心有灵犀,说到做到”,才能算真正的智能语音交互。

短期来看,智能手表交互采取的方式将是传统的触控交互与初级的智能语音交互的结合。触控操作仍将应用于绝大多数场景,但在一些特定场合简单的任务下,语音交互可以让用户更加快捷、方便、优雅的实现操作目的。第一代智能手表的领军产品,可以没有复杂成熟的语音交互,但至少需要有初级的语音系统,可以做到与触控操作并存互补。而长期来看,智能语音交互必将逐步取代触摸等传统交互方式, 实现人与人对话式的自然语言交互。

其实,让用户使用语音与机器系统交互并不存在习惯问题,因为自然语言交互本身的学习成本几乎为零。关键在于语音交互是否真正可为用户带来便利,因为人的“懒惰”天性永远会趋向选择最小投入,最大产出的操作路径。这种例子其实已经不在少数:一旦你习惯了iPhone上的TouchID指纹解锁、Macbook上的多点手势操作,便会觉得“输密码”和“点鼠标”是种非常“反人性”的交互;一旦你习惯了摄像头“扫一扫” 二维码,便不会再喜欢“ Ctrl C + Ctrl V”的粘贴复制网站地址;一旦你习惯了手机支付宝上简单快捷的支付,就会开始厌烦用银行卡或者现金进行繁琐的交易... … 未来,一旦你习惯了一抬手问“明天会下雪吗?”,还会愿意回到手机上从无数的App中打开天气程序去查看天气吗?

什么时候是语音技术的奇点?

能否尽快的实现真正的智能全语音交互,在根本上还是取决于技术的进步和产品的完善。用户看似简短的一个个语音指令输入的背后涉及到了整合优化语音识别、自然语言处理、机器学习、大数据、精准搜索等诸多技术难点,难度可想而知。令人鼓舞的是,过去的几年内,人工智能语言技术已经有了长足的发展。现在的语音识别技术在大多数时候已经能够比较准确的识别用户的语言文字。随着技术和产品的高速成熟和发展,全智能语音时代的到来绝不会太久。智能语音技术“奇点爆发”之时,便是传统触摸操作和繁琐的App交互的终结之日。

总之,智能手表作为语音交互的最合适应用场景之一,从诞生的第一天起,就注定离不开智能语音技术。作为狂热的极客和理性的用户,我们允许一块智能手表目前暂时没有真正的“智能语音”,但我们绝不接受因噎废食,退而求其次的妥协。因此,没有语音交互,别跟我谈智能手表。