不久前,阿里正式发布了语音音箱“天猫精灵X1”,它的唤醒词,就是“天猫精灵”。 天猫精灵的价格,只需要499元人民币。这个价钱,相比起市场上的其他 智能音箱,确实非常便宜,此前苹果Home Pod售价349美元,Google Home129美元,触屏版的 亚马逊Echo是230美元。
而直到本月初,阿里才正式发布智能音箱天猫精灵X1,既出乎意料又在情理之中,使得语音入口的争夺战因为阿里的入局变得更加有趣。
那么,阿里的智能音箱到底带来了哪些有别于其他同类产品的惊喜?
眼前一亮的“惊喜”
此前有媒体称,为了这款智能音箱,阿里巴巴甚至将马云投入上亿美元的Pepper机器人项目中止,把人员队伍拆分划进人工智能实验室。而花了这么大代价出来的产品好像似乎与Echo等音箱并无本质上的差异,所含功能大致包括播音乐、叫外卖、查天气、设闹钟、操控等。
根据天猫精灵对外宣传的卖点,其中非常重要一点就是连Echo都不具备的声纹识别功能。
阿里称,通过声纹识别技术,音箱可以分辨家里的每一个人,并且根据每个人的喜好而设定推送不同的内容,目前最多可以识别6个人的身份;另外,用户还可通过自己的声音完成购物支付验证环节。而Echo在分辨人的身份上,还需要通过进一步操作来获取用户的个人信息。
让记者好奇的是,如此酷炫的功能为何亚马逊至今都还没用在Echo上。
据悉,亚马逊很早就想应用这项技术,但据亚马逊员工介绍,从声纹识别领域的硬件和 软件公司中得到的反馈看来,让这些语音控制设备去识别不同用户的声音比想象中要艰难很多。
“由于设备需要去除噪音,回声,混响,使得它难以对听到的发声者的身份进行识别。”Conexant语音部门副总裁Vineet Ganju说道。
那么拥有声纹识别的天猫精灵真的能撑起它所重点诉求的这个卖点吗?
我看悬。 声纹识别功能为什么悬?
先从声纹识别算法层面讲,声智科技创始人陈孝良博士此前在接受雷锋网专访时表示,声纹识别还是一个比较窄的学科,应用也相对较少。现在大部分研究都是有关动态实时检测,动态检测的方法自然要利用静态检测的各种原理方法,同时也需要增加其他很多算法, 比如VAD、降噪、去混响等。VAD的目的是检测是不是人的声音,降噪和去混响是排除环境干扰。
VAD常用两个方法,基于能量检测和LTSD(Long-Term Spectral Divergence),当前用的较多是LTSD,另外特征提取方面还需要:动态时间规整(DTW)、矢量量化 (VQ)、支持向量机 (SVM),模型方面则需要隐马尔可夫模型(HMM)和高斯混合模型 (GMM)。
从上面模型不难看出,声纹识别还是一种基于数据驱动的模式识别问题,因为所有模式识别存在的问题声纹都存在,而且声纹识别还有一些不太好解决的物理和计算问题。
声纹识别的唯一性很好,但实际上现有的设备和技术仍然很难做出准确分辨,特别是人的声音还具有易变性,易受身体状况、年龄、情绪等的影响。若在环境噪音较大和混合说话人的环境下,声纹特征也是很难提取和建模的。 现阶段,远场声纹识别理论并不成熟,研究进展也不大。 |