“声纹分析”因东京都议会的言语性骚扰问题而一举成名。该技术能以非常高的精度锁定发声者,是长期以来一直用于犯罪侦查和鉴定等,并不是什么新技术。另外,这项技术还曾用于一种意想不到的畅销商品。
近年来,随着大数据的利用机会日益增多,声纹也像指纹、基因信息等那样作为“个人数据”对待的讨论越来越活跃。对其也从多个角度进行了研究。
声纹可表现出发声器官的差异
那么,什么是声纹?从事声音鉴定、研发和咨询等业务的日本音响研究所网站对此有详细的介绍。该研究所是由日本的声音研究权威铃木松美设立的民营研究所。下面就对声纹作简要介绍。
人类的声音是多种频率声音的集合。把各种频率的声音在何时分别含有多少进行视觉化,就会形成像指纹那样的纹路。每个人的纹路各不相同。由于是声音的纹路,因此被称为“声纹”。
每个人的声纹各不相同,这是因为,每个人的发声器官(口腔、鼻腔、声带)、嘴唇和舌头等的形状都有不同。例如,已知声音的三要素之一“音色”取决于口腔和鼻腔的容积以及结构(另外两个要素是“大小”和“高低”)。正因为有这些特点,才能根据声纹锁定个人身份。
利用声纹锁定个人身份的前提,是与确定为本人声音的原始数据进行比照。但据称,即使没有原始数据,也可以根据声纹推测出人物肖像。也就是根据声纹的特点,大致掌握性别、年龄、身高和脸型等。
“狗语翻译机”也利用了声纹分析
声纹主要被用于犯罪侦查和鉴定。由于声纹与指纹一样,可以锁定个人身份,因此还经常用于人体认证。具体如,笔记本电脑和智能手机等便携终端、金融机构的本人认证、办公室等的进出管理等。
此外,声纹还有一个令人意想不到的用途,那就是玩具。具有代表性的是TAKARA公司(现为TAKARA TOMY)2002年推出的狗语翻译机“Bow-Lingual”。
“Bow-Lingual”
该产品还获得了“搞笑诺贝尔奖”
Bow-Lingual是一种交流工具,通过对狗叫声进行声纹分析,将狗的感情分为“受挫”、“威胁”、“自我表现”、“高兴”、“悲伤”、“需求”六种,根据不同的感情,可在屏幕上显示大约200种语句。由于与狗朝夕相处的主人自己也能了解宠物的感情变化,所以只是对感情进行分类的话并没什么意思,将其翻译成人类的语言估计才是该产品畅销的原因。2003年,猫语翻译机“Meow-Lingual”也面世。Bow-Lingual和Meow-Lingual的声纹分析都采用了前面提到的日本音响研究所的技术。
Meow-Lingual
能否作为个人信息?
虽然声纹以多种形态在使用,但由于是能锁定个人身份的信息,应该如何使用目前还在讨论中。据《日本经济新闻》电子版2014年6月16日的《政府将就个人信息大数据运用规定提出修正草案》报道,因为互联网上大量存在能锁定个人身份的信息,而以企业为中心,大数据的利用机会在日益增加,因此,日本政府正在讨论修改《个人信息保护法》。日本政府的IT综合战略本部在6月9日提出的修正草案中规定,声纹与指纹将和基因信息等一样,作为个人信息对待。
与指纹和基因信息相比,声纹是不用特意采集就能轻松获得的数据。虽然非刻意为之,但东京都议会言语性骚扰问题曝光后,声纹的“威力”还是广为人知了。随着用途的扩大,关于对声纹利用的讨论可能还会继续。