首页新闻手机家电数码电脑财经大模型直播

口音识别难倒AI：“人机交互”的未来还有多远？

来源：云自推软文平台文：薛刚 2020-11-05/17:38

科技滚动

正文

让机器“听懂”人类语言，是“语音识别”技术自诞生起，就一直致力的目标。

自20世纪中叶以来，经过近70年的发展，特别是随着深度学习技术的引入，自动语音识别已取得突破性进展——在标准口音、常见词汇、安静环境的应用场景下，机器已然具备接近人类的“听觉”能力。

然而，一旦面临口音、方言等情境，AI便显得有些“力不从心”，哪怕你一字一句尽力向智能设备发出清晰的指令，得到的回答仍可能是：“对不起，我好像不明白你在说什么……”

语音识别技术发展的终极目标，是实现自然、顺畅的“人机交互”，正如同人与人的交互。如何解决横亘在当下的这道难题，抵达人类畅想的智能未来，已成为全球智能语音技术公司共同面对的挑战。

全世界的AI，都栽在了“口音”上？

口音、方言等问题，困扰着几乎全世界所有的智能语音助手。

2018年，《华盛顿邮报》曾与Globalme、Pulse Labs两家语言研究公司合作，研究智能音箱的口音识别问题，结果显示，谷歌智能音箱Google Home更容易“听懂”美国西岸口音，对南部口音的识别准确率则要低3%；而亚马逊Echo搭载的语音助手Alexa，识别东岸口音的准确率要比中西部口音高2%。

更大的问题还在于对非本土口音的识别。研究显示，对于非英语母语者，比如以西班牙语或汉语作为第一语言的人所说的英文，不论是Google Home还是Amazon Echo，其识别准确率都要比美国本土口音低30%，而拉丁裔和华裔是美国的两大移民族群。

这项研究结果引起了人们对智能语音助手“地域歧视”问题的广泛关注。实际上，不只是Google Home和Amazon Echo，市场上主流的智能语音设备，在应对方言、口音等非标准语言场景时，表现都差强人意。

在中国市场，这个问题同样凸显。

所谓“十里不同音，百里不同俗”。作为一个幅员辽阔的多民族国家，我国56个民族使用的语言分属五大语系，共有80种以上语言。其中，汉语的使用人数最多，分为标准语（普通话）和方言。

根据教育部2019年发布的《中国语言文字概况》，汉语方言通常分为十大方言，各方言区内，又分布着若干次方言和许多种土语。部分方言之间差异很大，无法通话。为了消除语言隔阂，国家在全社会大力推广普通话。然而，来自天南海北的人们，又赋予普通话五花八门的口音。

带有鲜明地域特色的口音，虽然对于人们的日常交流无伤大雅，有时还带来些“塑料普通话”的乐趣，但你的智能语音助手就乐不起来了，甚至在它听来，你说的极有可能是另一门语言……

与此同时，用户也很恼火：“难道普通话不过一级乙等，我就不配拥有智能音箱？！”

口音、方言识别，到底难在哪儿？

从理论上来说，只要有足够的数据供机器进行训练，那么让AI识别任何一种语言或口音，都不是问题。

以人机交互为目的的语音识别，是一个把声学信号转化为文本信息的过程。目前主流的语音识别框架主要由三个部分组成：声学模型（AM）、语言模型（LM）和解码器。可以形象地理解为：声学模型负责找到对应的拼音，语言模型负责找到对应的句子。

要得到一个出色的语音识别模型，需要有大量标注数据的训练，简单来说：首先，要进行语音内容的采集；其次，需要人工对这些语音进行标注，将语音内容转写成文本，让算法能够识别它；之后，算法再将识别后的文本内容与对应的音频进行逻辑关联。经过这样大量、反复的学习训练之后，机器就能实现语音识别了。

“对于方言、口音的识别来说，最难的部分是在于语音数据的采集。”百度智能云数据众包项目专家曹静文表示。

2019年9月，百度数据众包团队曾执行过一个藏语方言语音采集的项目。客户为了提升藏语方言的识别和翻译准确率，与百度团队合作，招募870位藏民，整体采集87万条藏语语音，覆盖安多、康巴、卫藏等三个藏语方言区。

藏语与汉语同属汉藏语系，但与汉语这样资源丰富的语言不同，藏语属于低资源语言，目前全世界约有800万人使用藏语，训练数据稀少。

曹静文介绍，藏区采集工作面临安全风险大、质检难度高等挑战。整个项目过程涉及诸多环节，从按需定制采集方案，到采集布点、人员招募、培训、隐私授权，再到对采集流程、进度和项目风险进行把控，最后经过多轮质检，在数据核验通过后，才能最终交付确认。

百度团队在第一时间联系到当地的资源布点，并派遣项目经理前往西藏、青海等地指导采集。最终该项目用时一个半月，实际交付数据92万条，验收合格率高于95%，满足交付要求。

“这个过程往往成本高昂、流程繁琐，还存在诸多门槛。”曹静文表示。

应对“数据稀缺”，众包模式受青睐

语料库的质量越高，语言模型越丰富，语音识别的准确率就越高。如何获取大量训练数据，就成为AI在口音、方言及低资源语言的识别上，面临的关键问题。

全球各大AI巨头和前沿的科技公司，都在积极致力于解决这个问题。

一方面，对于投入市场的智能语音产品来说，随着越来越多拥有不同口音的用户与其进行交流，训练数据持续积累，语音助手的识别能力会不断提升。另一方面，在自身语音数据集的扩充上，一些公司也在尝试采取各种“众包模式”。

“众包”是一种分布式的问题解决和生产模式，企业通过互联网，以自由自愿的形式，将工作分配给外部的大众群体。

比如，谷歌、亚马逊等科技巨头，以游戏的形式鼓励用户使用不同地区的方言进行交谈；国内智能语音企业科大讯飞推出“方言保护计划”，鼓励用户“留下乡音”，共建“中国方言库”；一些机构和企业呼吁齐力“献声”，打破巨头公司的数据垄断，建立开源开放的语音数据集等。

这些方式实际上都是以众包模式，获取大量的语音训练数据。

“众包模式的优势在于，可以低成本、高效率地整合资源。”曹静文表示。

2019年底，百度数据众包团队承接了一项海外英文语音采集项目。某手机厂商为了提升海外各国英文唤醒词的识别率，需要采集海外不同地域用户的英文语音，包括亚太地区口音、英式口音、美式口音、印式口音及阿拉伯口音，需招募2000人，总数据量为20万条。

“这个项目的难点在于，要求采集的用户口音遍布多国，交付时间短，且对用户的性别、年龄段要求严格。”曹静文说，“但我们通过百度覆盖全国及全球22个国家的资源池，在短时间内招募到了全球多种口音用户参与采集。”

项目执行期间，恰逢春节假期和突发的新冠疫情，百度团队通过国内线上和国外线下的采集方式，执行布点覆盖9个国家，用时45天，按照客户要求完成了全部数据交付。

实践证明，众包模式的确是完善语音数据库的一条有效路径。

但光有数据库的支持还不够。要提高某种语言的识别准确率，还需要对该语言的文化、语素、音素等有相当的研究。因此，要实现方言、口音的准确识别，也需要方言学者、音韵学者等专业人士的深度参与。

此外，另一个现实情况是，一些方言和低资源语言，很难提供充足的数据资源以供采集。这种情况下，探索如何通过迁移学习，用较少数据量得到一个好的声学模型，就成为当前一个热门且极具价值的研究方向。

---------------------------------------------------------

免责声明：

1.本文援引自互联网，旨在传递更多网络信息，仅代表作者本人观点，与本网站无关。

2.本文仅供读者参考，本网站未对该内容进行证实，对其原创性、真实性、完整性、及时性不作任何保证。

{{cmoun}}人已赞

评论 {{userinfo.comments}}

{{c.nickname}}
{{c.create_time}}

{{c.content}}

点赞已赞 ({{c.count_praise}}) 回复({{c.count_reply}})

{{child.nickname}}
{{child.create_time}}

{{child.content}}

查看全部评论

{{money}}元

A {{question.A}}

B {{question.B}}

C {{question.C}}

D {{question.D}}

提交

专题更多

2024年度中兴通讯云网生态峰会

聚焦315提振消费信心专题报道

口音识别难倒AI：“人机交互”的未来还有多远？

{{c.nickname}} {{c.create_time}}

{{child.nickname}} {{child.create_time}}

昨夜今晨：宇树发布全球首款载人变形机甲 理想自研马赫M100超高算力芯片

苹果首款折叠屏iPhone曝光：仅售两款低调配色，定价或14999元起

微信状态访客记录冲上热搜！客服回应：仅iOS端灰度测试中

“智驾平权”落地，增配不加价！比亚迪2026款海鸥正式上市，售价6.99-9.79万元

告别“凑钱”烦恼！微信转账灰度测试“组合支付”新功能

苹果首款折叠屏iPhone曝光：仅售两款低调配色，定价或14999元起

REDMI K90 Max 测评：风冷散热的“全能选手” 重新定义游戏旗舰天花板

一加 15T 售价 4299 元起，性能续航超越大屏，旗舰体验完胜小屏

vivo蓝图影像专业再突进，新一代“专业V单”装进完整创作系统

无感折痕，久用平整，全新OPPO Find N6开启折叠屏无感折痕新世代

国产电视彻底主导国内市场，三星索尼等外资品牌份额跌破3%

2026洗地机选购终极答案：为什么说石头是首选？

TCL发布会解析：Q9M Pro领衔，T7M系列双星登场，163吋Micro LED双曜压轴

石头A30 Pro Steam 2.0深度评测：180℃超能蒸汽双效洗地，让清洁回归本质

莱克定义“品质家电新三件”，2026AWE引领健康智能生活新潮流

双积分双榜单登顶！比亚迪以长期主义领跑汽车产业低碳转型

双11华为笔记本怎么买？一篇看懂各款特点与超值优惠

性能、续航、AI都有料！Hi MateBook D 16真实使用体验分享

荣耀新突破：挑战极限！即将发布重量不足980克的超级轻薄笔记本

苹果Vision Pro国行版开启预购，1TB版售价32999起

抖音上线电影评分功能 多部热映影片均低于及格线

黄仁勋央视猛夸华为、小米、DeepSeek等：我不是尬吹 中国是真强

直播电商：抖音、快手、视频号上演“刀光剑影”

小熊电器一季报业绩下滑：短期承压明显，销售费用再创新高

第四范式亏损有所收窄：短期股价大跌，客户高黏性被机构看好

小米公布 MiMo Orbit 计划进展：已累计送出近 80 万亿 Token

苹果AI耳机或“难产”：隐私合规成最大拦路虎

赛博禅意：宇树G1在韩国受戒出家，立下“不过度充电”新戒律

摩尔线程一季度营收大增155%，首次实现单季度盈利

OpenAI正式发布GPT-5.5：智能体能力飞跃，效率与成本实现双重突破

奥运观赛AI新体验！通义App上线“赛事百事通”等多款新功能

云计算首次超越卫星！超三分之二奥运直播信号基于阿里云向全球分发

国际奥委会主席巴赫：阿里AI技术将巴黎奥运转播带到新高度

“崩”了的阿里云，能靠AI带动增长？

芯片生产，磨难重重

高端MPV市场迎来重磅玩家！鸿蒙智行首款MPV智界V9正式上市

小米汽车官宣定档！“纯血GT”跑车级SUV YU7 GT 5月底正式发布

华为、江淮与斯特兰蒂斯洽谈合作，玛莎拉蒂新能源车或成“尊界”姊妹车型

方程豹豹8豹5闪充版上市， 首搭首发比亚迪云辇-P Ultra

纯电SUV第一个！岚图知音1300km京沪线只充一次电，辅助驾驶0退出

云计算迎变局：阿里云、腾讯云“各有千秋”

Sora正在颠覆游戏行业，CEO们该怎么应对？

处置1.9万个账号和240万条视频，抖音治理不实信息这一年

道总有理：苹果其实不想成为全球第一

抛开大模型故事，阿里、抖音、京东都在攻坚AI电商哪个方向？

西北工业大学研究团队模仿萤火虫通信机制 实现无人机光链路协同飞行

价格才不是小米汽车的最大“杀器”

懂车帝与车企争论的背后，新能源测试标准何时迎来终局？

惨！判赔10亿巨款，阿里卸下包袱重新出发

立讯收购Qorvo中国工厂的幕后推手

专题 更多

驱动号 更多

{{c.nickname}}
{{c.create_time}}

{{child.nickname}}
{{child.create_time}}

昨夜今晨：宇树发布全球首款载人变形机甲理想自研马赫M100超高算力芯片

抖音上线电影评分功能多部热映影片均低于及格线

黄仁勋央视猛夸华为、小米、DeepSeek等：我不是尬吹中国是真强

方程豹豹8豹5闪充版上市，首搭首发比亚迪云辇-P Ultra

西北工业大学研究团队模仿萤火虫通信机制实现无人机光链路协同飞行

专题更多

驱动号更多