本篇文章2841字,读完约7分钟
边策发自凹非寺
量子报道|公众号qbitai
最近,全球语音高层会议interspeech公布了“深度降噪挑战”( deep noise suppression challenge )的比赛成绩,Sogou在西北工业大学语音语言解决研究小组(以下简称Sogou-西工大
在这个面向语音增强任务的竞赛中,Sogou-西工大联合团队提议的新的多个增强互联网结构DC CRN ( deepcomplexconvolutionrecurrentnetwork )在实时降噪课程中明确了
冠军技术的降噪效果怎么样,先听听声音吧。
经过Sogou-西工大联合队的技术解决,背景的吵闹声完全被消除,仿佛置身于安静的工作室。
但是,降噪效果好的不是dns挑战的唯一要求,背后有多个我们“听不见”的困难。
大会难点与团队创新
为了测试各种技术的实用性,dns质询对降低语音噪声的硬件和延迟提出了非常严格的要求。
在现场课程中,要求降低噪音解决的声音和原声几乎是同步的。 具体规则如下。
对于1帧长为t毫秒的音频,2.4ghz的酷睿i5四核cpu不能超过t/2毫秒。 未来的帧新闻不超过40毫秒。
也就是说,参加者必须以( t/2+40 )毫秒的延迟消除语音中的背景噪声。
Sogou工程师表示,他们与西工大共同开发的模型可以将延迟控制在60毫秒以内。 如果在视频聊天中使用这个技术,客户很少感觉到声音不同步。
为了防止作弊,微软的dns挑战对参加者还有一个要求。 也就是说,不能在盲测试数据集上继续训练调试模型。 另外,必须采用interspeech收录的论文技术。
Sogou-西工大联合团队采用的技术来自他们在大会上收录的论文: DC CRN
这篇论文的创新点是利用多个卷积周期互联网( crn )解决频域信号。
以前传来的语音解决方案主要是从基本的卷积神经互联网( cnn )或循环神经互联网( rnn )预测频谱。
但是,为了在频域中解决信号,时域信号经过短时间傅立叶变换,在时域中成为复数,该复数中包含信号的振幅和相位。
以往,也有采用多个频谱作为训练目标的人,在实值互联网进行训练,将实部和虚部视为两个输入通道,用一个共享卷积核分别解决了实部虚部。
这种做法不限于复数乘法规则,等于分离两个关联量。
为了解决这个问题,Sogou-西工大联合团队设计了一种新的互联网结构,称为深度复卷积循环互联网( dccrn ),cnn和rnn结构可以解决复数值运算。
crn集成了卷积编码器-解码器( ced )结构和长短期存储( lstm ),用多个lstm替换了以前传输的lstm。
简单来说,dccrn用一个卷积核解决实部,用一个卷积核解决虚部,用复数乘法规则将其连接起来。 复数模块通过复数乘法建立了幅度和相位的关联性,比较有效地提高了实部和虚部的估计精度。
仅370万个参数,Sogou-西工大联合队最终提出模型的mos初战得分就与亚马逊并列第一,复战时比亚马逊高0.03分( overall )。
Sogou为什么能合格
亚马逊和facebook等大型科学技术人员参加,Sogou为什么能打败很多强大的对手,获得语音降噪技术的第一名?
这与Sogou过去的长期技术积累有关。
除了这次发表的dccrn外,Sogou过去多次将技术成果收录到国际顶级学术会议中。
例如,对去年收录在icassp中的论文“基于模态观察力的端到端视觉语音识别”进行Sogou是Sogou多模态构想在降噪技术中的应用。
该技术利用语音+唇语的方法,使信噪比为0db (相当于语音信号和噪声大小)时的识别精度提高了30%。
Sogou致力于语音技术,也有企业业务上的考虑。
Sogou的语音输入法、检索、翻译等业务越来越采用语音识别。 Sogou近年着力的硬件事业也在ai基础技术的支持下获得了良好的评价。
在这次比赛之前,我们将另一种purevoicepurevoice深度降噪算法应用于ai录音笔等本公司产品。
前几天,罗永浩在第一次现场广播中,与SogouCEO王小川共同推荐的Sogou高端ai录音笔s1,向观众展示了Sogou的强大降噪能力。 即使现场有吹风机那样强的噪音,通过Sogou录音笔s1也能清楚地再现人声。
其售价2000多件,比市场上大部分竞争产品都高,但由于有ai降噪技术的支持,该旗舰产品很快销售,征得顾客同意,说明ai技术是录音笔的核心竞争力。
另一方面,Sogou积极探索将ai基础设施作为服务提供给产业的采用,不限于在家采用。
去年,Sogou向索尼、爱国者、纽曼等录音笔企业品牌开放了“Sogou听写”服务,作为基础ai服务占领了录音笔市场。
作为技术主导的企业,Sogou不断将新技术注入产品,在比赛中获胜的dccrn技术已经是“中途”,将来打算导入录音笔。
语音降噪前景几何图形
除了对现有业务进行Sogou以外,语音噪声降低的应用场景还不止于此。
在今年疫情的推动下,网上办公软件成为了大企业的“必杀之地”。 海外微软谷歌、国内bat今年迅速反复升级在线会议功能。
许多复杂的家庭办公环境给在线会议带来了巨大的挑战。 如何消除ai技术的背景噪音是各大科技企业正在处理的问题。
最近,英伟达推出了视频会议的降噪工具,消除了敲键盘、喝水等噪音,提高了视频会议的质量。 但是,这项技术需要使用英伟达的rtx中高级图形卡,大幅限制其采用者。
如果计算能力低,能够用更便宜的设备实现噪音降低,肯定会给更多的客户带来好处。 这也是Sogou技术团队努力的方向。
Sogou工程师表示,dccrn降噪技术适应不同规格的硬件,坐在手机电脑上,下到小录音笔芯片上,有更广阔的应用空间。
如上所述,Sogou-西工大联合团队开发的技术延迟不超过60毫秒。 超低延迟是什么意思?
通常,蓝牙耳机的音频延迟通常在200毫秒以上,在线游戏画面的延迟也在100毫秒以上。
我们今后使用的无线降噪耳机、游戏语音对话可能会受益于这项技术。
Sogou语音技术频繁更新排行榜的背景应该是Sogou对ai降噪语音领域中“基石”地位的想法。 我很期待今后Sogou在产业中会发挥什么样的作用。
——完
本文是网易信息网易号特色文案激励计划合同账号【量子位】原创文案,未经账号授权,禁止擅自转载。
每天五分钟,抓住领域迅速发展的机会
如何关注、学习和使用人工智能?
各工作日,量子ai内参精选世界科学技术和研究的最新动态,总结新技术、新产品和新应用,整理当天最热领域的趋势和政策,检索有价值的论文、教程、研究等。
而且,ai内参群为大家提供了交流和共享的平台,更好地满足了大家获取ai信息、学习ai技术的诉求。 可以用扫描仪订阅:
加入ai社区,与优秀的人交流
量子比特qbitai ·头条号签约人
' '跟踪ai技术和产品的新动态
原题:“录音降噪哪家强? Sogou西工大联合队dns挑战赛冠军”
阅读原文。
标题:热门:录音降噪哪家强?搜狗西工大联合团队DNS挑战赛夺冠
地址:http://www.3mta.com/xlxw/19784.html