阿里巴巴智能实验室开源了语音识别模型DFSMN,  在多个大词汇量连续语音识别任务包括英文和中文上验证了DFSMN的性能。在目前流行的2千小时英文FSH任务上,DFSMN模型相比于BLSTM模型可以获得1.5%的性能优势且模型参数量更少。在2万小时的中文数据库上,LFR-DFSMN相比于LFR-LCBLSTM可以获得超过20%的相对性能提升。18年举行的云栖大会武汉峰会上,装有DFSMN语音识别模型的“AI收银员”在与真人店员的PK中,在嘈杂环境下准确识别了用户的语音点单,在短短49秒内点了34杯咖啡。识别模型DFSMN的开源对全球学术界和AI技术应用将有积极的影响。

[repo owner=”alibaba” name=”Alibaba-MIT-Speech”]