Live Transcribe语音引擎是Google开源的 Android语音识别转录工具,可以将语音或对话实时转录为文字,也能为听障人士提供帮助。Live Transcribe 早在今年2月就已经推出,语音识别由谷歌的Cloud Speech API提供。但谷歌表示依赖于云对于网络连接、数据成本和延迟增加了复杂度和不确定性。因此,谷歌把Live Transcribe 的语音引擎开源出来,鼓励开发人员搭建服务并进一步开发和完善Live Transcribe语音引擎。Live Transcribe 语音引擎遵守Apache2.0开源协议。

Live Transcribe的自动识别语音引擎ASR( automatic speech recognition) 模块包含以下特性:

  • 无限流媒体。
  • 支持70多种语言(包含中文)
  • 减少网络数据丢失(在网络和Wi-Fi之间切换时)。文字不会丢失,只会延迟。
  • 优化扩展网络损耗。即使网络已经停电数小时,也会重新连接。
  • 优化减少服务器出错
  • 支持启用和配置Opus,AMR-WB和FLAC编码。
  • 包含文本格式库,用于可视化ASR置信度、发言人ID等
  • 可离线模型扩展
  • 内置支持语音检测器,可在延长静音期间用于停止ASR,以节省资金和数据。
  • 内置支持扬声器识别,可根据扬声器编号标记或着色文本。

 

[repo owner=”google” name=”live-transcribe-speech-engine”]