今年2月,谷歌推出了一款名为Live Transcribe的Android应用程序,其语音识别技术由谷歌最先进的Cloud Speech API提供然而,由于依赖于云服务,网络连接的不断变化、数据成本和延迟等问题带来了一些挑战。
因此,谷歌将其开源,希望开发人员可以在现有基础上进行进一步的开发和应用

值得注意的是,Cloud Speech API目前无法支持无限的音频流为解决这一难题,团队采取了一些措施,例如在达到超时之前关闭并重新启动流式传输请求,这可以有效减少会话中丢失的文本数量此外,Live Transcribe支持超过70种语言,并能够自动识别语音语种,包括中文。
另外,由于实时语音转录需要随着语音输入不断产生转录文本,因此降低延迟至关重要。该引擎能够大大降低延迟率,这要归功于其自定义Opus编码器的出色性能。
来源:火资源软件