Gboard更新引入AI离线听写功能澳门新葡亰app平台,谷歌全新离线语音识别模型更小

语音识别是Siri、Alexa和Google等智能手机的重要组成部分,但这些语音识别系统有一个很大的缺点,那就是会有相应的延迟,用户必须等待Siri或其他虚拟助手来响应查询,而且如果语速过快就有极大可能造成误解。

谷歌近日在对Gboard输入法的更新中,为Pixel手机用户引入了基于人工智能的离线听写功能。谷歌表示Pixel用户并不需要担心是否已经连接网络,都可以更快更可靠的听写电子邮件和文本信息。负责谷歌语音和移动输入的团队负责人和科研专家Françoise
Beaufays表示:“设想下这样的场景:你要出门但是你要给某人发送‘我要迟点到’的短信,由于你离开WiFi网络覆盖区域且没有激活蜂窝网络因此你无法获得网络连接,而现在这不是问题了。”

有延迟出现是因为用户的语音以及从中获取的数据必须从要手机传输到服务器,在那里进行分析后再发回。这可能需要从几毫秒到几秒的时间,如果数据包在过程中不小心失,则需要更长时间。

澳门新葡亰app平台 1

澳门新葡亰app平台 2

谷歌近日在对Gboard输入法的更新中,为Pixel手机用户引入了基于人工智能的离线听写功能。谷歌表示Pixel用户并不需要担心是否已经连接网络,都可以更快更可靠的听写电子邮件和文本信息。负责谷歌语音和移动输入的团队负责人和科研专家Françoise
Beaufays表示:“设想下这样的场景:你要出门但是你要给某人发送‘我要迟点到’的短信,由于你离开WiFi网络覆盖区域且没有激活蜂窝网络因此你无法获得网络连接,而现在这不是问题了。”

为什么不能直接在设备上进行语音识别呢?因为将语音转换成毫秒级的文本需要相当大的计算能力,这不仅仅是听一段声音和写一个单词,而是逐字逐句地理解一个人在说什么以及涉及到意图和整个语境。

澳门新葡亰app平台 3

当然,手机其实是可以做到这一点的,但这并不会比把手机上的内容发送到云端快多少,而且会大量耗电。但随着该领域的稳步发展,这一目标似乎已成为可能,谷歌就使得这一功能在Pixel上得到实现。

或许对于用户来说这是一个微不足道的改进,但是Beaufays表示虽然语音识别技术的改进将会慢慢改变我们同移动设备交互的方式。她指出虽然语音识别技术近年来有较大的改善,但仍然是一项不成熟的技术。它是计算密集型的,这意味着大多数语音识别系统必须通过互联网发送数据,结果是听写缓慢且不可靠。

为实现这一转变,Google团队花了五年时间研究问题并简化用于语音识别的AI系统。例如,旧版Gboard的听写软件由三个独立的组件来模拟音频波形,将声音与音素匹配,然后将这些音素组合成文字输出,更新后的版本将所有这些工作集合到一个步骤中。

Beaufays说:“设想下如果你所使用的输入法,只有网络连接不好就无法敲击键盘,那么你肯定不会再去使用这个输入法。”但是通过离线操作可以让听写变成一个更自然的选择。为了实现这个改变,Google团队耗费了五年时间对语音识别进行了深入的研究,并简化了用于语音识别AI系统。例如,旧版Gboard的听写操作使用三个独立的组件来模拟音频波形,将声音与音素匹配,然后将这些音素组合成书面输出,更新后的版本将所有这些工作集成到一个步骤中。

新模型还缩小了系统中被称为“解码器图形”的部分,这个组件的功能类似于书中的索引,将音频波形与书面文字相匹配。在Gboard的听写模型的旧版本中,这个解码器图形大小为2GB,对于设备上处理来说太大了。相比之下,新版本仅为80兆字节,缩小了25倍。

此外新模型还简化了系统组件“decoder
graph”,该组件就像是书籍中的索引的,能够将声波转换成为匹配的书面文字。在旧版Gboard的听写模型中,这个decoder
graph容量达到了2GB,这对于手机用户来说无疑是太大了。相比较而言,新版本只有80MB,小了25倍。

澳门新葡亰app平台 4

本次升级仅限于美国英语的听写,且仅支持Pixel系列手机。不过Beaufays表示未来将会面向更多语言开放。Beaufays表示:“从技术的角度来说,我认为我们可以在更多手机上实现这点,而不仅仅只是Pixel。而且我认为未来会在更多设备上支持更多语言。”

你只需要说出你的查询,它会立刻被转录下来,并直接显示。它听到了你的声音后会立刻响应,而不用等到你完成整个句子再去揣测你的意思。

但目前它只在谷歌键盘应用程序Gboard中工作,只在Pixel上工作,而且它只适用于美式英语。

“考虑到行业趋势,随着专业硬件和算法改进的融合,我们希望这里介绍的技术可以很快用于更多语言和更广泛的应用领域,”谷歌写道。

发表评论

电子邮件地址不会被公开。 必填项已用*标注