
音频初创公司Krisp周三表示,他们正在推出一项新功能,利用人工智能在通话过程中改变用户的口音。该公司最初推出支持将印度英语口音转换为美国英语的功能。
这家初创公司表示,口音转换过程会保留说话者的声音,只会切换音素以匹配美国口音。该功能显然已在企业环境中进行了测试,而现在beta版本即将推出Krisp桌面应用。用户可以在通话期间或之前随时启用该功能。
该公司的联合创始人Arto Minasyan表示,这一功能的想法源自他在对话中遇到的问题。“许多人即使我讲英语很好,也听不懂我的口音。我们认为改变口音可能会帮助人们更好地理解彼此。我们两年前开始研究这个问题,现在我们正在推出beta版。” Minasyan说。
然而,当本记者测试该功能时,处理后的声音听起来不自然,有时甚至漏掉了一些单词。公司将这些错误归因于这是一个beta版本,表示模型会随着时间改进。
Krisp声称,在与企业测试该功能时,销售转化率提高了26.1%,每本书的收入提高了14.8%。

该公司表示,他们决定首先解决印度口音的问题,因为该国的人员在STEM领域占全球劳动力的很大比例。他们计划为更多口音,包括菲律宾口音,提供支持。
像GV支持的Sanas等其他初创公司已经在呼叫中心大规模部署了类似的技术。
该公司表示,他们在成千上万的语音样本上训练了模型,涵盖了不同的口音和方言,并在获得用户同意后使用了来自其会议助理的数据。
Minasyan表示,该功能的另一个优点是不需要在用户的语音上进行任何预训练,因为它会实时为说话者创建一个个人资料。
Krisp在2021年最后一次融资后,计划于今年发布iOS和Android应用程序,以支持面对面会议。还在筹备一个新的Chrome扩展,以更好地与Google Meet集成。