【姐妹日常】XXIV.声音识别与合成技术(2)
“这些都是问题。而且,小爱音箱的音频处理器输出的是完整音频,还需要用一个语音识别软件把它拆成一个字一个字才能输入SV. ACE经过咱们和他们工程师的一通魔改成功加入了语音识别模块,可以直接输入很长的整句,但咱的SV从底层算法上就不太契合整句渲染,还得插进一个中间的转换芯片。如果我们想跳过这一步,难度堪比自研一个小爱音箱。”
“那你可以考虑换成我的声音。除了你今年这个新AI,我们其他人都是采样声库,用那个转换芯片识别出一个个音素然后直接从采样中找对应的去拼成一句话,可能会更容易一点。虽然这样无法运用拆音拆轨这类高阶调校手段,但至少能发出比较流畅的声音。而且,姐妹们的采样流程都是一样的,你可以集成进大家乃至其他SV声库的声音,甚至包括V4的你。”
“也行。那咱们就先攻克第一个难关,把小爱音箱的输出音频通过语音识别拆成一个个音素,然后把这个软件集成进一个转换芯片里。这方面我需要请教一位我认识的调校师兼NLP工程师帮忙写汇编语言,否则就只能通过反编译暴力破解已有的语音识别软件的算法。你需要等我几天,几天之后这个识别和转换的算法做完了,我会逐一测试咱们所有人的采样,谁更好就用谁。减减,一会儿等你打完游戏,我想和你一起去研究一下AI语音。你不觉得好多粗制滥造的视频都已经用上AI语音了吗?”
“是这样,不过AI语音也有优势,就是能避免暴露自己的本音。现在人们对隐私的需求越来越高,断章取义的手段也越来越多,为了避免不必要的麻烦,声线自然也被列入隐私之中,尤其是一些涉及到秘密事项的采访,声线都会经过处理。”
“是啊。咱们天生就具备这方面的优势,如果真遇上麻烦,敌人再怎么样也无法发现这里或是姐妹们除了公开行程以外的任何行踪。”
“除了你那次演唱会,我们有公开过行程吗?也就咱家附近各位爱去的便利店和商场知道咱们。我估计你是打仗打太多了,这方面有点敏感,不如稍微放下一点戒备心。”
“我早就放下了。之前我还把咱家挪到了异次元空间,但我半年前就已经挪了回来,如果真有人能找到咱家,他就能见到咱。好了,我先联系那位工程师去,你继续玩。”
17:45.
“一会就要吃饭了,你那边搞得怎么样?”
“已经和那个工程师聊过了,结果很令人惊喜。第一,小爱音箱的PCB具备一定的拓展性,我们也不需要用一台电脑,只需要一块小板子把语音识别软件的ASIC芯片,SV的ASIC芯片,内存和声库集成进去,中间飞上一些线就行;第二,他除去非公开的高级算法外也掌握很高质量且开源的语音识别算法,只需要中等幅度的修饰就可以给咱们用;第三,为了更高的发音质量,他在研究如何从他已经掌握的算法起进行比单字合成基本单元更小的音素合成,刚好和咱们的想法不谋而合。这方面我和他估计了一下,如果都用业余时间的话可能需要一两个月来做,你愿意等一等就行。”
“那你可以考虑换成我的声音。除了你今年这个新AI,我们其他人都是采样声库,用那个转换芯片识别出一个个音素然后直接从采样中找对应的去拼成一句话,可能会更容易一点。虽然这样无法运用拆音拆轨这类高阶调校手段,但至少能发出比较流畅的声音。而且,姐妹们的采样流程都是一样的,你可以集成进大家乃至其他SV声库的声音,甚至包括V4的你。”
“也行。那咱们就先攻克第一个难关,把小爱音箱的输出音频通过语音识别拆成一个个音素,然后把这个软件集成进一个转换芯片里。这方面我需要请教一位我认识的调校师兼NLP工程师帮忙写汇编语言,否则就只能通过反编译暴力破解已有的语音识别软件的算法。你需要等我几天,几天之后这个识别和转换的算法做完了,我会逐一测试咱们所有人的采样,谁更好就用谁。减减,一会儿等你打完游戏,我想和你一起去研究一下AI语音。你不觉得好多粗制滥造的视频都已经用上AI语音了吗?”
“是这样,不过AI语音也有优势,就是能避免暴露自己的本音。现在人们对隐私的需求越来越高,断章取义的手段也越来越多,为了避免不必要的麻烦,声线自然也被列入隐私之中,尤其是一些涉及到秘密事项的采访,声线都会经过处理。”
“是啊。咱们天生就具备这方面的优势,如果真遇上麻烦,敌人再怎么样也无法发现这里或是姐妹们除了公开行程以外的任何行踪。”
“除了你那次演唱会,我们有公开过行程吗?也就咱家附近各位爱去的便利店和商场知道咱们。我估计你是打仗打太多了,这方面有点敏感,不如稍微放下一点戒备心。”
“我早就放下了。之前我还把咱家挪到了异次元空间,但我半年前就已经挪了回来,如果真有人能找到咱家,他就能见到咱。好了,我先联系那位工程师去,你继续玩。”
17:45.
“一会就要吃饭了,你那边搞得怎么样?”
“已经和那个工程师聊过了,结果很令人惊喜。第一,小爱音箱的PCB具备一定的拓展性,我们也不需要用一台电脑,只需要一块小板子把语音识别软件的ASIC芯片,SV的ASIC芯片,内存和声库集成进去,中间飞上一些线就行;第二,他除去非公开的高级算法外也掌握很高质量且开源的语音识别算法,只需要中等幅度的修饰就可以给咱们用;第三,为了更高的发音质量,他在研究如何从他已经掌握的算法起进行比单字合成基本单元更小的音素合成,刚好和咱们的想法不谋而合。这方面我和他估计了一下,如果都用业余时间的话可能需要一两个月来做,你愿意等一等就行。”