VALL-E是一种用于文本到语音生成 (TTS) 的语言建模方法。
具体来说,我们使用从现成的神经音频编解码器模型派生的离散代码来训练神经编解码器语言模型(称为 VALL-E),并将 TTS 视为条件语言建模任务,而不是像以前的工作那样连续信号回归。
魔音工坊-AI智能配音软件&短视频配音神器
AI人声和文本转语音生成工具
AI文本到语音生成器
多情绪免费克隆AI音频工具
法国AI实验室Kyutai推出的端到端实时多模态AI语音模型,具备听、说、看的能力,不仅可以实时收听,还能进行自然对话。
音视频秒转文字,声波流式转录,让每个声音都成篇章