VALL-E é uma inteligência artificial desenvolvida pela Microsoft que pode imitar a voz humana com base em uma amostra de voz de apenas três segundos.
A tecnologia usa aprendizado de máquina e deep learning para gerar uma representação digital da voz humana, e imitar o tom, a entonação, e até mesmo, o sentimento da voz original.
Ao contrário de outras técnicas de clonagem de voz, a VALL-E promete gerar uma fala difícil de ser reconhecida como sintética ou artificial.
Para alcançar este resultado, a Microsoft treinou sua tecnologia com uma biblioteca centenas de vezes maior do que a usada por outros sistemas de clonagem de voz. Isso fez total diferença nos resultados, uma vez que a qualidade de uma inteligência artificial está diretamente relacionada aos dados usados para treiná-la.
Quando a VALL-E recebe uma nova amostra de voz para clonar, ela quebra o trecho de três segundos em pequenos pedaços, chamados de “tokens acústicos”. Por meio desses tokens e dos dados de treinamento, o algoritmo da VALL-E é capaz de prever como a voz original soaria ao falar outras frases e expressar outros sentimentos.
Um dos diferenciais da tecnologia, é o fato da VALL-E fornecer feedback imediato sobre a pronúncia e a gramática dos usuários, permitindo correções rápidas e o monitoramento do progresso do aprendizado de idiomas, por exemplo.
Outra aplicação prevista para a VALL-E é para escritores, que podem por meio dela, criar versões narradas de seus livros, sem precisar passar horas em um estúdio de gravação. Dubladores também podem se beneficiar, alugando a clonagem de sua voz para projetos que não teriam tempo de realizar pessoalmente.
Segundo um estudo comparativo, a VALL-E apresentou desempenho superior ao “estado-da-arte” em termos de naturalidade e semelhança com uma voz real.
A ferramenta ainda está em fase de teste, e a Microsoft promete que em breve, os resultados serão ainda mais surpreendentes.
Embora a VALL-E tenha inúmeras aplicações úteis, o seu lançamento levanta questões importantes sobre privacidade e segurança. Em um mundo onde a tecnologia é cada vez mais usada para enganar e manipular as pessoas, é crucial que essas preocupações sejam levadas a sério.