Listen

Description

Leva apenas 3,7 segundos de áudio para clonar uma voz. Esta façanha impressionante, e preocupante,  foi anunciada pela chinesa Baidu, uma das maiores empresas de tecnologia do mundo. Um ano atrás, a ferramenta de clonagem de voz da empresa chamada Deep  Voice exigia 30 minutos de áudio para fazer o mesmo. Isso mostra o quão rápido a tecnologia para criar vozes artificiais está  se acelerando. Em pouco tempo, os recursos de geração de voz de  Inteligência Artificial se expandiram e se tornaram mais realistas, o que torna fácil o uso indevido da tecnologia. Como todos os algoritmos  de inteligência artificial, quanto mais dados as ferramentas de clonagem como Deep Voice receberem para treinar, mais realistas vão ser os  resultados.  Recentemente, o Google revelou o Tacotron 2, um sistema de conversão de texto em fala, e o método de geração de voz WaveNet. O WaveNet analisa uma representação visual de áudio, chamada  espectrograma. Esse sistema gera o áudio. Ele é usado para gerar a voz  para o Google Assistente. Esta tecnologia é tão realista que é quase  impossível dizer o que é gerado por IA e qual voz é gerada por humanos. O  algoritmo aprendeu como pronunciar palavras e nomes desafiadores que  seriam um sinal revelador de uma máquina, bem como enunciar palavras com  mais naturalidade.  

Essa tecnologia avançada abre as portas para empresas fornecerem novos  serviços e produtos. A Lyrebird, por exemplo, usa inteligência artificial para criar vozes para chatbots, audiolivros, videogames, leitores de texto e muito mais. Eles reconhecem em seu site que “com uma  grande inovação vem uma grande responsabilidade”, ressaltando a  importância dos pioneiros dessa tecnologia tomarem muito cuidado para  evitar o uso indevido da tecnologia. Semelhante a outras novas tecnologias, a voz artificial pode ter muitos  benefícios, mas também pode ser usada para enganar indivíduos. À medida  que os algoritmos de IA ficam melhores e fica difícil discernir o que é  real e o que é artificial, haverá mais oportunidades de usá-los para  fabricar a verdade. De acordo com pesquisas, nossos cérebros não registram diferenças  significativas entre vozes reais e artificiais. Na verdade, é mais  difícil para nosso cérebro distinguir vozes falsas do que detectar imagens falsas.

Agora que esses sistemas de inteligência artificial requerem apenas uma  pequena quantidade de áudio para criar uma voz artificial que imite o  estilo de fala e o tom de um indivíduo, a oportunidade de abuso aumenta.  Até agora, os pesquisadores não foram capazes de identificar uma  distinção neural de como um cérebro pode distinguir entre o real e o  falso. Imagine como vozes artificiais poderiam ser usadas em uma  entrevista, notícias ou conferência de imprensa para fazer os ouvintes  acreditarem que estão ouvindo uma figura de autoridade no governo ou um  CEO de uma empresa.

Aumentar a conhecimento sobre essa tecnologia e como ela funciona é o  primeiro passo para evitar que os ouvintes acreditem em vozes  artificiais quando elas são usadas para nos enganar. O principal receio é  que as pessoas possam ser enganadas se agirem com base em algo falso  porque parece que vem de alguém real. Algumas pessoas estão tentando  encontrar uma solução técnica para nos proteger.  No entanto, uma solução técnica não será 100% infalível. Nossa  capacidade de avaliar criticamente uma situação, avaliar a fonte de  informação e verificar sua validade se tornará cada vez mais importante.