A solução
A geração de áudios falsos é possibilitada por duas tecnologias: as ferramentas Text-To-Speech (TTS), que convertem um texto em uma fala que imita a voz de uma pessoa real, e as do tipo Voice Conversion (VC), que modificam as características da voz de uma pessoa para se adaptar às do alvo desejado. Entre os principais modelos de geração de deepfakes de áudio, estão o Char2Wav, o WaveNet, o WaveGlow, o Tacotron e o MelNet (KHANJANI; WATSON; JANEJA, 2023).
Quanto à detecção, há, atualmente, três principais abordagens na criação de algoritmos que identificam áudios falsos. A primeira é baseada em recursos perceptivos criados manualmente, que envolve a comparação de diferenças estatísticas entre a fala humana e sintética, usando algoritmos avançados de processamento de sinais. A segunda é a detecção genérica baseada em características espectrais, normalmente usando métodos de aprendizado de máquina para extrair características da frequência dos sinais de áudio e compará-los estatisticamente (HONG, 2023).
Por fim, a última é a baseada em deep learning, ou aprendizagem profunda, que, segundo Goodfellow, Bengio e Courville (2016), pode ser definida como:
[...] um tipo específico de aprendizagem automática que atinge grande poder e flexibilidade ao representar o mundo como uma hierarquia aninhada de conceitos, com cada conceito definido em relação a conceitos mais simples e representações mais abstratas calculadas em termos de representações menos abstratas (tradução nossa).
Essa abordagem, no geral, requer uma grande quantidade de dados classificados em reais ou falsos para obter um bom resultado, e subdivide-se em duas categorias: as baseadas na entrada de áudio bruto, que operam diretamente no áudio em sua forma de onda, e as baseadas em visão computacional (HONG, 2023).
Esta última segue a seguinte metodologia: cada áudio é, primeiramente, pré-processado, sendo transformado em espectrogramas, para em seguida ser fornecido a um modelo, que é treinado para discernir os áudios e dizer se são ou não deepfakes (ALMUTAIRI; ELGIBREEN, 2022). Os espectrogramas citados são representações visuais dos áudios, onde a cor e os eixos x e y representam a amplitude, o tempo e a frequência, respectivamente. Vale lembrar que essa categoria considera não só o conteúdo do áudio mas também a sua representação visual, aumentando a precisão da detecção (HONG, 2023). Entre os diferentes tipos de espectrograma, o constant-Q transform (CQT) é, no geral, mais exato quando utilizado para o deepfake de áudio (MÜLLER et al., 2022).
Figura 1 - Métodos de detecção de deepfake de áudio baseados em recursos de aprendizagem profunda.

Fonte: A Survey on the Detection and Impacts of Deepfakes in Visual, Audio, and Textual Formats.
Por fim, foram desenvolvidos vários modelos que usam a última estratégia para detectar áudios falsos (ver Figura 1). No entanto, notam-se limitações em todos eles, como desempenho dependente do tipo de função de ativação não linear, necessidade de ser testado em condições variáveis, tais como diferentes qualidades de áudio e técnicas de geração mais sofisticadas, eficácia reduzida contra ataques de ruído adversários e em casos de bases de dados muito distintas, e arquiteturas complexas demais (MUBARAK et al., 2023).
Como apontam Almutairi e Elgibreen (2022), quase todos os métodos de detecção de deepfakes de áudio existentes foram treinados para a língua inglesa, com poucas exceções que não incluem um específico para o português, de modo que os falantes dessa língua, incluindo os brasileiros, estão mais sujeitos aos impactos dessa tecnologia.
Outrossim, percebe-se uma avaliação limitada de falas com ruídos e sons de ambiente nos métodos de detecção existentes, levando a uma baixa robustez que permite a atacantes cibernéticos enganarem os modelos ao introduzir sons do mundo real (ALMUTAIRI; ELGIBREEN, 2022) ou realizar em tais áudios alterações superficiais, difíceis de detectar por um ser humano (KAWA, 2023).
Desse modo, a pesquisa tem por objetivo geral desenvolver um modelo classificatório de inteligência artificial utilizando deep learning que seja capaz de identificar, com precisão e eficiência, potenciais áudios produzidos com deepfake em português, sendo esse modelo disponibilizado em um website, permitindo aos usuários fazer upload de um áudio e receberem a probabilidade do conteúdo em questão ser real ou sintético.
Já de um ponto de vista específico, a pesquisa possui os seguintes objetivos:
- Descobrir bancos de dados públicos de falas em português com suas respectivas transcrições;
- Identificar modelos existentes para geração de deepfakes, tanto do tipo Text-To-Speech quanto Voice Conversion;
- Alimentar os modelos identificados com os áudios para gerar deepfakes e gerar uma base de dados com os mesmos;
- Realizar o pré-processamento dos áudios reais e sintéticos com a produção de espectrogramas;
- Manipular os espectrogramas com a introdução de ruídos e sons de ambiente em uma amostra dos mesmos;
- Projetar as possíveis arquiteturas da rede neural classificatória;
- Codificar e testar os modelos concebidos;
- Treinar os modelos com uma amostra da nossa base de dados;
- Avaliar e comparar a performance de cada modelo, elegendo o mais adequado para o produto final;
- Terminar o treinamento da arquitetura escolhida, fazendo ajustes conforme o necessário;
- Demonstrar que o modelo é eficaz para a nossa base de dados;
- Desenvolver uma API que seja capaz de receber um áudio, convertê-lo em espectrograma, fornecer a conversão para o modelo, receber um output do mesmo indicando se o áudio é uma deepfake ou não e enviar de volta essa resposta.
- Definir o design do aplicativo, com esboços de telas e funcionalidades;
- Construir o website de modo que ele consiga obter um áudio fornecido pelo usuário, enviá-lo para a API, receber uma resposta quanto à sua veracidade e exibir essa informação ao usuário.
O trabalho desenvolvido é de alta relevância social, política e econômica, já que pode auxiliar a mitigar impactos nos três setores. Ademais, tendo em vista a não existência de um conjunto de áudios reais e falsos em português, sua criação juntamente com um modelo classificatório que leve em consideração áudios com ruídos pode servir de base para pesquisas futuras na área. Por fim, ao se produzir um modelo específico para a língua portuguesa, a sociedade, o governo, e empresas e instituições brasileiras tornam-se aptas a distinguir os conteúdos produzidos nas redes, levando a uma menor chance de serem enganadas, mal-informadas e prejudicadas, e contribuindo para um ambiente digital mais seguro e confiável.