O problema
Nos últimos anos, houve um desenvolvimento de aplicações de mídia social e a adoção generalizada pela população de dispositivos conectados à internet como computadores, smartphones e tablets, revolucionando a comunicação e interação entre os usuários. Rapidamente, os mesmos se tornaram capazes de produzir, compartilhar e interagir com conteúdos de forma simples e imediata, criando uma cultura de auto expressão digital (MUBARAK et al., 2023).
No entanto, esse avanço tecnológico também trouxe consigo novos desafios, como as deepfakes. O termo se refere a conteúdos gerados ou manipulados por técnicas de Inteligência Artificial (IA), que diferem de outras ferramentas de edição manual por produzirem vídeos, imagens, áudios e textos muito semelhantes à realidade (KHANJANI; WATSON; JANEJA, 2023).
Tais conteúdos são gerados com uso de diversas redes neurais profundas, como as redes neurais convolucionais (CNN) e recorrentes (RNN), as redes adversárias generativas (GAN), os autoencoders variáveis (VAE) e os modelos de difusão (DMs) (MUBARAK et al., 2023). Vale lembrar que o desempenho dos mesmos depende da quantidade de dados que recebem, e, atualmente, quantidades massivas de dados são produzidas diariamente na internet, tornando-os cada vez mais eficientes.
Apesar das deepfakes oferecerem aplicações positivas em várias áreas, como entretenimento, educação e publicidade, elas têm se mostrado uma estratégia eficaz na propagação de notícias falsas, roubo de identidade e fraudes, configurando uma ameaça significativa no âmbito social, político e econômico. A preocupação com o tema se traduz no número de artigos científicos publicados relacionados ao mesmo entre 2017 e 2022, período no qual o valor cresceu de menos de 100 para mais de 3000 (MUBARAK et al., 2023).
Além disso, o surgimento de ferramentas user-friendly para criação de deepfakes possibilitou a fabricação de conteúdo sintético altamente realista entre usuários leigos em seus smartphones e computadores pessoais, agravando ainda mais os efeitos nocivos da tecnologia (MUBARAK et al., 2023). Um caso que ilustra o perigo da tecnologia ocorreu em 2019: criminosos usaram um software baseado em IA para se passar pelo chefe alemão de um CEO de uma empresa de energia, que recebeu uma ligação onde lhe foi pedida uma transferência de 220.000 euros para um suposto fornecedor húngaro. A transferência foi realizada e os criminosos receberam o dinheiro. Quando o CEO percebeu que tudo era uma fraude, já era tarde demais (STUPP, 2019).
Outro incidente envolvendo prejuízos econômicos aconteceu em junho de 2020, quando um funcionário de uma empresa de tecnologia recebeu uma mensagem de um suposto CEO que também pedia transferência de dinheiro, sendo o mesmo na verdade uma voz criada com uso de IA (PRADO, 2021).
Já em se tratando das consequências políticas das deepfakes, um incidente marcante ocorreu nas vésperas das eleições primárias do estado de New Hampshire, Estados Unidos, em 2024. O fato é que um áudio falso simulando a voz do presidente americano Joe Biden circulou nas redes sociais do estado, numa tentativa de influenciar o resultado das eleições, um problema que pode se repetir no Brasil e trazer graves consequências à democracia (MARTINS, 2024).
Assim, considerando os dados levantados, torna-se necessária a criação de ferramentas que possam detectar deepfakes e informar aos usuários se o conteúdo consumido é real ou não. No entanto, apesar de haver tecnologias que atendam ao requisito, a maioria delas foca na detecção de imagens e vídeos (MASOOD et al., 2021), deixando em segundo plano as deepfakes de áudio.
Desse modo, a nossa pesquisa consiste no desenvolvimento de um modelo de inteligência artificial que detecte deepfakes de áudio, especialmente em português, bem como a disponibilização do mesmo em um website público e acessível a todos.