Considerações finais

Os passos futuros para o aprimoramento da pesquisa incluem:

  • A implementação de uma funcionalidade no site que permita o envio de vídeos, para seus respectivos áudios serem extraídos e classificados;
  • A criação de extensões para permitir o uso do modelo em redes sociais;
  • A continuidade do treinamento do modelo desenvolvido com espectrogramas provenientes de áudios com ruídos, com sons ambientes e com sons ambientes adicionados de ruídos;
  • A descoberta de uma plataforma para hospedagem da API que permita utilizar versões do modelo que exigem mais memória e processamento;
  • A utilização de mais de uma abordagem Text-To-Speech ou Voice Conversion para a geração das deepfakes em português, além do modelo “XTTS”, garantindo que a solução seja capaz de generalizar para mais de um padrão de áudio sintético;
  • O uso de dados gerados com deepfake através de plataformas como o Youtube ou Instagram, desde que devidamente e confiavelmente categorizados, caso seja possível, permitindo a expansão do Dataset de treinamento sem a necessidade de geração de deepfakes;
  • E a testagem de outras metodologias para a identificação de áudios falsos, incluindo aquelas não baseadas em visão computacional, como comparação estatística, uso de algoritmos de processamento de sinais, e modelos de aprendizagem profunda que operam em áudios brutos.