Conjuntos de dados de voz em português, localizados no mundo real, para treinamento de IA

Impulsione seu LLM, ASR e aplicativos de voz com mais de 50.000 horas de gravações autênticas de fala em português, prontas para IA.

Conversas reais. Dados confiáveis. Feito para IA em português.

Como parte de uma cobertura linguística muito mais ampla, a GeoPoll fornece conjuntos de dados de áudio em português, pré-rotulados e de alta qualidade, desenvolvidos especificamente para o treinamento de modelos de inteligência artificial. Diferente de conjuntos de dados sintéticos ou roteirizados, nossos dados são obtidos a partir de entrevistas telefônicas reais conduzidas com falantes nativos em vários países. Essas entrevistas são estruturadas com roteiros específicos por domínio para garantir consistência temática, ao mesmo tempo em que permitem respostas espontâneas e naturais.

Cada gravação é transcrita e diarizada por linguistas humanos fluentes nas variantes locais do português, e depois etiquetada com metadados detalhados, incluindo idade, gênero, dialeto e localização. O resultado é uma biblioteca escalável de conversas reais em português, otimizada para uso em ajuste fino de LLMs, treinamento de ASR, síntese de TTS e aplicações de IA multilíngue.

Cobertura Geográfica

Temos mais de 50.000 horas de português local de mais de 30.000 falantes únicos em todo o mundo. Aqui estão os países abrangidos*

  • Angola
  • Brazil
  • Mozambique

*Consulte sobre as capacidades em outros países de língua portuguesa

Procurando conjuntos de dados em português?

Preencha este formulário para nos contatar sobre dados de amostra, formatos, detalhes de cobertura ou solicitações personalizadas.