Datasets de voz en español reales y localizados para entrenamiento de IA

Impulsa tus modelos LLM, sistemas ASR y aplicaciones de voz con más de 50 000 horas de grabaciones auténticas en español.

Conversaciones reales. Datos confiables. Pensados para la IA en español.

GeoPoll ofrece conjuntos de audio en español de alta calidad y etiquetados, diseñados específicamente para el entrenamiento de modelos de inteligencia artificial. A diferencia de otros conjuntos de datos, nuestros audio proviene de entrevistas telefónicas reales con hablantes nativos de distintos países. Estas entrevistas se desarrollan con guiones temáticos —que aseguran coherencia—, pero permiten respuestas espontáneas y naturales.

Cada grabación es transcrita y diarizada por lingüistas expertos familiarizados con variantes locales del español y recibe metadatos detallados como edad, género, dialecto y ubicación. El resultado es una biblioteca escalable de conversaciones reales -alineadas a nivel de oración-, optimizada para afinamiento de LLM, entrenamiento ASR, síntesis de voz (TTS) y aplicaciones multilingües de IA.

Cobertura Geográfica

Contamos con más de 50 000 horas de español local, recolectadas de más de 30 000 hablantes únicos en Latinoamérica. Países incluidos:*

  • Chile
  • Colombia
  • República Dominicana
  • Ecuador
  • El Salvador
  • Honduras
  • México
  • Panamá
  • Perú

*Consúltanos si necesitas datos de otros países hispanohablantes.

¿Buscas datasets de voz en español?

Completa este formulario para solicitar muestras, formatos, detalles de cobertura o datos personalizados.