Ensembles de données vocales françaises localisées et réelles pour l’entraînement de l’intelligence artificielle

Boostez vos LLM, systèmes de reconnaissance vocale (ASR) et applications vocales grâce à plus de 50 000 heures d’enregistrements vocaux authentiques en français, prêts pour l’IA.

Conversations réelles. Données fiables. Conçu pour l’IA française.

Dans le cadre d’une couverture linguistique beaucoup plus large, GeoPoll fournit des ensembles de données audio en français, pré-étiquetés et de haute qualité, spécialement conçus pour l’entraînement de modèles d’intelligence artificielle. Contrairement aux ensembles de données synthétiques ou scriptés, nos données proviennent de véritables entretiens téléphoniques menés avec des locuteurs natifs dans plusieurs pays. Ces entretiens sont structurés à l’aide de scripts spécifiques à chaque domaine afin d’assurer une cohérence thématique, tout en laissant place à des réponses spontanées et naturelles.

Chaque enregistrement est transcrit et diarizé par des linguistes humains, maîtrisant les variantes locales du français, puis enrichi de métadonnées détaillées telles que l’âge, le sexe, le dialecte et la localisation. Le résultat est une bibliothèque évolutive de conversations réelles en français, optimisée pour le fine-tuning de LLM, l’entraînement ASR, la synthèse TTS et les applications d’IA multilingues.

Couverture géographique

Nous disposons de plus de 50 000 heures de français local provenant de plus de 30 000 locuteurs uniques à travers la région d’Amérique latine. Voici les pays couverts*

  • Benin
  • Burundi
  • Cameroon
  • Central African Republic
  • Chad
  • Comoros
  • Guinea
  • Haiti
  • Ivory Coast (Cote D’Ivoire)
  • Mali
  • Niger
  • Togo

*Renseignez-vous sur nos capacités dans d’autres pays francophones

Vous cherchez des ensembles de données en français?

Remplissez ce formulaire pour nous contacter concernant des échantillons de données, les formats, les détails de couverture ou des demandes personnalisées.