Conversations réelles. Données fiables. Conçu pour l’IA française.
Dans le cadre d’une couverture linguistique beaucoup plus large, GeoPoll fournit des ensembles de données audio en français, pré-étiquetés et de haute qualité, spécialement conçus pour l’entraînement de modèles d’intelligence artificielle. Contrairement aux ensembles de données synthétiques ou scriptés, nos données proviennent de véritables entretiens téléphoniques menés avec des locuteurs natifs dans plusieurs pays. Ces entretiens sont structurés à l’aide de scripts spécifiques à chaque domaine afin d’assurer une cohérence thématique, tout en laissant place à des réponses spontanées et naturelles.
Chaque enregistrement est transcrit et diarizé par des linguistes humains, maîtrisant les variantes locales du français, puis enrichi de métadonnées détaillées telles que l’âge, le sexe, le dialecte et la localisation. Le résultat est une bibliothèque évolutive de conversations réelles en français, optimisée pour le fine-tuning de LLM, l’entraînement ASR, la synthèse TTS et les applications d’IA multilingues.