محادثات حقيقية. بيانات موثوقة. مصممة من أجل الذكاء الاصطناعي العربي.
كجزء من تغطية لغوية أوسع بكثير، توفّر GeoPoll مجموعات بيانات صوتية عالية الجودة ومُصنَّفة مسبقًا باللغة العربية، صُمِّمت خصيصًا لتدريب نماذج الذكاء الاصطناعي. وعلى عكس مجموعات البيانات الاصطناعية أو المُعدة مسبقًا، فإن بياناتنا مُستمدة من مقابلات هاتفية حقيقية أُجريت مع متحدثين أصليين في عدة دول. تُبنى هذه المقابلات على نصوص خاصة بالمجال لضمان التناسق الموضوعي، مع السماح بإجابات طبيعية وعفوية.
يتم تفريغ كل تسجيل وفصله بحسب المتحدثين من قبل خبراء لغويين يتقنون اللهجات العربية المحلية، ثم يُوسَم ببيانات وصفية غنية تشمل العمر والجنس واللهجة والموقع. والنتيجة هي مكتبة قابلة للتوسع من المحادثات العربية الواقعية، مُهيّأة للاستخدام في تحسين النماذج اللغوية الكبيرة (LLM)، وتدريب أنظمة التعرّف على الكلام (ASR)، وتوليد الكلام (TTS)، وتطبيقات الذكاء الاصطناعي متعددة اللغات.