مجموعات بيانات صوتية عربية محلية من العالم الحقيقي لتدريب الذكاء الاصطناعي

عزّز نماذج اللغة الكبيرة (LLM) وتطبيقات التعرّف على الكلام (ASR) والتطبيقات الصوتية لديك بأكثر من 50,000 ساعة من التسجيلات الصوتية الأصيلة والمُهيّأة للذكاء الاصطناعي باللغة العربية.

محادثات حقيقية. بيانات موثوقة. مصممة من أجل الذكاء الاصطناعي العربي.

كجزء من تغطية لغوية أوسع بكثير، توفّر GeoPoll مجموعات بيانات صوتية عالية الجودة ومُصنَّفة مسبقًا باللغة العربية، صُمِّمت خصيصًا لتدريب نماذج الذكاء الاصطناعي. وعلى عكس مجموعات البيانات الاصطناعية أو المُعدة مسبقًا، فإن بياناتنا مُستمدة من مقابلات هاتفية حقيقية أُجريت مع متحدثين أصليين في عدة دول. تُبنى هذه المقابلات على نصوص خاصة بالمجال لضمان التناسق الموضوعي، مع السماح بإجابات طبيعية وعفوية.

يتم تفريغ كل تسجيل وفصله بحسب المتحدثين من قبل خبراء لغويين يتقنون اللهجات العربية المحلية، ثم يُوسَم ببيانات وصفية غنية تشمل العمر والجنس واللهجة والموقع. والنتيجة هي مكتبة قابلة للتوسع من المحادثات العربية الواقعية، مُهيّأة للاستخدام في تحسين النماذج اللغوية الكبيرة (LLM)، وتدريب أنظمة التعرّف على الكلام (ASR)، وتوليد الكلام (TTS)، وتطبيقات الذكاء الاصطناعي متعددة اللغات.

التغطية الجغرافية

*لدينا أكثر من 50,000 ساعة من العربية المحلية من أكثر من 30,000 متحدث فريد حول العالم. وفيما يلي الدول المشمولة: *

  • Algeria
  • Chad
  • Djibouti
  • Egypt
  • Ethiopia
  • Iraq
  • Jordan
  • Lebanon
  • Morocco
  • Palestine
  • Saudi Arabia
  • Sudan
  • Tunisia
  • Yemen

*للاستفسار عن الإمكانيات في دول عربية أخرى

هل تبحث عن مجموعات بيانات عربية؟

املأ هذا النموذج للتواصل معنا للحصول على بيانات تجريبية أو تفاصيل التنسيقات والتغطية أو الطلبات المخصصة.