এআই প্রশিক্ষণের জন্য বাস্তব-জগতের, স্থানীয়কৃত বাংলা ভয়েস ডেটাসেটসমূহ

আপনার LLM, ASR এবং ভয়েস অ্যাপ্লিকেশনকে আরও শক্তিশালী করুন ৫০,০০০ ঘন্টারও বেশি আসল, এআই-প্রস্তুত বাংলা ভাষার কথোপকথনের রেকর্ডিংয়ের মাধ্যমে।

বাস্তব কথোপকথন। নির্ভরযোগ্য তথ্য। বাংলা এআই-এর জন্য নির্মিত।

একটি বৃহত্তর ভাষা কাভারেজের অংশ হিসেবে, জিওপোল প্রস্তুত-লেবেলকৃত, উচ্চমানের বাংলা ভাষার অডিও ডেটাসেট সরবরাহ করে, যা কৃত্রিম বুদ্ধিমত্তা মডেল প্রশিক্ষণের জন্য বিশেষভাবে তৈরি। কৃত্রিম বা স্ক্রিপ্টভিত্তিক ডেটাসেটের বিপরীতে, আমাদের ডেটা সংগৃহীত হয় একাধিক দেশে নেটিভ স্পিকারদের সাথে পরিচালিত বাস্তব টেলিফোন সাক্ষাৎকার থেকে। এই সাক্ষাৎকারগুলো থিম্যাটিক সামঞ্জস্য বজায় রাখতে ডোমেইন-নির্দিষ্ট স্ক্রিপ্ট ব্যবহার করে গঠিত, তবে একইসাথে তাৎক্ষণিক ও প্রাকৃতিক উত্তর দেওয়ার সুযোগও রাখে।

প্রতিটি রেকর্ডিং স্থানীয় বাংলা উপভাষায় দক্ষ মানব ভাষাবিদ দ্বারা ট্রান্সক্রাইব এবং ডায়ারাইজ করা হয়, এরপর বয়স, লিঙ্গ, উপভাষা এবং অবস্থানসহ সমৃদ্ধ মেটাডেটা দিয়ে ট্যাগ করা হয়। এর ফলস্বরূপ তৈরি হয় একটি স্কেলযোগ্য লাইব্রেরি, যেখানে বাস্তবজগতের বাংলা কথোপকথন অন্তর্ভুক্ত থাকে, যা LLM ফাইন-টিউনিং, ASR প্রশিক্ষণ, TTS সিন্থেসিস এবং বহুভাষিক এআই অ্যাপ্লিকেশনের জন্য উপযোগী করে অপ্টিমাইজ করা হয়েছে।

সাধারণ ব্যবহারের ক্ষেত্রসমূহ

ভৌগোলিক কভারেজ

আমাদের কাছে রয়েছে ৫০,০০০+ ঘন্টার স্থানীয় বাংলা রেকর্ডিং, যা এসেছে বিশ্বের বিভিন্ন প্রান্তের ৩০,০০০+ অনন্য বক্তার কাছ থেকে। এখানে অন্তর্ভুক্ত দেশগুলোর তালিকা দেওয়া হলো*

  • বাংলাদেশ

অন্যান্য বাংলা-ভাষী দেশে আমাদের সক্ষমতা সম্পর্কে জানতে যোগাযোগ করুন।

বাংলা ডেটাসেট খুঁজছেন?

নমুনা ডেটা, ফরম্যাট, কভারেজের বিবরণ বা কাস্টম অনুরোধের জন্য আমাদের সাথে যোগাযোগ করতে এই ফর্মটি পূরণ করুন।