वास्तविक-दुनिया, स्थानीयकृत हिंदी वॉयस डेटासेट्स एआई प्रशिक्षण के लिए
अपने LLM, ASR और वॉयस अनुप्रयोगों को 50,000 से अधिक घंटों की प्रामाणिक, एआई-तैयार हिंदी-भाषा की स्पीच रिकॉर्डिंग्स के साथ सशक्त बनाएं।
अपने LLM, ASR और वॉयस अनुप्रयोगों को 50,000 से अधिक घंटों की प्रामाणिक, एआई-तैयार हिंदी-भाषा की स्पीच रिकॉर्डिंग्स के साथ सशक्त बनाएं।
एक बड़े भाषा कवरेज का हिस्सा होने के नाते, GeoPoll उच्च-गुणवत्ता वाले, पूर्व-लेबल किए गए हिंदी-भाषा ऑडियो डेटासेट प्रदान करता है, जो विशेष रूप से कृत्रिम बुद्धिमत्ता मॉडलों के प्रशिक्षण के लिए तैयार किए गए हैं। कृत्रिम या स्क्रिप्टेड डेटासेट्स के विपरीत, हमारा डेटा वास्तविक टेलीफोन साक्षात्कारों से लिया गया है, जो विभिन्न देशों में स्थानीय वक्ताओं के साथ किए गए हैं। इन साक्षात्कारों को विषयगत स्थिरता सुनिश्चित करने के लिए डोमेन-विशिष्ट स्क्रिप्ट्स का उपयोग करके संरचित किया जाता है, जबकि यह स्वाभाविक और स्वतःस्फूर्त उत्तरों की अनुमति देता है।
प्रत्येक रिकॉर्डिंग को मानव भाषाविदों द्वारा, जो हिंदी की स्थानीय विविधताओं में निपुण होते हैं, ट्रांसक्राइब और डायराइज़ किया जाता है। इसके बाद इन्हें समृद्ध मेटाडेटा—जैसे आयु, लिंग, बोली और स्थान—के साथ टैग किया जाता है। परिणामस्वरूप एक स्केलेबल लाइब्रेरी तैयार होती है, जिसमें वास्तविक दुनिया की हिंदी वार्तालापें शामिल होती हैं, जिन्हें LLM फाइन-ट्यूनिंग, ASR प्रशिक्षण, TTS सिंथेसिस और बहुभाषी एआई अनुप्रयोगों के लिए अनुकूलित किया गया है।
हमारे पास भारत भर के 30,000+ विशिष्ट वक्ताओं से प्राप्त 50,000+ घंटे का स्थानीय हिंदी डेटा है। यहाँ शामिल देशों की सूची दी गई है\*
अन्य हिंदी-भाषी देशों में क्षमताओं के बारे में जानकारी प्राप्त करें।
नमूना डेटा, फ़ॉर्मैट्स, कवरेज विवरण या कस्टम अनुरोधों के लिए हमसे संपर्क करने हेतु यह फ़ॉर्म भरें।
