70 भाषाओं के साथ Google का नया स्पीच AI लॉन्च
Google ने अपने तकनीकी साम्राज्य को और मजबूत करते हुए एक नया speech AI मॉडल लॉन्च किया है, जो 70 से अधिक भाषाओं में सहायता प्रदान करता है। इसका नाम है Gemini 3.1 Flash TTS, जो text-to-speech प्रौद्योगिकी पर आधारित है और डेवलपर्स, उद्यम उपयोगकर्ताओं और AI एप्लिकेशन निर्माताओं के लिए बनाया गया है। कंपनी का दावा है कि यह मॉडल आवाज की quality , नियंत्रण और स्केलेबिलिटी में बड़ी कूद लाता है।
यह मॉडल Gemini 3 Pro पर आधारित है और तकरीबन 16K टोकन्स तक के टेक्स्ट इनपुट और 32K टोकन्स तक के ऑडियो आउटपुट को support कर सकता है। इसका Live वेरिएंट न केवल टेक्स्ट, बल्कि ऑडियो, इमेज और वीडियो इनपुट को भी संसाधित करता है, जिससे multimodal interaction की संभावना खुलती है। इसका मतलब है कि एक ही मॉडल कई प्रकार के डेटा के साथ जवाब दे सकता है, जो बहुत अधिक लचीलापन देता है।
Google के अनुसार, इस मॉडल में आवाज अब और अधिक natural और भावपूर्ण सुनाई देती है। यूजर्स ऑडियो टैग्स के जरिए आवाज के टोन, गति और डिलीवरी को बदल सकते हैं। मल्टी-स्पीकर सपोर्ट के जरिए एक साथ अलग-अलग आवाजों में बातचीत तैयार की जा सकती है, जो ऑडियोबुक, गेम या असिस्टेड लर्निंग जैसे use cases के लिए बहुत उपयोगी है।
इसमें यूजर्स को सीन डायरेक्शन और स्पीकर-लेवल कंट्रोल जैसे उन्नत विकल्प भी मिलते हैं। उदाहरण के लिए, आप एक वाक्य के अंदर भी भावना या जोर को बदल सकते हैं। डेवलपर्स के लिए Google AI Studio में advanced control उपकरण उपलब्ध हैं, जिनसे वे आवाज के आउटपुट को विस्तार से समायोजित कर सकते हैं। सेटिंग्स को वे Gemini API कोड के रूप में निर्यात भी कर सकते हैं।
सुरक्षा के लिए, Google ने इसमें SynthID वॉटरमार्किंग तकनीक शामिल की है, जो AI द्वारा उत्पन्न ऑडियो को पहचानने में मदद करती है। यह फीचर फिलहाल प्रीव्यू अवस्था में है। डेवलपर्स इसे Gemini API और Google AI Studio के माध्यम से एक्सेस कर सकते हैं, जबकि उद्यम उपयोगकर्ता इसे Vertex AI पर प्राप्त कर सकते हैं। यह launch बहुभाषी दुनिया में आवाज तकनीक के भविष्य को आकार देने का संकेत देता है।
70 से ज्यादा भाषाओं का सपोर्ट? यह तो बहुत बड़ी बात है। भारत जैसे देश के लिए local language स्थानीय भाषा कंटेंट की दुनिया बदल सकता है।
अब तक ऐसी आवाजें ज्यादा रोबोटिक लगती थीं। अगर यह वाकई natural प्राकृतिक लगे, तो यह ऑडियोबुक बनाने वालों के लिए खेल बदल सकता है।
क्या यह सच में लोगों की नौकरियों पर खतरा बनेगा? आवाज कलाकारों के लिए यह फीचर concern चिंता का विषय हो सकता है।
SynthID वॉटरमार्किंग एक समझदारी भरा कदम है। AI ऑडियो का misuse दुरुपयोग रोकने के लिए ऐसी तकनीक जरूरी थी।
डेवलपर्स के लिए Google AI Studio में इतना control नियंत्रण होना बहुत बड़ा फायदा है। छोटे बदलाव भी बड़ा अंतर ला सकते हैं।
अगला सवाल यह है कि क्या यह ऑफलाइन काम करेगा? क्लाउड निर्भरता हमेशा एक सीमा बनी रहती है।