Google का AI अब बोलेगा आपके स्टाइल में, 70+ भाषाओं को सपोर्ट करेगा Gemini 3.1 Flash TTS
गूगल ने अपनी AI आवाज तकनीक में एक बड़ा कदम आगे बढ़ाते हुए Gemini 3.1 Flash TTS नामक एक नया text-to-speech मॉडल लॉन्च किया है, जो अब सिर्फ पढ़कर नहीं, बल्कि user's style में बोलने में सक्षम है। इसका मतलब यह है कि AI आपके बताए गए तरीके—तेज, धीमा या किसी विशेष tone में—जवाब दे सकता है। यह बदलाव उपयोगकर्ता अनुभव को और अधिक natural और व्यक्तिगत बनाता है।
कंपनी दावा करती है कि यह अब तक का सबसे expressive और नियंत्रण में आसान AI वॉयस मॉडल है। इसमें विशेष audio tags शामिल किए गए हैं जो उपयोगकर्ताओं को आवाज के delivery पर गहरा नियंत्रण देते हैं। उदाहरण के लिए, आप स्पष्ट रूप से निर्देश दे सकते हैं कि किस शब्द पर emphasis हो, कहाँ pause लगे, या बोलचाल की speed क्या हो।
एक और महत्वपूर्ण नवाचार यह है कि इसमें multi-speaker समर्थन है। इसका अर्थ है कि एक ही ऑडियो आउटपुट में विभिन्न आवाजों का उपयोग किया जा सकता है, जिससे कंटेंट निर्माता, कहानीकार और ग्राहक सेवा टीमों के लिए इसकी उपयोगिता बढ़ जाती है। आवाजों के अलग-अलग identity होने से बातचीत या कहानी जीवंत लगती है।
यह मॉडल 70 से अधिक भाषाओं का समर्थन करता है, जिससे यह वैश्विक स्तर पर उपयोग के लिए उपयुक्त हो जाता है। गूगल ने audio quality पर विशेष ध्यान दिया है ताकि आवाज clear और मानव के समान लगे।
सुरक्षा के मद्देनजर, गूगल ने इसमें SynthID नामक एक तकनीक भी शामिल की है, जो AI द्वारा उत्पन्न ऑडियो में एक अदृश्य watermark जोड़ती है। यह transparency और डिजिटल security बढ़ाने में मदद करता है और यह सुनिश्चित करता है कि AI-जनित सामग्री को पहचाना जा सके।
फिलहाल, यह मॉडल डेवलपर्स और उद्यम उपयोगकर्ताओं के लिए Gemini API, Google AI Studio और Vertex AI के माध्यम से प्रीव्यू में उपलब्ध है। सामान्य उपयोगकर्ता इसे Google Vids जैसे उपकरणों के जरिए अपनी सामग्री में शामिल कर सकते हैं। यह निश्चित रूप से भविष्य में AI और मानवीय interaction के बीच की खाई को कम करेगा।
बहुत बढ़िया अपडेट। अगर आवाज की speed स्पीड और emphasis एम्फेसिस को सही सेट कर लिया जाए, तो यह कंटेंट क्रिएशन में क्रांति ला सकता है।
मल्टी-स्पीकर सपोर्ट वाकई कमाल का है। कहानियाँ बनाने वालों के लिए यह game-changer गेम-चेंजर हो सकता है।
सिर्फ आवाज बदलना नहीं, बल्कि भावनाओं को भी दिखाना जरूरी है। क्या यह वाकई emotions भावनाओं को महसूस करा पाएगा?
SynthID जैसी तकनीक जरूरी है। वॉटरमार्किंग से misuse गलत उपयोग रोका जा सकता है।
70+ भाषाएँ सपोर्ट करना बहुत बड़ी बात है। भारत जैसे बहुभाषी देश के लिए यह huge impact बहुत बड़ा प्रभाव डालेगा।
क्या आम यूजर्स के लिए यह जल्दी ही आसान ऐप्स में उपलब्ध होगा? फिलहाल access एक्सेस सीमित लग रहा है।