Google का AI अब बोलेगा आपके स्टाइल में, 70+ भाषाओं को सपोर्ट करेगा Gemini 3.1 Flash TTS

गूगल ने अपनी AI आवाज तकनीक में एक बड़ा कदम आगे बढ़ाते हुए Gemini 3.1 Flash TTS नामक एक नया text-to-speech मॉडल लॉन्च किया है, जो अब सिर्फ पढ़कर नहीं, बल्कि user's style में बोलने में सक्षम है। इसका मतलब यह है कि AI आपके बताए गए तरीके—तेज, धीमा या किसी विशेष tone में—जवाब दे सकता है। यह बदलाव उपयोगकर्ता अनुभव को और अधिक natural और व्यक्तिगत बनाता है।

कंपनी दावा करती है कि यह अब तक का सबसे expressive और नियंत्रण में आसान AI वॉयस मॉडल है। इसमें विशेष audio tags शामिल किए गए हैं जो उपयोगकर्ताओं को आवाज के delivery पर गहरा नियंत्रण देते हैं। उदाहरण के लिए, आप स्पष्ट रूप से निर्देश दे सकते हैं कि किस शब्द पर emphasis हो, कहाँ pause लगे, या बोलचाल की speed क्या हो।

एक और महत्वपूर्ण नवाचार यह है कि इसमें multi-speaker समर्थन है। इसका अर्थ है कि एक ही ऑडियो आउटपुट में विभिन्न आवाजों का उपयोग किया जा सकता है, जिससे कंटेंट निर्माता, कहानीकार और ग्राहक सेवा टीमों के लिए इसकी उपयोगिता बढ़ जाती है। आवाजों के अलग-अलग identity होने से बातचीत या कहानी जीवंत लगती है।

यह मॉडल 70 से अधिक भाषाओं का समर्थन करता है, जिससे यह वैश्विक स्तर पर उपयोग के लिए उपयुक्त हो जाता है। गूगल ने audio quality पर विशेष ध्यान दिया है ताकि आवाज clear और मानव के समान लगे।

सुरक्षा के मद्देनजर, गूगल ने इसमें SynthID नामक एक तकनीक भी शामिल की है, जो AI द्वारा उत्पन्न ऑडियो में एक अदृश्य watermark जोड़ती है। यह transparency और डिजिटल security बढ़ाने में मदद करता है और यह सुनिश्चित करता है कि AI-जनित सामग्री को पहचाना जा सके।

फिलहाल, यह मॉडल डेवलपर्स और उद्यम उपयोगकर्ताओं के लिए Gemini API, Google AI Studio और Vertex AI के माध्यम से प्रीव्यू में उपलब्ध है। सामान्य उपयोगकर्ता इसे Google Vids जैसे उपकरणों के जरिए अपनी सामग्री में शामिल कर सकते हैं। यह निश्चित रूप से भविष्य में AI और मानवीय interaction के बीच की खाई को कम करेगा।

प्रतिक्रियाएँ 6

  • नीरज_आईटी

    बहुत बढ़िया अपडेट। अगर आवाज की speed और emphasis को सही सेट कर लिया जाए, तो यह कंटेंट क्रिएशन में क्रांति ला सकता है।

  • सुमन_डिज़ाइन

    मल्टी-स्पीकर सपोर्ट वाकई कमाल का है। कहानियाँ बनाने वालों के लिए यह game-changer हो सकता है।

  • अमर_सिंह

    सिर्फ आवाज बदलना नहीं, बल्कि भावनाओं को भी दिखाना जरूरी है। क्या यह वाकई emotions को महसूस करा पाएगा?

  • प्रिया_टेक

    SynthID जैसी तकनीक जरूरी है। वॉटरमार्किंग से misuse रोका जा सकता है।

  • विक्रम_डीवी

    70+ भाषाएँ सपोर्ट करना बहुत बड़ी बात है। भारत जैसे बहुभाषी देश के लिए यह huge impact डालेगा।

  • रिया_यूजर

    क्या आम यूजर्स के लिए यह जल्दी ही आसान ऐप्स में उपलब्ध होगा? फिलहाल access सीमित लग रहा है।

यह लेख तथ्यों पर आधारित है और अंग्रेज़ी सीखने के लिए पुनर्रचित किया गया है; पाठक प्रतिक्रियाएँ विविध दृष्टिकोणों के उदाहरण हैं।

[email protected]