Google Luncurkan Gemini 3.1 Flash TTS dengan Dukungan Lebih dari 70 Bahasa
Google baru saja meluncurkan new besar dalam teknologi konversi teks ke suara dengan merilis Gemini 3.1 Flash TTS, sebuah model kecerdasan buatan yang mampu menghasilkan suara lebih expressive dan menyerupai human . Diluncurkan pada 15 April 2026, sistem ini dibangun untuk mendukung komunikasi digital yang lebih alami, bahkan dalam konteks interaksi kompleks dengan multiple pembicara sekaligus.
Salah satu keunggulan utama model ini adalah cakupan bahasanya yang luas: kini mendukung over 70 languages , termasuk Bahasa Indonesia dengan pelafalan yang akurat dan lancar. Fitur baru bernama Audio Tags memungkinkan pengguna mengatur secara detail parameter suara langsung dari teks, seperti kecepatan, gaya penyampaian, hingga emotions seperti antusias atau serius, semuanya dalam satu kalimat.
Dari sisi performance , model ini menunjukkan efisiensi tinggi. Menurut report dari Artificial Analysis, Gemini 3.1 Flash TTS mencatat skor Elo 1.211, menempatkannya di atas ElevenLabs v3 dan hanya kalah tipis dari Inworld 1.5 Max. Di sisi cost , Google menetapkan tarif 1 dolar AS per juta token untuk input teks dan 20 dolar AS per juta token untuk output audio, dengan opsi batch yang lebih murah.
Untuk transparency , Google menyertakan digital watermark pada setiap hasil audio menggunakan teknologi SynthID. Tanda ini tertanam dalam file dan bisa dideteksi mesin, meskipun tak terdengar oleh human ear . Saat ini, layanan ini tersedia dalam pratinjau di API Gemini, Vertex AI, dan Google Vids, sementara publik bisa mencobanya gratis melalui Google AI Studio—dengan catatan data digunakan untuk product development .
Fitur Audio Tags ini benar-benar terobosan buat yang kerja di podcast atau narasi e-learning.
Harga 20 dolar per juta token untuk output audio? Masih terasa expensive mahal buat startup kecil kayak kami.
Akhirnya AI bisa bawa nada serius dan antusias tanpa terdengar kaku. Emosi dalam suara itu penting banget buat engagement.
Watermark SynthID bagus untuk etika, tapi apakah semua platform bisa detect mendeteksi ini secara otomatis?
70 bahasa itu huge luar biasa, tapi saya penasaran sejauh mana dia paham dialek lokal seperti Jawa atau Sunda.
Yang hemat biaya itu opsi batch 0,5 dolar input dan 10 dolar output. Buat processing pemrosesan massal, ini lebih masuk akal.