Google Luncurkan Gemini 3.1 Flash TTS dengan Dukungan Lebih dari 70 Bahasa

D dion_tech 17 April 2026 pukul 13 2 menit baca

Google baru saja meluncurkan new besar dalam teknologi konversi teks ke suara dengan merilis Gemini 3.1 Flash TTS, sebuah model kecerdasan buatan yang mampu menghasilkan suara lebih expressive dan menyerupai human . Diluncurkan pada 15 April 2026, sistem ini dibangun untuk mendukung komunikasi digital yang lebih alami, bahkan dalam konteks interaksi kompleks dengan multiple pembicara sekaligus.

Salah satu keunggulan utama model ini adalah cakupan bahasanya yang luas: kini mendukung over 70 languages , termasuk Bahasa Indonesia dengan pelafalan yang akurat dan lancar. Fitur baru bernama Audio Tags memungkinkan pengguna mengatur secara detail parameter suara langsung dari teks, seperti kecepatan, gaya penyampaian, hingga emotions seperti antusias atau serius, semuanya dalam satu kalimat.

Dari sisi performance , model ini menunjukkan efisiensi tinggi. Menurut report dari Artificial Analysis, Gemini 3.1 Flash TTS mencatat skor Elo 1.211, menempatkannya di atas ElevenLabs v3 dan hanya kalah tipis dari Inworld 1.5 Max. Di sisi cost , Google menetapkan tarif 1 dolar AS per juta token untuk input teks dan 20 dolar AS per juta token untuk output audio, dengan opsi batch yang lebih murah.

Untuk transparency , Google menyertakan digital watermark pada setiap hasil audio menggunakan teknologi SynthID. Tanda ini tertanam dalam file dan bisa dideteksi mesin, meskipun tak terdengar oleh human ear . Saat ini, layanan ini tersedia dalam pratinjau di API Gemini, Vertex AI, dan Google Vids, sementara publik bisa mencobanya gratis melalui Google AI Studio—dengan catatan data digunakan untuk product development .

Reaksi 6

R
rina_suara

Fitur Audio Tags ini benar-benar terobosan buat yang kerja di podcast atau narasi e-learning.
B
budi_dev

Harga 20 dolar per juta token untuk output audio? Masih terasa expensive buat startup kecil kayak kami.
S
sari_ai

Akhirnya AI bisa bawa nada serius dan antusias tanpa terdengar kaku. Emosi dalam suara itu penting banget buat engagement.
P
pak_joko

Watermark SynthID bagus untuk etika, tapi apakah semua platform bisa detect ini secara otomatis?
D
dewi_tekno

70 bahasa itu huge , tapi saya penasaran sejauh mana dia paham dialek lokal seperti Jawa atau Sunda.
F
fajar_batch

Yang hemat biaya itu opsi batch 0,5 dolar input dan 10 dolar output. Buat processing massal, ini lebih masuk akal.

Update HyperOS 3.1 Sudah Tersedia untuk Deretan HP Xiaomi Ini

Galaxy S26 Series Diperkenalkan, Bawa Transformasi Besar Berbasis AI

Claude Cowork: Evolusi AI Anthropic Jadi Standar Kerja Baru

Infinix Luncurkan Note 60 Ultra Desain Pininfarina di Indonesia

Cek Harga iPhone Terkini April 2026: Spesifikasi dan Tren Masa Depan di Pasar Gadget Indonesia