Google Luncurkan Gemini 3.1 Flash TTS dengan Dukungan Lebih dari 70 Bahasa

Google baru saja meluncurkan new besar dalam teknologi konversi teks ke suara dengan merilis Gemini 3.1 Flash TTS, sebuah model kecerdasan buatan yang mampu menghasilkan suara lebih expressive dan menyerupai human . Diluncurkan pada 15 April 2026, sistem ini dibangun untuk mendukung komunikasi digital yang lebih alami, bahkan dalam konteks interaksi kompleks dengan multiple pembicara sekaligus.

Salah satu keunggulan utama model ini adalah cakupan bahasanya yang luas: kini mendukung over 70 languages , termasuk Bahasa Indonesia dengan pelafalan yang akurat dan lancar. Fitur baru bernama Audio Tags memungkinkan pengguna mengatur secara detail parameter suara langsung dari teks, seperti kecepatan, gaya penyampaian, hingga emotions seperti antusias atau serius, semuanya dalam satu kalimat.

Dari sisi performance , model ini menunjukkan efisiensi tinggi. Menurut report dari Artificial Analysis, Gemini 3.1 Flash TTS mencatat skor Elo 1.211, menempatkannya di atas ElevenLabs v3 dan hanya kalah tipis dari Inworld 1.5 Max. Di sisi cost , Google menetapkan tarif 1 dolar AS per juta token untuk input teks dan 20 dolar AS per juta token untuk output audio, dengan opsi batch yang lebih murah.

Untuk transparency , Google menyertakan digital watermark pada setiap hasil audio menggunakan teknologi SynthID. Tanda ini tertanam dalam file dan bisa dideteksi mesin, meskipun tak terdengar oleh human ear . Saat ini, layanan ini tersedia dalam pratinjau di API Gemini, Vertex AI, dan Google Vids, sementara publik bisa mencobanya gratis melalui Google AI Studio—dengan catatan data digunakan untuk product development .

Reaksi 6

  • R
    rina_suara

    Fitur Audio Tags ini benar-benar terobosan buat yang kerja di podcast atau narasi e-learning.

  • B
    budi_dev

    Harga 20 dolar per juta token untuk output audio? Masih terasa expensive buat startup kecil kayak kami.

  • S
    sari_ai

    Akhirnya AI bisa bawa nada serius dan antusias tanpa terdengar kaku. Emosi dalam suara itu penting banget buat engagement.

  • P
    pak_joko

    Watermark SynthID bagus untuk etika, tapi apakah semua platform bisa detect ini secara otomatis?

  • D
    dewi_tekno

    70 bahasa itu huge , tapi saya penasaran sejauh mana dia paham dialek lokal seperti Jawa atau Sunda.

  • F
    fajar_batch

    Yang hemat biaya itu opsi batch 0,5 dolar input dan 10 dolar output. Buat processing massal, ini lebih masuk akal.

Artikel ini berbasis fakta dan disusun ulang untuk tujuan pembelajaran bahasa Inggris; reaksi pembaca adalah contoh dari beragam sudut pandang.

[email protected]