Gemini 3.1 Flash Live — audio input via WebSocket never triggers a response

Tad · May 14, 2026, 3:50am

I’m building a voice tutoring app using Gemini 3.1 Flash Live Preview via raw WebSocket. Text input works perfectly — when I send a clientContent message, Gemini responds with audio. But when I send audio input via realtimeInput.audio, Gemini never responds. I only see sessionResumptionUpdate messages, never modelTurn or turnComplete.

Setup message:

json

{
  "setup": {
    "model": "models/gemini-3.1-flash-live-preview",
    "generation_config": {
      "response_modalities": ["AUDIO"],
      "speech_config": {
        "voice_config": {
          "prebuilt_voice_config": { "voice_name": "Leda" }
        }
      }
    },
    "system_instruction": { "parts": [{ "text": "..." }] },
    "realtime_input_config": {
      "automatic_activity_detection": { "disabled": true }
    }
  }
}

Audio message:

json

{
  "realtimeInput": {
    "audio": {
      "data": "<base64 PCM>",
      "mimeType": "audio/pcm;rate=16000"
    }
  }
}

Audio source: Browser AudioContext at 16kHz, AudioWorklet converting float32 to int16 PCM, chunks of 320 samples (~20ms). Amplitude confirmed above noise floor.

Question: What is the correct format to send audio input that will trigger a spoken response from Gemini 3.1 Flash Live via raw WebSocket? Thank you!

Topic		Replies	Views
Gemini Live Audio WebSocket closes immediately after opening Gemini API gemini	3	144	March 29, 2026
Suddenly the Gemini Live API stopped understanding input audio Gemini API gemini , generative-ai , audio , live-streaming , gemini-flash-2-5	6	836	November 12, 2025
Gemini 2.5 Flash Live API native audio -- can't get it to initiate the conversation Gemini API api , audio	6	339	November 25, 2025
Gemini 3.1 Flash Live Preview WebSocket ping timeout after ~170 seconds (2.5 Live works fine) Gemini API model	2	77	July 20, 2026
Live AI voice sessions not working (2.5-flash-native-audio-preview-12-2025) Gemini API ai , gemini-flash-2-5	1	65	April 23, 2026

Gemini 3.1 Flash Live — audio input via WebSocket never triggers a response

Related topics