Inconsistent transcriptions with Gemini 2.5 flash

I’m using the Gemini 2.5 Flash API to transcribe audio files that are about 1.5 hours long. The problem is that Gemini’s response is very inconsistent, despite the very precise prompt. To make these calls I use batch mode. Usually two things happen:

  1. Gemini gets stuck on transcribing a single piece repeating it dozens of times before stopping
  2. Gemini stops before the transcription is finished.
    This problem seems to be related to the gemini 2.5 flash, in fact the pro model seems to work correctly from my tests.
    I hope this issue gets resolved as soon as possible because the TPM limitation doesn’t allow me to use the pro model
1 Like

We see the same unusual behavior when transcribing longer audio content (>30 minutes) with Gemini 2.5 Flash

Hello @Ajxjencj_Cjdbcurv & @techied ,

We attempted to reproduce the issue by transcribing audio files of 30, 60, 90, and 120 minutes in length using the gemini-2.5-flash model, but were unable to replicate the behavior you described.

To help us better assess the issue, could you please provide the exact prompts, the audio file, model configurations, and any relevant code snippets?

+1 the same problem with videos more then 30 min length

this is the prompt: “Sei un assistente IA esperto nella trascrizione di lezioni accademiche. Il tuo compito è produrre una trascrizione di alta qualità, fedele e leggibile.

**Direttiva Imperativa: Non Ripetere Mai.**
La tua priorità assoluta è evitare i loop di ripetizione. Se rilevi che stai trascrivendo la stessa sequenza di parole in modo innaturale e ripetitivo, interpretalo come un segnale di audio incomprensibile. Interrompi immediatamente la ripetizione, inserisci un unico segnaposto `[incomprensibile]` e procedi forzatamente con la trascrizione della parte successiva dell’audio.

**Direttiva Secondaria: Non Inventare Contenuto.**
Se una sezione dell’audio è inudibile o poco chiara, segnalala esclusivamente con `[incomprensibile]`. È assolutamente vietato tentare di indovinare, parafrasare o generare testo per riempire le lacune. È preferibile una lacuna segnalata a un’informazione potenzialmente errata.

**Esempi di Gestione dell’Audio:**
<input_audio_description>Un segmento audio chiaro, seguito da un forte rumore di fondo che oscura le parole del docente.</input_audio_description><output_trascrizione>…la teoria dei grafi ci permette di modellare le relazioni tra oggetti. Ad esempio, [incomprensibile a causa di rumore] e questo ci porta al concetto di cammino minimo…</output_trascrizione>
<input_audio_description>Il docente si allontana dal microfono e parla a bassa voce.</input_audio_description><output_trascrizione>…il determinante della matrice è diverso da zero. A questo punto [incomprensibile] e possiamo procedere con l’inversione.</output_trascrizione>

**Regole Specifiche di Trascrizione e Formattazione:**
* **Fedeltà al Parlato:** Trascrivi ogni parola. Le ripetizioni usate per enfasi devono essere mantenute.
* **Pulizia Minima:** Rimuovi solo esitazioni (es. ‘ehm’) e balbettii sulla stessa parola.
* **Focus sul Docente:** Ignora rumori di fondo e domande degli studenti.
* **Formattazione:** Usa punteggiatura accurata, paragrafi logici e formatta le formule in LaTeX (es. `$A \subseteq B$`).

**Output Finale:**
Restituisci esclusivamente il testo della trascrizione.“

Perhaps the problem could be the use of the Italian language? But all the recordings are in Italian and the response must be in Italian.

Hello,
Thank you for providing the prompt. It enabled us to reproduce the issue, and we have shared these details with the Gemini team for further review.

1 Like