12sec Latency for 2.5-flash-lite

Shreyansh_Bardia · January 15, 2026, 4:57am

A simple message `hi` has a 12 second latency when using Vertex AI

response = client.models.generate_content(
            model="gemini-2.5-flash-lite",
            contents="hi",
            config=GenerateContentConfig(
                response_mime_type="application/json",
                max_output_tokens=20,
                temperature=0,
                thinking_config=ThinkingConfig(
                    thinking_budget=0,
                ),
            ),
        )

This is making it completely unusable

Topic		Replies	Views
Gemini taking too long to respond (~5m) Gemini API api , gemini-flash , gemini-2-5	2	727	July 24, 2025
Gemini-2.5-pro accessed over https://generativelanguage.googleapis.com/v1beta/openai/ has dramatic latency increase Gemini API api , model , gemini-2-5	10	922	July 21, 2025
Significant delay with Gemini Live 2.5 Flash (native audio) Gemini API models , gemini , audio , gemini-flash-2-5	0	70	February 12, 2026
Experiencing Extremely High Latency with Gemini 2.5 Flash & Pro Gemini API gemini-15 , feedback , api	1	236	November 26, 2025
Persistent High Latency with `gemini-2.5-pro` Gemini API generative-ai , gemini-2-5	4	1126	July 26, 2025

12sec Latency for 2.5-flash-lite

Related topics