Limitação de saída de tokens (max_tokens) e interrupção de resposta na API

Mesmo configurando o max_tokens para o limite permitido pelo modelo, as respostas estão sendo interrompidas prematuramente com o finish_reason: length. Isso ocorre mesmo em contas pagas (Pay-as-you-go), o que prejudica a entrega de relatórios e análises longas que minha aplicação exige.

O que eu preciso:

Verificar se existe uma trava de segurança ou limite de "Output Tokens" específico para o meu Tier de faturamento atual.

Orientações sobre como aumentar minha quota de Tokens Per Minute (TPM) para evitar que o "Max Mode" cause erros de latência ou corte de texto.

Confirmar se o modelo [Nome do Modelo] possui uma restrição de janela de saída menor do que a documentada para a minha região.

Aguardo orientações sobre como proceder para liberar o potencial total de saída de tokens do modelo sem interrupções.