Table of Contents

Limites da API

Os limites de taxa regulam o número de requisições que você pode enviar em uma janela de tempo. Eles ajudam a prevenir abuso e garantir estabilidade para todos os usuários.

Os limites abaixo são aplicados conforme o tier da sua conta:

  • Tier zero: conta nova que nunca adicionou créditos ou que possui créditos de teste.
  • Tier 1: conta criada há pelo menos 48 horas e que já adicionou qualquer valor em créditos.
  • Tier 2: conta criada há pelo menos 1 mês e que já adicionou pelo menos $100 em créditos.
  • Tier 3: conta criada há pelo menos 3 meses e que já adicionou pelo menos $1.000 em créditos.

A medição é pela adição de créditos e não pelo consumo. Exemplo: não é necessário consumir $100 para avançar ao Tier 2, basta adicionar esse valor.

Legendas:

  • RPM: requisições por minuto
  • RPD: requisições por dia (24h)
  • TPM: tokens de entrada por minuto
Operação RPM RPD TPM
Pesquisa de documentos 10 - -
Inserção de documentos - 30 -
Inferência (requisições) 5 30 -
Inferência (tokens de entrada) - - 50.000
Inferência (tokens de entrada - high-end) 0 - 0
Execução serverless 5 100 -
Ferramentas (compartilhado) - 100 -
Ferramenta web_search - 15 -
Ferramenta x_posts_search - 10 -
Ferramenta generate_image - 3 -

Descrição das operações:

  • Pesquisa de documentos: inclui pesquisa semântica de documentos em uma coleção.
  • Inserção de documentos: criação e modificação de documentos em uma coleção.
  • Inferência (requisições): número de chamadas de inferência ou função (API ou chat client).
  • Inferência (tokens de entrada): tokens de entrada usados em inferência.
  • Inferência (tokens de entrada - high-end): tokens de entrada para modelos high-end (Tier 1+).
  • Execução serverless: chamadas de função serverless.
  • Ferramentas (compartilhado): uso de ferramentas integradas providas pela AIVAX (não inclui ferramentas customizadas).
  • Ferramenta (nome): uso individual de cada ferramenta integrada.

Grupos de modelos

Certos modelos possuem multiplicadores de taxa:

  • Comum: 1x
  • Descontados: 0,5x
  • Baixa-latência: 0,3x
  • Grátis: 0,1x

Exemplo: se usar um modelo "descontado", os limites de taxa serão 50% menores (ex: 75 req/min → 37 req/min).

Limites para BYOK (Bring-your-own-key)

Para modelos providos por você, o limite é 1.500 requisições por minuto (separado do limite de inferência integrada).