Table of Contents

Modelos

A AIVAX provê modelos de diferentes provedores para tornar o desenvolvimento ainda mais rápido, dispensando a necessidade de ter que configurar uma conta para cada provedor para ter acessos aos seus modelos mais recentes.

Veja a lista abaixo dos modelos disponíveis e suas precificações. Todos os preços consideram o total de entrada e saída de tokens, com ou sem cache.

Todos os preços estão em dólares dos Estados Unidos.

amazon

Nome do modelo Preços Descrição
@amazon/nova-pro
Entrada:
$ 0.80 /1m tokens
Saída:
$ 3.20 /1m tokens
A highly capable multimodal model with the best combination of accuracy, speed, and cost for a wide range of tasks.
Entrada: aceita imagens, vídeos
Chamadas de função
Raciocínio
Funções JSON
@amazon/nova-lite
Entrada:
$ 0.06 /1m tokens
Saída:
$ 0.24 /1m tokens
A very low cost multimodal model that is lightning fast for processing image, video, and text inputs.
Entrada: aceita imagens, vídeos
Chamadas de função
Raciocínio
Funções JSON
@amazon/nova-micro
Entrada:
$ 0.04 /1m tokens
Saída:
$ 0.14 /1m tokens
A text-only model that delivers the lowest latency responses at very low cost.
Chamadas de função
Funções JSON

anthropic

Nome do modelo Preços Descrição
@anthropic/claude-4.1-opus
Entrada:
$ 15.00 /1m tokens
Entrada (em cache):
$ 1.50 /1m tokens
Saída:
$ 75.00 /1m tokens
Claude Opus 4.1 is Anthropic’s flagship model, offering improved performance in coding, reasoning, and agentic tasks.
Entrada: aceita imagens
Chamadas de função
Raciocínio
Funções JSON
@anthropic/claude-4.5-sonnet
Entrada:
$ 3.00 /1m tokens
Entrada (em cache):
$ 0.30 /1m tokens
Saída:
$ 15.00 /1m tokens
Claude Sonnet 4.5 is the newest model in the Sonnet series, offering improvements and updates over Sonnet 4.
Entrada: aceita imagens
Chamadas de função
Raciocínio
Funções JSON
@anthropic/claude-4-sonnet
Entrada:
$ 3.00 /1m tokens
Entrada (em cache):
$ 0.30 /1m tokens
Saída:
$ 15.00 /1m tokens
Anthropic's mid-size model with superior intelligence for high-volume uses in coding, in-depth research, agents, & more.
Entrada: aceita imagens
Chamadas de função
Raciocínio
Funções JSON
@anthropic/claude-4.5-sonnet:discounted
Entrada:
$ 1.80 /1m tokens
Saída:
$ 9.00 /1m tokens
Claude Sonnet 4.5 is the newest model in the Sonnet series, offering improvements and updates over Sonnet 4.
Entrada: aceita imagens
Chamadas de função
Raciocínio
Funções JSON
@anthropic/claude-4.5-haiku
Entrada:
$ 1.00 /1m tokens
Entrada (em cache):
$ 0.10 /1m tokens
Saída:
$ 5.00 /1m tokens
Claude Haiku 4.5 is Anthropic’s fastest and most efficient model, offering near-frontier intelligence with much lower cost and latency than larger Claude models.
Entrada: aceita imagens
Chamadas de função
Funções JSON
@anthropic/claude-3.5-haiku
Entrada:
$ 0.80 /1m tokens
Entrada (em cache):
$ 0.08 /1m tokens
Saída:
$ 4.00 /1m tokens
Claude 3.5 Haiku is the next generation of our fastest model. For a similar speed to Claude 3 Haiku, Claude 3.5 Haiku improves across every skill set and surpasses Claude 3 Opus, the largest model in our previous generation, on many intelligence benchmarks.
Entrada: aceita imagens
Chamadas de função
Funções JSON
@anthropic/claude-3-haiku
Entrada:
$ 0.25 /1m tokens
Entrada (em cache):
$ 0.03 /1m tokens
Saída:
$ 1.25 /1m tokens
Claude 3 Haiku is Anthropic's fastest model yet, designed for enterprise workloads which often involve longer prompts.
Entrada: aceita imagens
Chamadas de função
Funções JSON

cohere

Nome do modelo Preços Descrição
@cohere/command-a
Entrada:
$ 2.50 /1m tokens
Saída:
$ 10.00 /1m tokens
Command A is Cohere's most performant model to date, excelling at tool use, agents, retrieval augmented generation (RAG), and multilingual use cases. Command A has a context length of 256K, only requires two GPUs to run, and has 150% higher throughput compared to Command R+ 08-2024.
Entrada: aceita imagens
Chamadas de função
Funções JSON

deepseekai

Nome do modelo Preços Descrição
@deepseekai/r1
Entrada:
$ 0.50 /1m tokens
Entrada (em cache):
$ 0.40 /1m tokens
Saída:
$ 2.15 /1m tokens
The DeepSeek R1 model has undergone a minor version upgrade, with the current version being DeepSeek-R1-0528.
Chamadas de função
Raciocínio
Funções JSON
@deepseekai/v3.1-terminus
Entrada:
$ 0.27 /1m tokens
Entrada (em cache):
$ 0.22 /1m tokens
Saída:
$ 1.00 /1m tokens
DeepSeek-V3.1 is post-trained on the top of DeepSeek-V3.1-Base, which is built upon the original V3 base checkpoint through a two-phase long context extension approach, following the methodology outlined in the original DeepSeek-V3 report.
Chamadas de função
Raciocínio
Funções JSON
@deepseekai/v3.2
Entrada:
$ 0.27 /1m tokens
Saída:
$ 0.40 /1m tokens
DeepSeek-V3.2-Exp is an intermediate step toward the next-generation architecture of the DeepSeek models by introducing DeepSeek Sparse Attention—a sparse attention mechanism designed to explore and validate optimizations for training and inference efficiency in long-context scenarios.
Chamadas de função
Raciocínio
Funções JSON

google

Nome do modelo Preços Descrição
@google/gemini-2.5-pro
Entrada:
$ 1.25 /1m tokens
Entrada (em cache):
$ 0.31 /1m tokens
Saída:
$ 10.00 /1m tokens
One of the most powerful models today.
Entrada: aceita imagens, vídeos, áudios
Chamadas de função
Raciocínio
Funções JSON
@google/gemini-2.5-pro:discounted
Entrada:
$ 1.00 /1m tokens
Saída:
$ 8.00 /1m tokens
One of the most powerful models today.
Entrada: aceita imagens, vídeos, áudios
Chamadas de função
Raciocínio
Funções JSON
@google/gemini-2.5-flash
Entrada:
$ 0.30 /1m tokens
Entrada (em cache):
$ 0.08 /1m tokens
Saída:
$ 2.50 /1m tokens
Google's best model in terms of price-performance, offering well-rounded capabilities. 2.5 Flash is best for large scale processing, low-latency, high volume tasks that require thinking, and agentic use cases.
Entrada: aceita imagens, vídeos, áudios
Chamadas de função
Raciocínio
Funções JSON
@google/gemini-2.5-flash-lite
Entrada:
$ 0.10 /1m tokens
Entrada (em cache):
$ 0.03 /1m tokens
Saída:
$ 0.40 /1m tokens
A Gemini 2.5 Flash model optimized for cost efficiency and low latency.
Entrada: aceita imagens, vídeos, áudios
Chamadas de função
Raciocínio
Funções JSON
@google/gemini-2.0-flash
Entrada:
$ 0.10 /1m tokens
Entrada (em cache):
$ 0.03 /1m tokens
Saída:
$ 0.40 /1m tokens
Gemini 2.0 Flash delivers next-gen features and improved capabilities, including superior speed, native tool use, and a 1M token context window.
Entrada: aceita imagens, vídeos, áudios
Chamadas de função
Funções JSON
@google/gemini-2.0-flash-lite
Entrada:
$ 0.08 /1m tokens
Saída:
$ 0.30 /1m tokens
General-purpose model, with image recognition, smart and fast. Great for an economical chat.
Entrada: aceita imagens, vídeos, áudios
Chamadas de função
Funções JSON

inception

Nome do modelo Preços Descrição
@inception/mercury
Entrada:
$ 0.25 /1m tokens
Saída:
$ 1.00 /1m tokens
Extremely fast model by generative diffusion.
Chamadas de função
Funções JSON

metaai

Nome do modelo Preços Descrição
@metaai/llama-3.3-70b
Entrada:
$ 0.59 /1m tokens
Saída:
$ 0.79 /1m tokens
Previous generation model with many parameters and surprisingly fast speed.
Chamadas de função
Funções JSON
@metaai/llama-4-maverick-17b-128e
Entrada:
$ 0.20 /1m tokens
Saída:
$ 0.60 /1m tokens
Fast model, with 17 billion activated parameters and 128 experts.
Entrada: aceita imagens
Chamadas de função
Funções JSON
@metaai/llama-4-scout-17b-16e
Entrada:
$ 0.11 /1m tokens
Saída:
$ 0.34 /1m tokens
Smaller version of the Llama 4 family with 17 billion activated parameters and 16 experts.
Entrada: aceita imagens
Chamadas de função
Funções JSON
@metaai/llama-3.1-8b
Entrada:
$ 0.05 /1m tokens
Saída:
$ 0.08 /1m tokens
Cheap and fast model for less demanding tasks.
Chamadas de função
Funções JSON

minimax

Nome do modelo Preços Descrição
@minimax/m2
Entrada:
$ 0.30 /1m tokens
Saída:
$ 1.20 /1m tokens
MiniMax-M2 is a compact, high-efficiency large language model optimized for end-to-end coding and agentic workflows.
Chamadas de função
Raciocínio
Funções JSON

mistral

Nome do modelo Preços Descrição
@mistral/pixtral-large
Entrada:
$ 2.00 /1m tokens
Saída:
$ 6.00 /1m tokens
Pixtral Large is the second model in our multimodal family and demonstrates frontier-level image understanding. Particularly, the model is able to understand documents, charts and natural images, while maintaining the leading text-only understanding of Mistral Large 2.
Entrada: aceita imagens
Chamadas de função
Funções JSON
@mistral/magistral-medium
Entrada:
$ 2.00 /1m tokens
Saída:
$ 5.00 /1m tokens
Mistral's frontier-class reasoning model update released September 2025 with vision support.
Entrada: aceita imagens
Raciocínio
Funções JSON
@mistral/medium
Entrada:
$ 0.40 /1m tokens
Saída:
$ 2.00 /1m tokens
Mistral Medium 3 delivers frontier performance while being an order of magnitude less expensive. For instance, the model performs at or above 90% of Claude Sonnet 3.7 on benchmarks across the board at a significantly lower cost.
Entrada: aceita imagens
Chamadas de função
Funções JSON
@mistral/magistral-small
Entrada:
$ 0.50 /1m tokens
Saída:
$ 1.50 /1m tokens
Complex thinking, backed by deep understanding, with transparent reasoning you can follow and verify. The model excels in maintaining high-fidelity reasoning across numerous languages, even when switching between languages mid-task.
Raciocínio
Funções JSON
@mistral/small
Entrada:
$ 0.10 /1m tokens
Saída:
$ 0.30 /1m tokens
Mistral Small is the ideal choice for simple tasks that one can do in bulk - like Classification, Customer Support, or Text Generation. It offers excellent performance at an affordable price point.
Entrada: aceita imagens
Chamadas de função
Funções JSON
@mistral/nemo-12b-it-2407
Entrada:
$ 0.02 /1m tokens
Saída:
$ 0.04 /1m tokens
12B model trained jointly by Mistral AI and NVIDIA, it significantly outperforms existing models smaller or similar in size.
Chamadas de função
Funções JSON

model-router

Nome do modelo Preços Descrição
@model-router/gemini
Entrada:
$ 0.20 /1m tokens
Entrada (em cache):
$ 0.05 /1m tokens
Saída:
$ 0.50 /1m tokens
Model router for Google Gemini. The routing is made between: - Gemini 2.0 Flash - Gemini 2.5 Flash (no thinking) - Gemini 2.5 Flash (thinking)
@model-router/gemini-high
Entrada:
$ 0.20 /1m tokens
Entrada (em cache):
$ 0.05 /1m tokens
Saída:
$ 0.50 /1m tokens
Model router for Google Gemini. The routing is made between: - Gemini 2.5 Flash - Gemini 2.5 Pro - Gemini 2.5 Pro (high)
@model-router/openai
Entrada:
$ 0.20 /1m tokens
Entrada (em cache):
$ 0.05 /1m tokens
Saída:
$ 0.50 /1m tokens
Model router for OpenAI. The routing is made between: - GPT-5-nano - GPT 5-mini-low - GPT-5-mini-medium.
@model-router/openai-high
Entrada:
$ 0.20 /1m tokens
Entrada (em cache):
$ 0.05 /1m tokens
Saída:
$ 0.50 /1m tokens
Model router for OpenAI. The routing is made between: - GPT-5-mini - GPT-5 -GPT-5-high
@model-router/claude
Entrada:
$ 0.20 /1m tokens
Entrada (em cache):
$ 0.05 /1m tokens
Saída:
$ 0.50 /1m tokens
Model router for Claude. The routing is made between: - Claude 3 Haiku - Claude 4.5 Haiku - Claude 4.5 Sonnet
@model-router/claude-high
Entrada:
$ 0.20 /1m tokens
Entrada (em cache):
$ 0.05 /1m tokens
Saída:
$ 0.50 /1m tokens
Model router for Claude. The routing is made between: - Claude 4.5 Haiku - Claude 4.5 Sonnet - Claude 4.1 Opus
@model-router/llama
Entrada:
$ 0.20 /1m tokens
Entrada (em cache):
$ 0.05 /1m tokens
Saída:
$ 0.50 /1m tokens
Model router for Meta Llama. The routing is made between: - Llama 4 Scout - Llama 4 Maverick - Llama 3.3 70b.
@model-router/grok
Entrada:
$ 0.20 /1m tokens
Entrada (em cache):
$ 0.05 /1m tokens
Saída:
$ 0.50 /1m tokens
Model router for X-AI Grok. The routing is made between: - Grok 4 Fast (non reasoning) - Grok 4 Fast (reasoning) - Grok 4

moonshotai

Nome do modelo Preços Descrição
@moonshotai/kimi-k2
Entrada:
$ 1.00 /1m tokens
Entrada (em cache):
$ 0.50 /1m tokens
Saída:
$ 3.00 /1m tokens
Model with 1tri total parameters, 32bi activated parameters, optimized for agentic intelligence.
Chamadas de função
Funções JSON

openai

Nome do modelo Preços Descrição
@openai/gpt-4o
Entrada:
$ 2.50 /1m tokens
Entrada (em cache):
$ 1.25 /1m tokens
Saída:
$ 10.00 /1m tokens
Dedicated to tasks requiring reasoning for mathematical and logical problem solving.
Entrada: aceita imagens
Chamadas de função
Funções JSON
@openai/gpt-5-chat
Entrada:
$ 1.25 /1m tokens
Entrada (em cache):
$ 0.13 /1m tokens
Saída:
$ 10.00 /1m tokens
GPT-5 snapshot currently used by OpenAI's ChatGPT.
Entrada: aceita imagens
Chamadas de função
@openai/gpt-5-codex
Entrada:
$ 1.25 /1m tokens
Entrada (em cache):
$ 0.13 /1m tokens
Saída:
$ 10.00 /1m tokens
GPT-5-Codex is a specialized version of GPT-5 tailored for software engineering and coding tasks.
Entrada: aceita imagens
Chamadas de função
Raciocínio
Funções JSON
@openai/gpt-5
Entrada:
$ 1.25 /1m tokens
Entrada (em cache):
$ 0.13 /1m tokens
Saída:
$ 10.00 /1m tokens
OpenAI's newest flagship model for coding, reasoning, and agentic tasks across domains.
Entrada: aceita imagens
Chamadas de função
Raciocínio
Funções JSON
@openai/gpt-4.1
Entrada:
$ 2.00 /1m tokens
Entrada (em cache):
$ 0.50 /1m tokens
Saída:
$ 8.00 /1m tokens
Versatile, highly intelligent, and top-of-the-line. One of the most capable models currently available.
Entrada: aceita imagens
Chamadas de função
Funções JSON
@openai/o3
Entrada:
$ 2.00 /1m tokens
Entrada (em cache):
$ 0.50 /1m tokens
Saída:
$ 8.00 /1m tokens
A well-rounded and powerful model across domains. It sets a new standard for math, science, coding, and visual reasoning tasks.
Entrada: aceita imagens
Chamadas de função
Raciocínio
Funções JSON
@openai/gpt-5:discounted
Entrada:
$ 1.00 /1m tokens
Saída:
$ 7.50 /1m tokens
OpenAI's newest flagship model for coding, reasoning, and agentic tasks across domains.
Entrada: aceita imagens
Chamadas de função
Raciocínio
Funções JSON
@openai/o4-mini
Entrada:
$ 1.10 /1m tokens
Entrada (em cache):
$ 0.28 /1m tokens
Saída:
$ 4.40 /1m tokens
Optimized for fast, effective reasoning with exceptionally efficient performance in coding and visual tasks.
Entrada: aceita imagens
Chamadas de função
Raciocínio
Funções JSON
@openai/o3-mini
Entrada:
$ 1.10 /1m tokens
Entrada (em cache):
$ 0.55 /1m tokens
Saída:
$ 4.40 /1m tokens
o3-mini provides high intelligence at the same cost and latency targets of previous versions of o-mini series.
Chamadas de função
Raciocínio
Funções JSON
@openai/o4-mini:discounted
Entrada:
$ 0.70 /1m tokens
Saída:
$ 2.20 /1m tokens
Optimized for fast, effective reasoning with exceptionally efficient performance in coding and visual tasks.
Entrada: aceita imagens
Chamadas de função
Raciocínio
Funções JSON
@openai/gpt-5-mini
Entrada:
$ 0.25 /1m tokens
Entrada (em cache):
$ 0.03 /1m tokens
Saída:
$ 2.00 /1m tokens
GPT-5 mini is a faster, more cost-efficient version of GPT-5.
Entrada: aceita imagens
Chamadas de função
Funções JSON
@openai/gpt-4.1-mini
Entrada:
$ 0.40 /1m tokens
Entrada (em cache):
$ 0.10 /1m tokens
Saída:
$ 1.60 /1m tokens
Fast and cheap for focused tasks.
Entrada: aceita imagens
Chamadas de função
Funções JSON
@openai/gpt-oss-120b
Entrada:
$ 0.15 /1m tokens
Saída:
$ 0.75 /1m tokens
OpenAI's flagship open source model, built on a Mixture-of-Experts (MoE) architecture with 120 billion parameters and 128 experts.
Chamadas de função
Raciocínio
Funções JSON
@openai/gpt-4o-mini
Entrada:
$ 0.15 /1m tokens
Entrada (em cache):
$ 0.08 /1m tokens
Saída:
$ 0.60 /1m tokens
Smaller version of 4o, optimized for everyday tasks.
Entrada: aceita imagens
Chamadas de função
Funções JSON
@openai/gpt-oss-20b
Entrada:
$ 0.10 /1m tokens
Saída:
$ 0.50 /1m tokens
OpenAI's flagship open source model, built on a Mixture-of-Experts (MoE) architecture with 20 billion parameters and 128 experts.
Chamadas de função
Raciocínio
Funções JSON
@openai/gpt-4.1-nano
Entrada:
$ 0.10 /1m tokens
Entrada (em cache):
$ 0.03 /1m tokens
Saída:
$ 0.40 /1m tokens
The fastest and cheapest GPT 4.1 model.
Entrada: aceita imagens
Chamadas de função
Funções JSON
@openai/gpt-5-nano
Entrada:
$ 0.05 /1m tokens
Entrada (em cache):
$ 0.01 /1m tokens
Saída:
$ 0.40 /1m tokens
OpenAI's fastest, cheapest version of GPT-5.
Entrada: aceita imagens
Chamadas de função
Funções JSON

qwen

Nome do modelo Preços Descrição
@qwen/qwen3-max
Entrada:
$ 1.20 /1m tokens
Entrada (em cache):
$ 0.24 /1m tokens
Saída:
$ 6.00 /1m tokens
Qwen3-Max improves instruction following, multilingual ability, and tool use; reduced hallucinations.
Chamadas de função
Raciocínio
Funções JSON
@qwen/qwen3-coder-plus
Entrada:
$ 1.00 /1m tokens
Saída:
$ 5.00 /1m tokens
Powered by Qwen3, this is a powerful Coding Agent that excels in tool calling and environment interaction to achieve autonomous programming.
Chamadas de função
Funções JSON
@qwen/qwen3-next-80b-a3b-it
Entrada:
$ 0.14 /1m tokens
Saída:
$ 1.40 /1m tokens
An 80 B-parameter instruction model with hybrid attention and Mixture‑of‑Experts, optimized for ultra‑long contexts up to 262 k tokens.
Chamadas de função
Funções JSON
@qwen/qwen3-next-80b-a3b-think
Entrada:
$ 0.14 /1m tokens
Saída:
$ 1.40 /1m tokens
A 80 B‑parameter “thinking‑only” model with hybrid attention and high‑sparsity MoE, designed for deep reasoning over ultra‑long contexts.
Chamadas de função
Raciocínio
Funções JSON
@qwen/qwen3-coder-480b-a35b-it
Entrada:
$ 0.29 /1m tokens
Saída:
$ 1.20 /1m tokens
Qwen3-Coder-480B-A35B-Instruct is the Qwen3's most agentic code model, featuring Significant Performance on Agentic Coding, Agentic Browser-Use and other foundational coding tasks, achieving results comparable to Claude Sonnet.
Chamadas de função
Funções JSON
@qwen/qwen3-32b
Entrada:
$ 0.29 /1m tokens
Saída:
$ 0.59 /1m tokens
32B-parameter LLM with a 131K-token context window, offering advanced chain-of-thought reasoning, seamless tool calling, native JSON outputs, and robust multilingual fluency.
Chamadas de função
Raciocínio
Funções JSON

venice

Nome do modelo Preços Descrição
@venice/dphn-24b-uncensored
Entrada:
$ 0.10 /1m tokens
Saída:
$ 0.45 /1m tokens
Venice Uncensored is a fine-tuned version of Mistral-Small-24B-Instruct-2501, created by dphn.ai in partnership with Venice.ai.
Funções JSON

x-ai

Nome do modelo Preços Descrição
@x-ai/grok-4
Entrada:
$ 3.00 /1m tokens
Saída:
$ 15.00 /1m tokens
xAI's latest and greatest flagship model, offering unparalleled performance in natural language, math and reasoning - the perfect jack of all trades.
Entrada: aceita imagens
Chamadas de função
Raciocínio
Funções JSON
@x-ai/grok-3
Entrada:
$ 3.00 /1m tokens
Saída:
$ 15.00 /1m tokens
xAI's flagship model that excels at enterprise use cases like data extraction, coding, and text summarization. Possesses deep domain knowledge in finance, healthcare, law, and science.
Entrada: aceita imagens
Chamadas de função
Funções JSON
@x-ai/grok-3-mini
Entrada:
$ 0.30 /1m tokens
Saída:
$ 0.50 /1m tokens
xAI's lightweight model that thinks before responding. Great for simple or logic-based tasks that do not require deep domain knowledge. The raw thinking traces are accessible.
Entrada: aceita imagens
Chamadas de função
Raciocínio
Funções JSON
@x-ai/grok-4-fast-reasoning
Entrada:
$ 0.20 /1m tokens
Entrada (em cache):
$ 0.05 /1m tokens
Saída:
$ 0.50 /1m tokens
Grok 4 Fast is xAI's latest multimodal model with SOTA cost-efficiency and a 2M token context window.
Entrada: aceita imagens
Chamadas de função
Raciocínio
Funções JSON
@x-ai/grok-4-fast
Entrada:
$ 0.20 /1m tokens
Entrada (em cache):
$ 0.05 /1m tokens
Saída:
$ 0.50 /1m tokens
Grok 4 Fast is xAI's latest multimodal model with SOTA cost-efficiency and a 2M token context window.
Entrada: aceita imagens
Chamadas de função
Funções JSON

z-ai

Nome do modelo Preços Descrição
@z-ai/glm-4.6
Entrada:
$ 0.60 /1m tokens
Saída:
$ 2.00 /1m tokens
GLM‑4.6 is a high‑capacity LLM with a 200K‑token context window, strong coding and reasoning abilities, and enhanced tool‑use capabilities.
Chamadas de função
Raciocínio
Funções JSON