Will It Run AI

Will It Run AI · Calculadora

Diga-nos o que você tem e o que quer fazer. Vamos classificar os modelos locais que fazem sentido.

Comece pelo seu hardware e carga de trabalho, depois receba uma lista baseada em compatibilidade, velocidade e suporte de runtime, em vez de adivinhar a partir de listas genéricas de modelos ou capturas de benchmark.

Snapshot ao vivo do catálogo: 196 hardware profiles, 374 models, 24 runtimes. Isso mantém a calculadora alinhada com o catálogo atual em vez de uma lista estática de benchmarks.

Avaliando agora

RTX 4070 12GB

Carga de Trabalho

Coding

Runtime

llama.cpp

Operating mode

Balanced

Entradas

Escolha o hardware, runtime e carga de trabalho que deseja testar.

Use o hardware detectado se estiver correto, altere se não estiver e reexecute a classificação para comparar opções realistas de IA local.

Browser detection

Collecting GPU metadata…

Awaiting detection

Update the hardware or workload and recalculate to refresh the ranking.

1. Compatibilidade

A compatibilidade de memória e a margem disponível decidem se um modelo é viável no hardware selecionado.

2. Carga de Trabalho

A pontuação recompensa modelos que correspondem à tarefa selecionada e penaliza famílias obsoletas ou legadas quando existem versões especialistas mais recentes.

3. Velocidade

A taxa de decodificação e o TTFT mantêm a lista prática para uso real, não apenas para execuções teoricamente possíveis.

Qwen

Alibaba

Qwen 3.5 9B

FrontierLançado em Jun 2025Hugging FaceOllamaLM Studio

Por que vence

Qwen 3.5 9B is a specialized fit for Coding. It is a recent-generation family, which helps on current local SOTA workloads. It fits natively with comfortable headroom. Context coverage stays within the requested workload envelope. Known distribution channels: huggingface, ollama, lm-studio.

Capacity: Roomy · Bandwidth: Medium · Stack: Standard

Interactive: Good · Light API: Great · Bottleneck: Balanced

Posição #1
SRunsMEASURED

Pontuação

122.0

Status de encaixe

Runs well

Encaixe: Runs well com contexto seguro de 32K.

Suporte de runtime: native via GGUF em cuda-local.

Runtime

llama.cpp

Artefato

GGUF

Quant.

q4-k-m

Decodificação

72 tok/s

Contexto seguro

32K

Contexto oficial

131K

Suporte

native

TTFT

2616 ms

Pesos: 5.5 GB

Cache KV: 2.2 GB

Backend: cuda-local

Current limits

This setup is broadly balanced for this model.

No major red flags

This recommendation has enough memory headroom and acceptable estimated speed for the selected workload.

Best next improvements

Pontuação 122.0 combina correspondência de carga de trabalho, atualidade do catálogo, segurança de encaixe, cobertura de contexto, escolha de artefato, utilização de memória, throughput e latência.

CodeGeeX

Tsinghua/Zhipu

CodeGeeX 4 9B

AtualLançado em Jul 2024Hugging FaceOllama

Por que vence

CodeGeeX 4 9B is a specialized fit for Coding. It sits in the middle of the current generation mix. It fits natively with comfortable headroom. Context coverage stays within the requested workload envelope. Known distribution channels: huggingface, ollama.

Capacity: Roomy · Bandwidth: Medium · Stack: Standard

Interactive: Good · Light API: Great · Bottleneck: Balanced

Posição #2
ARunsEST.

Pontuação

114.6

Status de encaixe

Runs well

Encaixe: Runs well com contexto seguro de 116K.

Suporte de runtime: native via GGUF em cuda-local.

Runtime

llama.cpp

Artefato

GGUF

Quant.

q4-k-m

Decodificação

75.3 tok/s

Contexto seguro

116K

Contexto oficial

131K

Suporte

native

TTFT

2571 ms

Pesos: 5.5 GB

Cache KV: 0.6 GB

Backend: cuda-local

Current limits

This setup is broadly balanced for this model.

No major red flags

This recommendation has enough memory headroom and acceptable estimated speed for the selected workload.

Best next improvements

Pontuação 114.6 combina correspondência de carga de trabalho, atualidade do catálogo, segurança de encaixe, cobertura de contexto, escolha de artefato, utilização de memória, throughput e latência.

Gemma

Google

Gemma 4 E4B

FrontierLançado em Apr 2026Hugging FaceOllamaLM Studio

Por que vence

Gemma 4 E4B is a specialized fit for Coding. It is a recent-generation family, which helps on current local SOTA workloads. It fits natively with comfortable headroom. Context coverage stays within the requested workload envelope. Known distribution channels: huggingface, ollama, lm-studio.

Capacity: Roomy · Bandwidth: Medium · Stack: Standard

Interactive: Good · Light API: Great · Bottleneck: Balanced

Posição #3
ARunsEST.

Pontuação

110.2

Status de encaixe

Runs well

Encaixe: Runs well com contexto seguro de 63K.

Suporte de runtime: native via GGUF em cuda-local.

Runtime

llama.cpp

Artefato

GGUF

Quant.

q4-k-m

Decodificação

63.1 tok/s

Contexto seguro

63K

Contexto oficial

128K

Suporte

native

TTFT

3068 ms

Pesos: 4.9 GB

Cache KV: 1.3 GB

Backend: cuda-local

Current limits

This setup is broadly balanced for this model.

No major red flags

This recommendation has enough memory headroom and acceptable estimated speed for the selected workload.

Best next improvements

Pontuação 110.2 combina correspondência de carga de trabalho, atualidade do catálogo, segurança de encaixe, cobertura de contexto, escolha de artefato, utilização de memória, throughput e latência.

Codestral

Mistral AI

Codestral Mamba 7B

AtualLançado em Jul 2024Hugging FaceOllama

Por que vence

Codestral Mamba 7B is a specialized fit for Coding. It sits in the middle of the current generation mix. It fits natively with comfortable headroom. Context coverage stays within the requested workload envelope. Known distribution channels: huggingface, ollama.

Capacity: Roomy · Bandwidth: Medium · Stack: Standard

Interactive: Good · Light API: Great · Bottleneck: Balanced

Posição #4
ARunsEST.

Pontuação

107.2

Status de encaixe

Runs well

Encaixe: Runs well com contexto seguro de 184K.

Suporte de runtime: native via GGUF em cpu-gpu-local.

Runtime

llama.cpp

Artefato

GGUF

Quant.

q4-k-m

Decodificação

98 tok/s

Contexto seguro

184K

Contexto oficial

262K

Suporte

native

TTFT

1976 ms

Pesos: 4.3 GB

Cache KV: 0.5 GB

Backend: cpu-gpu-local

Current limits

This setup is broadly balanced for this model.

No major red flags

This recommendation has enough memory headroom and acceptable estimated speed for the selected workload.

Best next improvements

Pontuação 107.2 combina correspondência de carga de trabalho, atualidade do catálogo, segurança de encaixe, cobertura de contexto, escolha de artefato, utilização de memória, throughput e latência.

Yi

01.AI

Yi Coder 9B

AtualLançado em Sep 2024Hugging FaceOllamaLM Studio

Por que vence

Yi Coder 9B is a specialized fit for Coding. It sits in the middle of the current generation mix. It fits natively with comfortable headroom. Context coverage stays within the requested workload envelope. Known distribution channels: huggingface, ollama, lm-studio.

Capacity: Roomy · Bandwidth: Medium · Stack: Standard

Interactive: Good · Light API: Great · Bottleneck: Balanced

Posição #5
BRunsEST.

Pontuação

106.6

Status de encaixe

Runs well

Encaixe: Runs well com contexto seguro de 48K.

Suporte de runtime: native via GGUF em cuda-local.

Runtime

llama.cpp

Artefato

GGUF

Quant.

q4-k-m

Decodificação

74.9 tok/s

Contexto seguro

48K

Contexto oficial

131K

Suporte

native

TTFT

2586 ms

Pesos: 5.5 GB

Cache KV: 1.5 GB

Backend: cuda-local

Current limits

This setup is broadly balanced for this model.

No major red flags

This recommendation has enough memory headroom and acceptable estimated speed for the selected workload.

Best next improvements

Pontuação 106.6 combina correspondência de carga de trabalho, atualidade do catálogo, segurança de encaixe, cobertura de contexto, escolha de artefato, utilização de memória, throughput e latência.

Granite

IBM

Granite 4.1 8B

AtualLançado em Apr 2026Hugging FaceOllama

Por que vence

Granite 4.1 8B is a specialized fit for Coding. It sits in the middle of the current generation mix. It fits natively with comfortable headroom. Context coverage stays within the requested workload envelope. Known distribution channels: huggingface, ollama.

Capacity: Roomy · Bandwidth: Medium · Stack: Standard

Interactive: Good · Light API: Great · Bottleneck: Balanced

Posição #6
ARunsEST.

Pontuação

102.3

Status de encaixe

Runs well

Encaixe: Runs well com contexto seguro de 33K.

Suporte de runtime: native via GGUF em cpu-gpu-local.

Runtime

llama.cpp

Artefato

GGUF

Quant.

q4-k-m

Decodificação

83.3 tok/s

Contexto seguro

33K

Contexto oficial

131K

Suporte

native

TTFT

2325 ms

Pesos: 4.9 GB

Cache KV: 2.4 GB

Backend: cpu-gpu-local

Current limits

This setup is broadly balanced for this model.

No major red flags

This recommendation has enough memory headroom and acceptable estimated speed for the selected workload.

Best next improvements

Pontuação 102.3 combina correspondência de carga de trabalho, atualidade do catálogo, segurança de encaixe, cobertura de contexto, escolha de artefato, utilização de memória, throughput e latência.

Qwen

Alibaba

Qwen 2.5 Coder 7B

AtualLançado em Sep 2024Hugging FaceOllamaLM Studio

Por que vence

Qwen 2.5 Coder 7B is a specialized fit for Coding. It sits in the middle of the current generation mix. It fits natively with comfortable headroom. Context coverage stays within the requested workload envelope. Known distribution channels: huggingface, ollama, lm-studio.

Capacity: Roomy · Bandwidth: Medium · Stack: Standard

Interactive: Good · Light API: Great · Bottleneck: Balanced

Posição #7
ARunsEST.

Pontuação

101.0

Status de encaixe

Runs well

Encaixe: Runs well com contexto seguro de 105K.

Suporte de runtime: native via GGUF em cpu-gpu-local.

Runtime

llama.cpp

Artefato

GGUF

Quant.

q4-k-m

Decodificação

96.1 tok/s

Contexto seguro

105K

Contexto oficial

131K

Suporte

native

TTFT

2014 ms

Pesos: 4.3 GB

Cache KV: 0.9 GB

Backend: cpu-gpu-local

Current limits

This setup is broadly balanced for this model.

No major red flags

This recommendation has enough memory headroom and acceptable estimated speed for the selected workload.

Best next improvements

Pontuação 101.0 combina correspondência de carga de trabalho, atualidade do catálogo, segurança de encaixe, cobertura de contexto, escolha de artefato, utilização de memória, throughput e latência.

Qwen

Alibaba

Qwen 3 8B

FrontierLançado em Apr 2025Hugging FaceOllamaLM Studio

Por que vence

Qwen 3 8B is viable for Coding, but is not the most specialized choice. It is a recent-generation family, which helps on current local SOTA workloads. It fits natively with comfortable headroom. Context coverage stays within the requested workload envelope. Known distribution channels: huggingface, ollama, lm-studio.

Capacity: Roomy · Bandwidth: Medium · Stack: Standard

Interactive: Good · Light API: Great · Bottleneck: Balanced

Posição #8
SRunsEST.

Pontuação

99.6

Status de encaixe

Runs well

Encaixe: Runs well com contexto seguro de 37K.

Suporte de runtime: native via GGUF em cpu-gpu-local.

Runtime

llama.cpp

Artefato

GGUF

Quant.

q4-k-m

Decodificação

83.3 tok/s

Contexto seguro

37K

Contexto oficial

131K

Suporte

native

TTFT

2325 ms

Pesos: 4.9 GB

Cache KV: 2.2 GB

Backend: cpu-gpu-local

Current limits

This setup is broadly balanced for this model.

No major red flags

This recommendation has enough memory headroom and acceptable estimated speed for the selected workload.

Best next improvements

Pontuação 99.6 combina correspondência de carga de trabalho, atualidade do catálogo, segurança de encaixe, cobertura de contexto, escolha de artefato, utilização de memória, throughput e latência.

Nemotron

NVIDIA

Nemotron Nano 9B v2

FrontierLançado em Jun 2025Hugging FaceOllamaLM Studio

Por que vence

Nemotron Nano 9B v2 is a specialized fit for Coding. It is a recent-generation family, which helps on current local SOTA workloads. It should run, but memory headroom will be limited. Context coverage stays within the requested workload envelope. Known distribution channels: huggingface, ollama, lm-studio.

Capacity: Tight · Bandwidth: Medium · Stack: Standard

Interactive: Good · Light API: Good · Bottleneck: Balanced

Posição #9
ATightEST.

Pontuação

99.4

Status de encaixe

Tight fit

Encaixe: Tight fit com contexto seguro de 29K.

Suporte de runtime: native via GGUF em cuda-local.

Runtime

llama.cpp

Artefato

GGUF

Quant.

q4-k-m

Decodificação

74 tok/s

Contexto seguro

29K

Contexto oficial

131K

Suporte

native

TTFT

2616 ms

Pesos: 5.5 GB

Cache KV: 2.4 GB

Backend: cuda-local

Current limits

This setup is broadly balanced for this model.

No major red flags

This recommendation has enough memory headroom and acceptable estimated speed for the selected workload.

Best next improvements

Pontuação 99.4 combina correspondência de carga de trabalho, atualidade do catálogo, segurança de encaixe, cobertura de contexto, escolha de artefato, utilização de memória, throughput e latência.

Qwen

Alibaba

Qwen 3.5 4B

FrontierLançado em Jun 2025Hugging FaceOllamaLM Studio

Por que vence

Qwen 3.5 4B is a specialized fit for Coding. It is a recent-generation family, which helps on current local SOTA workloads. It fits natively with comfortable headroom. Context coverage stays within the requested workload envelope. Known distribution channels: huggingface, ollama, lm-studio.

Capacity: Roomy · Bandwidth: Medium · Stack: Standard

Interactive: Good · Light API: Great · Bottleneck: Balanced

Posição #10
SRunsEST.

Pontuação

93.6

Status de encaixe

Runs well

Encaixe: Runs well com contexto seguro de 48K.

Suporte de runtime: native via GGUF em cpu-gpu-local.

Runtime

llama.cpp

Artefato

GGUF

Quant.

q6-k

Decodificação

56 tok/s

Contexto seguro

48K

Contexto oficial

131K

Suporte

native

TTFT

3457 ms

Pesos: 3.3 GB

Cache KV: 2.2 GB

Backend: cpu-gpu-local

Current limits

This setup is broadly balanced for this model.

No major red flags

This recommendation has enough memory headroom and acceptable estimated speed for the selected workload.

Best next improvements

Pontuação 93.6 combina correspondência de carga de trabalho, atualidade do catálogo, segurança de encaixe, cobertura de contexto, escolha de artefato, utilização de memória, throughput e latência.

Todos os 374 modelos

Full compatibility grid for RTX 4070 12GB

244 models fit · 9 excellent · 37 great

Grade
Model
Params
Tasks
Q4 VRAM
Decode
Context
Memory
Fit