Will It Run AI

Will It Run AI · Calculadora

Dinos qué hardware tienes y qué quieres hacer. Clasificaremos los modelos locales que tienen sentido.

Parte de tu hardware y carga de trabajo, y obtén una lista basada en encaje, velocidad y soporte de runtime en vez de adivinar a partir de listas genéricas o capturas de benchmarks.

Instantánea del catálogo en vivo: 196 hardware profiles, 374 models, 24 runtimes. Esto mantiene la calculadora alineada con el catálogo actual en lugar de una lista estática de benchmarks.

Evaluando ahora

RTX 4070 12GB

Carga de trabajo

Coding

Runtime

llama.cpp

Operating mode

Balanced

Entradas

Elige el hardware, runtime y carga de trabajo que quieres probar.

Usa el hardware detectado si es correcto, cámbialo si no lo es, y vuelve a ejecutar el ranking para comparar opciones realistas de IA local.

Browser detection

Collecting GPU metadata…

Awaiting detection

Update the hardware or workload and recalculate to refresh the ranking.

1. Encaje

El encaje en memoria y el margen disponible determinan si un modelo es realista en el hardware seleccionado.

2. Carga de trabajo

La puntuación premia modelos que coinciden con la tarea seleccionada y penaliza familias obsoletas cuando existen versiones especialistas más recientes.

3. Velocidad

El rendimiento de decodificación y el TTFT mantienen la lista práctica para uso real, no solo ejecuciones teóricamente posibles.

Qwen

Alibaba

Qwen 3.5 9B

FronteraPublicado Jun 2025Hugging FaceOllamaLM Studio

Por qué gana

Qwen 3.5 9B is a specialized fit for Coding. It is a recent-generation family, which helps on current local SOTA workloads. It fits natively with comfortable headroom. Context coverage stays within the requested workload envelope. Known distribution channels: huggingface, ollama, lm-studio.

Capacity: Roomy · Bandwidth: Medium · Stack: Standard

Interactive: Good · Light API: Great · Bottleneck: Balanced

Puesto #1
SRunsMEASURED

Puntuación

122.0

Estado de encaje

Runs well

Encaje: Runs well con 32K de contexto seguro.

Soporte de runtime: native vía GGUF en cuda-local.

Runtime

llama.cpp

Artefacto

GGUF

Cuant.

q4-k-m

Decodificación

72 tok/s

Ctx seguro

32K

Ctx oficial

131K

Soporte

native

TTFT

2616 ms

Pesos: 5.5 GB

Caché KV: 2.2 GB

Backend: cuda-local

Límites actuales

Este setup está bastante equilibrado para este modelo.

No hay grandes señales de alerta

Esta recomendación tiene margen de memoria suficiente y una velocidad estimada razonable para la carga de trabajo seleccionada.

Siguientes mejoras útiles

La puntuación 122.0 combina coincidencia de carga de trabajo, frescura del catálogo, seguridad de encaje, cobertura de contexto, elección de artefacto, utilización de memoria, rendimiento y latencia.

CodeGeeX

Tsinghua/Zhipu

CodeGeeX 4 9B

ActualPublicado Jul 2024Hugging FaceOllama

Por qué gana

CodeGeeX 4 9B is a specialized fit for Coding. It sits in the middle of the current generation mix. It fits natively with comfortable headroom. Context coverage stays within the requested workload envelope. Known distribution channels: huggingface, ollama.

Capacity: Roomy · Bandwidth: Medium · Stack: Standard

Interactive: Good · Light API: Great · Bottleneck: Balanced

Puesto #2
ARunsEST.

Puntuación

114.6

Estado de encaje

Runs well

Encaje: Runs well con 116K de contexto seguro.

Soporte de runtime: native vía GGUF en cuda-local.

Runtime

llama.cpp

Artefacto

GGUF

Cuant.

q4-k-m

Decodificación

75.3 tok/s

Ctx seguro

116K

Ctx oficial

131K

Soporte

native

TTFT

2571 ms

Pesos: 5.5 GB

Caché KV: 0.6 GB

Backend: cuda-local

Límites actuales

Este setup está bastante equilibrado para este modelo.

No hay grandes señales de alerta

Esta recomendación tiene margen de memoria suficiente y una velocidad estimada razonable para la carga de trabajo seleccionada.

Siguientes mejoras útiles

La puntuación 114.6 combina coincidencia de carga de trabajo, frescura del catálogo, seguridad de encaje, cobertura de contexto, elección de artefacto, utilización de memoria, rendimiento y latencia.

Gemma

Google

Gemma 4 E4B

FronteraPublicado Apr 2026Hugging FaceOllamaLM Studio

Por qué gana

Gemma 4 E4B is a specialized fit for Coding. It is a recent-generation family, which helps on current local SOTA workloads. It fits natively with comfortable headroom. Context coverage stays within the requested workload envelope. Known distribution channels: huggingface, ollama, lm-studio.

Capacity: Roomy · Bandwidth: Medium · Stack: Standard

Interactive: Good · Light API: Great · Bottleneck: Balanced

Puesto #3
ARunsEST.

Puntuación

110.2

Estado de encaje

Runs well

Encaje: Runs well con 63K de contexto seguro.

Soporte de runtime: native vía GGUF en cuda-local.

Runtime

llama.cpp

Artefacto

GGUF

Cuant.

q4-k-m

Decodificación

63.1 tok/s

Ctx seguro

63K

Ctx oficial

128K

Soporte

native

TTFT

3068 ms

Pesos: 4.9 GB

Caché KV: 1.3 GB

Backend: cuda-local

Límites actuales

Este setup está bastante equilibrado para este modelo.

No hay grandes señales de alerta

Esta recomendación tiene margen de memoria suficiente y una velocidad estimada razonable para la carga de trabajo seleccionada.

Siguientes mejoras útiles

La puntuación 110.2 combina coincidencia de carga de trabajo, frescura del catálogo, seguridad de encaje, cobertura de contexto, elección de artefacto, utilización de memoria, rendimiento y latencia.

Codestral

Mistral AI

Codestral Mamba 7B

ActualPublicado Jul 2024Hugging FaceOllama

Por qué gana

Codestral Mamba 7B is a specialized fit for Coding. It sits in the middle of the current generation mix. It fits natively with comfortable headroom. Context coverage stays within the requested workload envelope. Known distribution channels: huggingface, ollama.

Capacity: Roomy · Bandwidth: Medium · Stack: Standard

Interactive: Good · Light API: Great · Bottleneck: Balanced

Puesto #4
ARunsEST.

Puntuación

107.2

Estado de encaje

Runs well

Encaje: Runs well con 184K de contexto seguro.

Soporte de runtime: native vía GGUF en cpu-gpu-local.

Runtime

llama.cpp

Artefacto

GGUF

Cuant.

q4-k-m

Decodificación

98 tok/s

Ctx seguro

184K

Ctx oficial

262K

Soporte

native

TTFT

1976 ms

Pesos: 4.3 GB

Caché KV: 0.5 GB

Backend: cpu-gpu-local

Límites actuales

Este setup está bastante equilibrado para este modelo.

No hay grandes señales de alerta

Esta recomendación tiene margen de memoria suficiente y una velocidad estimada razonable para la carga de trabajo seleccionada.

Siguientes mejoras útiles

La puntuación 107.2 combina coincidencia de carga de trabajo, frescura del catálogo, seguridad de encaje, cobertura de contexto, elección de artefacto, utilización de memoria, rendimiento y latencia.

Yi

01.AI

Yi Coder 9B

ActualPublicado Sep 2024Hugging FaceOllamaLM Studio

Por qué gana

Yi Coder 9B is a specialized fit for Coding. It sits in the middle of the current generation mix. It fits natively with comfortable headroom. Context coverage stays within the requested workload envelope. Known distribution channels: huggingface, ollama, lm-studio.

Capacity: Roomy · Bandwidth: Medium · Stack: Standard

Interactive: Good · Light API: Great · Bottleneck: Balanced

Puesto #5
BRunsEST.

Puntuación

106.6

Estado de encaje

Runs well

Encaje: Runs well con 48K de contexto seguro.

Soporte de runtime: native vía GGUF en cuda-local.

Runtime

llama.cpp

Artefacto

GGUF

Cuant.

q4-k-m

Decodificación

74.9 tok/s

Ctx seguro

48K

Ctx oficial

131K

Soporte

native

TTFT

2586 ms

Pesos: 5.5 GB

Caché KV: 1.5 GB

Backend: cuda-local

Límites actuales

Este setup está bastante equilibrado para este modelo.

No hay grandes señales de alerta

Esta recomendación tiene margen de memoria suficiente y una velocidad estimada razonable para la carga de trabajo seleccionada.

Siguientes mejoras útiles

La puntuación 106.6 combina coincidencia de carga de trabajo, frescura del catálogo, seguridad de encaje, cobertura de contexto, elección de artefacto, utilización de memoria, rendimiento y latencia.

Granite

IBM

Granite 4.1 8B

ActualPublicado Apr 2026Hugging FaceOllama

Por qué gana

Granite 4.1 8B is a specialized fit for Coding. It sits in the middle of the current generation mix. It fits natively with comfortable headroom. Context coverage stays within the requested workload envelope. Known distribution channels: huggingface, ollama.

Capacity: Roomy · Bandwidth: Medium · Stack: Standard

Interactive: Good · Light API: Great · Bottleneck: Balanced

Puesto #6
ARunsEST.

Puntuación

102.3

Estado de encaje

Runs well

Encaje: Runs well con 33K de contexto seguro.

Soporte de runtime: native vía GGUF en cpu-gpu-local.

Runtime

llama.cpp

Artefacto

GGUF

Cuant.

q4-k-m

Decodificación

83.3 tok/s

Ctx seguro

33K

Ctx oficial

131K

Soporte

native

TTFT

2325 ms

Pesos: 4.9 GB

Caché KV: 2.4 GB

Backend: cpu-gpu-local

Límites actuales

Este setup está bastante equilibrado para este modelo.

No hay grandes señales de alerta

Esta recomendación tiene margen de memoria suficiente y una velocidad estimada razonable para la carga de trabajo seleccionada.

Siguientes mejoras útiles

La puntuación 102.3 combina coincidencia de carga de trabajo, frescura del catálogo, seguridad de encaje, cobertura de contexto, elección de artefacto, utilización de memoria, rendimiento y latencia.

Qwen

Alibaba

Qwen 2.5 Coder 7B

ActualPublicado Sep 2024Hugging FaceOllamaLM Studio

Por qué gana

Qwen 2.5 Coder 7B is a specialized fit for Coding. It sits in the middle of the current generation mix. It fits natively with comfortable headroom. Context coverage stays within the requested workload envelope. Known distribution channels: huggingface, ollama, lm-studio.

Capacity: Roomy · Bandwidth: Medium · Stack: Standard

Interactive: Good · Light API: Great · Bottleneck: Balanced

Puesto #7
ARunsEST.

Puntuación

101.0

Estado de encaje

Runs well

Encaje: Runs well con 105K de contexto seguro.

Soporte de runtime: native vía GGUF en cpu-gpu-local.

Runtime

llama.cpp

Artefacto

GGUF

Cuant.

q4-k-m

Decodificación

96.1 tok/s

Ctx seguro

105K

Ctx oficial

131K

Soporte

native

TTFT

2014 ms

Pesos: 4.3 GB

Caché KV: 0.9 GB

Backend: cpu-gpu-local

Límites actuales

Este setup está bastante equilibrado para este modelo.

No hay grandes señales de alerta

Esta recomendación tiene margen de memoria suficiente y una velocidad estimada razonable para la carga de trabajo seleccionada.

Siguientes mejoras útiles

La puntuación 101.0 combina coincidencia de carga de trabajo, frescura del catálogo, seguridad de encaje, cobertura de contexto, elección de artefacto, utilización de memoria, rendimiento y latencia.

Qwen

Alibaba

Qwen 3 8B

FronteraPublicado Apr 2025Hugging FaceOllamaLM Studio

Por qué gana

Qwen 3 8B is viable for Coding, but is not the most specialized choice. It is a recent-generation family, which helps on current local SOTA workloads. It fits natively with comfortable headroom. Context coverage stays within the requested workload envelope. Known distribution channels: huggingface, ollama, lm-studio.

Capacity: Roomy · Bandwidth: Medium · Stack: Standard

Interactive: Good · Light API: Great · Bottleneck: Balanced

Puesto #8
SRunsEST.

Puntuación

99.6

Estado de encaje

Runs well

Encaje: Runs well con 37K de contexto seguro.

Soporte de runtime: native vía GGUF en cpu-gpu-local.

Runtime

llama.cpp

Artefacto

GGUF

Cuant.

q4-k-m

Decodificación

83.3 tok/s

Ctx seguro

37K

Ctx oficial

131K

Soporte

native

TTFT

2325 ms

Pesos: 4.9 GB

Caché KV: 2.2 GB

Backend: cpu-gpu-local

Límites actuales

Este setup está bastante equilibrado para este modelo.

No hay grandes señales de alerta

Esta recomendación tiene margen de memoria suficiente y una velocidad estimada razonable para la carga de trabajo seleccionada.

Siguientes mejoras útiles

La puntuación 99.6 combina coincidencia de carga de trabajo, frescura del catálogo, seguridad de encaje, cobertura de contexto, elección de artefacto, utilización de memoria, rendimiento y latencia.

Nemotron

NVIDIA

Nemotron Nano 9B v2

FronteraPublicado Jun 2025Hugging FaceOllamaLM Studio

Por qué gana

Nemotron Nano 9B v2 is a specialized fit for Coding. It is a recent-generation family, which helps on current local SOTA workloads. It should run, but memory headroom will be limited. Context coverage stays within the requested workload envelope. Known distribution channels: huggingface, ollama, lm-studio.

Capacity: Tight · Bandwidth: Medium · Stack: Standard

Interactive: Good · Light API: Good · Bottleneck: Balanced

Puesto #9
ATightEST.

Puntuación

99.4

Estado de encaje

Tight fit

Encaje: Tight fit con 29K de contexto seguro.

Soporte de runtime: native vía GGUF en cuda-local.

Runtime

llama.cpp

Artefacto

GGUF

Cuant.

q4-k-m

Decodificación

74 tok/s

Ctx seguro

29K

Ctx oficial

131K

Soporte

native

TTFT

2616 ms

Pesos: 5.5 GB

Caché KV: 2.4 GB

Backend: cuda-local

Límites actuales

Este setup está bastante equilibrado para este modelo.

No hay grandes señales de alerta

Esta recomendación tiene margen de memoria suficiente y una velocidad estimada razonable para la carga de trabajo seleccionada.

Siguientes mejoras útiles

La puntuación 99.4 combina coincidencia de carga de trabajo, frescura del catálogo, seguridad de encaje, cobertura de contexto, elección de artefacto, utilización de memoria, rendimiento y latencia.

Qwen

Alibaba

Qwen 3.5 4B

FronteraPublicado Jun 2025Hugging FaceOllamaLM Studio

Por qué gana

Qwen 3.5 4B is a specialized fit for Coding. It is a recent-generation family, which helps on current local SOTA workloads. It fits natively with comfortable headroom. Context coverage stays within the requested workload envelope. Known distribution channels: huggingface, ollama, lm-studio.

Capacity: Roomy · Bandwidth: Medium · Stack: Standard

Interactive: Good · Light API: Great · Bottleneck: Balanced

Puesto #10
SRunsEST.

Puntuación

93.6

Estado de encaje

Runs well

Encaje: Runs well con 48K de contexto seguro.

Soporte de runtime: native vía GGUF en cpu-gpu-local.

Runtime

llama.cpp

Artefacto

GGUF

Cuant.

q6-k

Decodificación

56 tok/s

Ctx seguro

48K

Ctx oficial

131K

Soporte

native

TTFT

3457 ms

Pesos: 3.3 GB

Caché KV: 2.2 GB

Backend: cpu-gpu-local

Límites actuales

Este setup está bastante equilibrado para este modelo.

No hay grandes señales de alerta

Esta recomendación tiene margen de memoria suficiente y una velocidad estimada razonable para la carga de trabajo seleccionada.

Siguientes mejoras útiles

La puntuación 93.6 combina coincidencia de carga de trabajo, frescura del catálogo, seguridad de encaje, cobertura de contexto, elección de artefacto, utilización de memoria, rendimiento y latencia.

Todos los 374 modelos

Full compatibility grid for RTX 4070 12GB

244 models fit · 9 excellent · 37 great

Grade
Model
Params
Tasks
Q4 VRAM
Decode
Context
Memory
Fit