Will It Run AI · Calculadora

Dinos qué hardware tienes y qué quieres hacer. Clasificaremos los modelos locales que tienen sentido.

Parte de tu hardware y carga de trabajo, y obtén una lista basada en encaje, velocidad y soporte de runtime en vez de adivinar a partir de listas genéricas o capturas de benchmarks.

Empieza con tu hardware Ver cómo funciona el ranking

Instantánea del catálogo en vivo: 196 hardware profiles, 380 models, 24 runtimes. Esto mantiene la calculadora alineada con el catálogo actual en lugar de una lista estática de benchmarks.

Evaluando ahora

RTX 4070 12GB

Carga de trabajo

Coding

Runtime

llama.cpp

Operating mode

Balanced

Entradas

Elige el hardware, runtime y carga de trabajo que quieres probar.

Usa el hardware detectado si es correcto, cámbialo si no lo es, y vuelve a ejecutar el ranking para comparar opciones realistas de IA local.

Browser detection

Collecting GPU metadata…

Awaiting detection

Hardware

Custom hardware specs

RuntimeWorkloadOperating mode

Balanced for general local use. Keeps the ranking neutral across personal and serving workflows.

Update the hardware or workload and recalculate to refresh the ranking.

1. Encaje

El encaje en memoria y el margen disponible determinan si un modelo es realista en el hardware seleccionado.

2. Carga de trabajo

La puntuación premia modelos que coinciden con la tarea seleccionada y penaliza familias obsoletas cuando existen versiones especialistas más recientes.

3. Velocidad

El rendimiento de decodificación y el TTFT mantienen la lista práctica para uso real, no solo ejecuciones teóricamente posibles.

Qwen

Qwen 3.5 9B

FronteraPublicado Jun 2025Hugging FaceOllamaLM Studio

Por qué gana

This model is a direct match for coding. It belongs to a current frontier family for local AI. It fits natively with comfortable headroom. Known channels: huggingface, ollama, lm-studio.

Capacity: Roomy · Bandwidth: Medium · Stack: Standard

Interactive: Good · Light API: Great · Bottleneck: Balanced

Puesto #1

SRunsEST.

Puntuación

130.7

Estado de encaje

Runs well

Encaje: Runs well con 32K de contexto seguro.

Soporte de runtime: unknown vía n/a en unknown.

Runtime

llama.cpp

Artefacto

n/a

Cuant.

Q4_K_M

Decodificación

71.5 tok/s

Ctx seguro

32K

Ctx oficial

131K

Soporte

n/a

TTFT

2708 ms

Pesos: 5.5 GB

Caché KV: 2.2 GB

Backend: unknown

Límites actuales

Este setup está bastante equilibrado para este modelo.

No hay grandes señales de alerta

Esta recomendación tiene margen de memoria suficiente y una velocidad estimada razonable para la carga de trabajo seleccionada.

Siguientes mejoras útiles

La puntuación 130.7 combina coincidencia de carga de trabajo, frescura del catálogo, seguridad de encaje, cobertura de contexto, elección de artefacto, utilización de memoria, rendimiento y latencia.

Gemma

Gemma 4 E4B

FronteraPublicado Apr 2026Hugging FaceOllamaLM Studio

Por qué gana

This model is a direct match for coding. It belongs to a current frontier family for local AI. It fits natively with comfortable headroom. Known channels: huggingface, ollama, lm-studio.

Capacity: Roomy · Bandwidth: Medium · Stack: Standard

Interactive: Good · Light API: Great · Bottleneck: Balanced

Puesto #2

ARunsEST.

Puntuación

112.1

Estado de encaje

Runs well

Encaje: Runs well con 63K de contexto seguro.

Soporte de runtime: unknown vía n/a en unknown.

Runtime

llama.cpp

Artefacto

n/a

Cuant.

Q4_K_M

Decodificación

55.7 tok/s

Ctx seguro

63K

Ctx oficial

128K

Soporte

n/a

TTFT

3474 ms

Pesos: 4.9 GB

Caché KV: 1.3 GB

Backend: unknown

Límites actuales

Este setup está bastante equilibrado para este modelo.

No hay grandes señales de alerta

Esta recomendación tiene margen de memoria suficiente y una velocidad estimada razonable para la carga de trabajo seleccionada.

Siguientes mejoras útiles

La puntuación 112.1 combina coincidencia de carga de trabajo, frescura del catálogo, seguridad de encaje, cobertura de contexto, elección de artefacto, utilización de memoria, rendimiento y latencia.

CodeGeeX

CodeGeeX 4 9B

ActualPublicado Jul 2024Hugging FaceOllama

Por qué gana

This model is still usable for coding, but it is not the most specialized pick. It sits in the middle of the current model mix. It fits natively with comfortable headroom. Known channels: huggingface, ollama.

Capacity: Roomy · Bandwidth: Medium · Stack: Standard

Interactive: Good · Light API: Great · Bottleneck: Balanced

Puesto #3

ARunsEST.

Puntuación

108.4

Estado de encaje

Runs well

Encaje: Runs well con 116K de contexto seguro.

Soporte de runtime: unknown vía n/a en unknown.

Runtime

llama.cpp

Artefacto

n/a

Cuant.

Q4_K_M

Decodificación

69.3 tok/s

Ctx seguro

116K

Ctx oficial

131K

Soporte

n/a

TTFT

2794 ms

Pesos: 5.5 GB

Caché KV: 0.6 GB

Backend: unknown

Límites actuales

Este setup está bastante equilibrado para este modelo.

No hay grandes señales de alerta

Esta recomendación tiene margen de memoria suficiente y una velocidad estimada razonable para la carga de trabajo seleccionada.

Siguientes mejoras útiles

La puntuación 108.4 combina coincidencia de carga de trabajo, frescura del catálogo, seguridad de encaje, cobertura de contexto, elección de artefacto, utilización de memoria, rendimiento y latencia.

Todos los 380 modelos

Full compatibility grid for RTX 4070 12GB

246 models fit · 9 excellent · 38 great

Grade

Model

Params

Tasks

Q4 VRAM

Decode

Context

Memory

Fit