Qwen

Qwen 3.5 9B
FronteraPublicado Jun 2025Hugging FaceOllamaLM Studio
Por qué gana
Qwen 3.5 9B is a specialized fit for Coding. It is a recent-generation family, which helps on current local SOTA workloads. It fits natively with comfortable headroom. Context coverage stays within the requested workload envelope. Known distribution channels: huggingface, ollama, lm-studio.
Capacity: Roomy · Bandwidth: Medium · Stack: Standard
Interactive: Good · Light API: Great · Bottleneck: Balanced
Puesto #1
SRunsMEASURED
Estado de encaje
Runs well
Encaje: Runs well con 32K de contexto seguro.
Soporte de runtime: native vía GGUF en cuda-local.
Pesos: 5.5 GB
Caché KV: 2.2 GB
Backend: cuda-local
Límites actuales
Este setup está bastante equilibrado para este modelo.
No hay grandes señales de alerta
Esta recomendación tiene margen de memoria suficiente y una velocidad estimada razonable para la carga de trabajo seleccionada.
Siguientes mejoras útiles
La puntuación 122.0 combina coincidencia de carga de trabajo, frescura del catálogo, seguridad de encaje, cobertura de contexto, elección de artefacto, utilización de memoria, rendimiento y latencia.
CodeGeeX

CodeGeeX 4 9B
ActualPublicado Jul 2024Hugging FaceOllama
Por qué gana
CodeGeeX 4 9B is a specialized fit for Coding. It sits in the middle of the current generation mix. It fits natively with comfortable headroom. Context coverage stays within the requested workload envelope. Known distribution channels: huggingface, ollama.
Capacity: Roomy · Bandwidth: Medium · Stack: Standard
Interactive: Good · Light API: Great · Bottleneck: Balanced
Puesto #2
ARunsEST.
Estado de encaje
Runs well
Encaje: Runs well con 116K de contexto seguro.
Soporte de runtime: native vía GGUF en cuda-local.
Pesos: 5.5 GB
Caché KV: 0.6 GB
Backend: cuda-local
Límites actuales
Este setup está bastante equilibrado para este modelo.
No hay grandes señales de alerta
Esta recomendación tiene margen de memoria suficiente y una velocidad estimada razonable para la carga de trabajo seleccionada.
Siguientes mejoras útiles
La puntuación 114.6 combina coincidencia de carga de trabajo, frescura del catálogo, seguridad de encaje, cobertura de contexto, elección de artefacto, utilización de memoria, rendimiento y latencia.
Gemma

Gemma 4 E4B
FronteraPublicado Apr 2026Hugging FaceOllamaLM Studio
Por qué gana
Gemma 4 E4B is a specialized fit for Coding. It is a recent-generation family, which helps on current local SOTA workloads. It fits natively with comfortable headroom. Context coverage stays within the requested workload envelope. Known distribution channels: huggingface, ollama, lm-studio.
Capacity: Roomy · Bandwidth: Medium · Stack: Standard
Interactive: Good · Light API: Great · Bottleneck: Balanced
Puesto #3
ARunsEST.
Estado de encaje
Runs well
Encaje: Runs well con 63K de contexto seguro.
Soporte de runtime: native vía GGUF en cuda-local.
Pesos: 4.9 GB
Caché KV: 1.3 GB
Backend: cuda-local
Límites actuales
Este setup está bastante equilibrado para este modelo.
No hay grandes señales de alerta
Esta recomendación tiene margen de memoria suficiente y una velocidad estimada razonable para la carga de trabajo seleccionada.
Siguientes mejoras útiles
La puntuación 110.2 combina coincidencia de carga de trabajo, frescura del catálogo, seguridad de encaje, cobertura de contexto, elección de artefacto, utilización de memoria, rendimiento y latencia.
Codestral

Codestral Mamba 7B
ActualPublicado Jul 2024Hugging FaceOllama
Por qué gana
Codestral Mamba 7B is a specialized fit for Coding. It sits in the middle of the current generation mix. It fits natively with comfortable headroom. Context coverage stays within the requested workload envelope. Known distribution channels: huggingface, ollama.
Capacity: Roomy · Bandwidth: Medium · Stack: Standard
Interactive: Good · Light API: Great · Bottleneck: Balanced
Puesto #4
ARunsEST.
Estado de encaje
Runs well
Encaje: Runs well con 184K de contexto seguro.
Soporte de runtime: native vía GGUF en cpu-gpu-local.
Pesos: 4.3 GB
Caché KV: 0.5 GB
Backend: cpu-gpu-local
Límites actuales
Este setup está bastante equilibrado para este modelo.
No hay grandes señales de alerta
Esta recomendación tiene margen de memoria suficiente y una velocidad estimada razonable para la carga de trabajo seleccionada.
Siguientes mejoras útiles
La puntuación 107.2 combina coincidencia de carga de trabajo, frescura del catálogo, seguridad de encaje, cobertura de contexto, elección de artefacto, utilización de memoria, rendimiento y latencia.
Yi

Yi Coder 9B
ActualPublicado Sep 2024Hugging FaceOllamaLM Studio
Por qué gana
Yi Coder 9B is a specialized fit for Coding. It sits in the middle of the current generation mix. It fits natively with comfortable headroom. Context coverage stays within the requested workload envelope. Known distribution channels: huggingface, ollama, lm-studio.
Capacity: Roomy · Bandwidth: Medium · Stack: Standard
Interactive: Good · Light API: Great · Bottleneck: Balanced
Puesto #5
BRunsEST.
Estado de encaje
Runs well
Encaje: Runs well con 48K de contexto seguro.
Soporte de runtime: native vía GGUF en cuda-local.
Pesos: 5.5 GB
Caché KV: 1.5 GB
Backend: cuda-local
Límites actuales
Este setup está bastante equilibrado para este modelo.
No hay grandes señales de alerta
Esta recomendación tiene margen de memoria suficiente y una velocidad estimada razonable para la carga de trabajo seleccionada.
Siguientes mejoras útiles
La puntuación 106.6 combina coincidencia de carga de trabajo, frescura del catálogo, seguridad de encaje, cobertura de contexto, elección de artefacto, utilización de memoria, rendimiento y latencia.
Granite

Granite 4.1 8B
ActualPublicado Apr 2026Hugging FaceOllama
Por qué gana
Granite 4.1 8B is a specialized fit for Coding. It sits in the middle of the current generation mix. It fits natively with comfortable headroom. Context coverage stays within the requested workload envelope. Known distribution channels: huggingface, ollama.
Capacity: Roomy · Bandwidth: Medium · Stack: Standard
Interactive: Good · Light API: Great · Bottleneck: Balanced
Puesto #6
ARunsEST.
Estado de encaje
Runs well
Encaje: Runs well con 33K de contexto seguro.
Soporte de runtime: native vía GGUF en cpu-gpu-local.
Pesos: 4.9 GB
Caché KV: 2.4 GB
Backend: cpu-gpu-local
Límites actuales
Este setup está bastante equilibrado para este modelo.
No hay grandes señales de alerta
Esta recomendación tiene margen de memoria suficiente y una velocidad estimada razonable para la carga de trabajo seleccionada.
Siguientes mejoras útiles
La puntuación 102.3 combina coincidencia de carga de trabajo, frescura del catálogo, seguridad de encaje, cobertura de contexto, elección de artefacto, utilización de memoria, rendimiento y latencia.
Qwen

Qwen 2.5 Coder 7B
ActualPublicado Sep 2024Hugging FaceOllamaLM Studio
Por qué gana
Qwen 2.5 Coder 7B is a specialized fit for Coding. It sits in the middle of the current generation mix. It fits natively with comfortable headroom. Context coverage stays within the requested workload envelope. Known distribution channels: huggingface, ollama, lm-studio.
Capacity: Roomy · Bandwidth: Medium · Stack: Standard
Interactive: Good · Light API: Great · Bottleneck: Balanced
Puesto #7
ARunsEST.
Estado de encaje
Runs well
Encaje: Runs well con 105K de contexto seguro.
Soporte de runtime: native vía GGUF en cpu-gpu-local.
Pesos: 4.3 GB
Caché KV: 0.9 GB
Backend: cpu-gpu-local
Límites actuales
Este setup está bastante equilibrado para este modelo.
No hay grandes señales de alerta
Esta recomendación tiene margen de memoria suficiente y una velocidad estimada razonable para la carga de trabajo seleccionada.
Siguientes mejoras útiles
La puntuación 101.0 combina coincidencia de carga de trabajo, frescura del catálogo, seguridad de encaje, cobertura de contexto, elección de artefacto, utilización de memoria, rendimiento y latencia.
Qwen

Qwen 3 8B
FronteraPublicado Apr 2025Hugging FaceOllamaLM Studio
Por qué gana
Qwen 3 8B is viable for Coding, but is not the most specialized choice. It is a recent-generation family, which helps on current local SOTA workloads. It fits natively with comfortable headroom. Context coverage stays within the requested workload envelope. Known distribution channels: huggingface, ollama, lm-studio.
Capacity: Roomy · Bandwidth: Medium · Stack: Standard
Interactive: Good · Light API: Great · Bottleneck: Balanced
Puesto #8
SRunsEST.
Estado de encaje
Runs well
Encaje: Runs well con 37K de contexto seguro.
Soporte de runtime: native vía GGUF en cpu-gpu-local.
Pesos: 4.9 GB
Caché KV: 2.2 GB
Backend: cpu-gpu-local
Límites actuales
Este setup está bastante equilibrado para este modelo.
No hay grandes señales de alerta
Esta recomendación tiene margen de memoria suficiente y una velocidad estimada razonable para la carga de trabajo seleccionada.
Siguientes mejoras útiles
La puntuación 99.6 combina coincidencia de carga de trabajo, frescura del catálogo, seguridad de encaje, cobertura de contexto, elección de artefacto, utilización de memoria, rendimiento y latencia.
Nemotron

Nemotron Nano 9B v2
FronteraPublicado Jun 2025Hugging FaceOllamaLM Studio
Por qué gana
Nemotron Nano 9B v2 is a specialized fit for Coding. It is a recent-generation family, which helps on current local SOTA workloads. It should run, but memory headroom will be limited. Context coverage stays within the requested workload envelope. Known distribution channels: huggingface, ollama, lm-studio.
Capacity: Tight · Bandwidth: Medium · Stack: Standard
Interactive: Good · Light API: Good · Bottleneck: Balanced
Puesto #9
ATightEST.
Estado de encaje
Tight fit
Encaje: Tight fit con 29K de contexto seguro.
Soporte de runtime: native vía GGUF en cuda-local.
Pesos: 5.5 GB
Caché KV: 2.4 GB
Backend: cuda-local
Límites actuales
Este setup está bastante equilibrado para este modelo.
No hay grandes señales de alerta
Esta recomendación tiene margen de memoria suficiente y una velocidad estimada razonable para la carga de trabajo seleccionada.
Siguientes mejoras útiles
La puntuación 99.4 combina coincidencia de carga de trabajo, frescura del catálogo, seguridad de encaje, cobertura de contexto, elección de artefacto, utilización de memoria, rendimiento y latencia.
Qwen

Qwen 3.5 4B
FronteraPublicado Jun 2025Hugging FaceOllamaLM Studio
Por qué gana
Qwen 3.5 4B is a specialized fit for Coding. It is a recent-generation family, which helps on current local SOTA workloads. It fits natively with comfortable headroom. Context coverage stays within the requested workload envelope. Known distribution channels: huggingface, ollama, lm-studio.
Capacity: Roomy · Bandwidth: Medium · Stack: Standard
Interactive: Good · Light API: Great · Bottleneck: Balanced
Puesto #10
SRunsEST.
Estado de encaje
Runs well
Encaje: Runs well con 48K de contexto seguro.
Soporte de runtime: native vía GGUF en cpu-gpu-local.
Pesos: 3.3 GB
Caché KV: 2.2 GB
Backend: cpu-gpu-local
Límites actuales
Este setup está bastante equilibrado para este modelo.
No hay grandes señales de alerta
Esta recomendación tiene margen de memoria suficiente y una velocidad estimada razonable para la carga de trabajo seleccionada.
Siguientes mejoras útiles
La puntuación 93.6 combina coincidencia de carga de trabajo, frescura del catálogo, seguridad de encaje, cobertura de contexto, elección de artefacto, utilización de memoria, rendimiento y latencia.