Will It Run AI · Rechner

Sagen Sie uns, was Sie besitzen und was Sie tun möchten. Wir bewerten die lokalen Modelle, die für Sie infrage kommen.

Starten Sie mit Ihrer Hardware und Ihrem Workload, dann erhalten Sie eine Auswahl basierend auf Eignung, Geschwindigkeit und Runtime-Unterstützung — statt aus generischen Modelllisten oder Benchmark-Screenshots zu raten.

Live-Katalog-Snapshot: 196 hardware profiles, 374 models, 24 runtimes. So bleibt der Rechner mit dem aktuellen Katalog synchron statt mit einer statischen Benchmark-Liste.

Wird ausgewertet

RTX 4070 12GB

Workload

Coding

Runtime

llama.cpp

Operating mode

Balanced

Eingaben

Wählen Sie die Hardware, Runtime und den Workload, den Sie testen möchten.

Verwenden Sie die erkannte Hardware, wenn sie korrekt ist, ändern Sie sie andernfalls, und starten Sie das Ranking neu, um realistische lokale KI-Optionen zu vergleichen.

Browser detection

Collecting GPU metadata…

Awaiting detection

Update the hardware or workload and recalculate to refresh the ranking.

1. Eignung

Speichereignung und Reserven entscheiden, ob ein Modell auf der gewählten Hardware realistisch ist.

2. Workload

Die Bewertung belohnt Modelle, die zur gewählten Aufgabe passen, und bestraft veraltete Familien, wenn neuere Spezialversionen existieren.

3. Geschwindigkeit

Decode-Durchsatz und TTFT sorgen dafür, dass die Auswahl für reale Nutzung praktikabel ist — nicht nur theoretisch möglich.

Qwen

Alibaba

Qwen 3.5 9B

FrontierVeröffentlicht Jun 2025Hugging FaceOllamaLM Studio

Warum empfohlen

Qwen 3.5 9B is a specialized fit for Coding. It is a recent-generation family, which helps on current local SOTA workloads. It fits natively with comfortable headroom. Context coverage stays within the requested workload envelope. Known distribution channels: huggingface, ollama, lm-studio.

Capacity: Roomy · Bandwidth: Medium · Stack: Standard

Interactive: Good · Light API: Great · Bottleneck: Balanced

Rang #1
SRunsMEASURED

Punktzahl

122.0

Passungsstatus

Runs well

Passung: Runs well mit sicherem Kontext 32K.

Laufzeit-Support: native via GGUF auf cuda-local.

Laufzeit

llama.cpp

Artefakt

GGUF

Quant.

q4-k-m

Dekodierung

72 tok/s

Sicherer Kontext

32K

Offizieller Kontext

131K

Support

native

TTFT

2616 ms

Gewichte: 5.5 GB

KV-Cache: 2.2 GB

Backend: cuda-local

Current limits

This setup is broadly balanced for this model.

No major red flags

This recommendation has enough memory headroom and acceptable estimated speed for the selected workload.

Best next improvements

Punktzahl 122.0 kombiniert Workload-Übereinstimmung, Katalogaktualität, Passungssicherheit, Kontextabdeckung, Artefaktwahl, Speicherauslastung, Durchsatz und Latenz.

CodeGeeX

Tsinghua/Zhipu

CodeGeeX 4 9B

AktuellVeröffentlicht Jul 2024Hugging FaceOllama

Warum empfohlen

CodeGeeX 4 9B is a specialized fit for Coding. It sits in the middle of the current generation mix. It fits natively with comfortable headroom. Context coverage stays within the requested workload envelope. Known distribution channels: huggingface, ollama.

Capacity: Roomy · Bandwidth: Medium · Stack: Standard

Interactive: Good · Light API: Great · Bottleneck: Balanced

Rang #2
ARunsEST.

Punktzahl

114.6

Passungsstatus

Runs well

Passung: Runs well mit sicherem Kontext 116K.

Laufzeit-Support: native via GGUF auf cuda-local.

Laufzeit

llama.cpp

Artefakt

GGUF

Quant.

q4-k-m

Dekodierung

75.3 tok/s

Sicherer Kontext

116K

Offizieller Kontext

131K

Support

native

TTFT

2571 ms

Gewichte: 5.5 GB

KV-Cache: 0.6 GB

Backend: cuda-local

Current limits

This setup is broadly balanced for this model.

No major red flags

This recommendation has enough memory headroom and acceptable estimated speed for the selected workload.

Best next improvements

Punktzahl 114.6 kombiniert Workload-Übereinstimmung, Katalogaktualität, Passungssicherheit, Kontextabdeckung, Artefaktwahl, Speicherauslastung, Durchsatz und Latenz.

Gemma

Google

Gemma 4 E4B

FrontierVeröffentlicht Apr 2026Hugging FaceOllamaLM Studio

Warum empfohlen

Gemma 4 E4B is a specialized fit for Coding. It is a recent-generation family, which helps on current local SOTA workloads. It fits natively with comfortable headroom. Context coverage stays within the requested workload envelope. Known distribution channels: huggingface, ollama, lm-studio.

Capacity: Roomy · Bandwidth: Medium · Stack: Standard

Interactive: Good · Light API: Great · Bottleneck: Balanced

Rang #3
ARunsEST.

Punktzahl

110.2

Passungsstatus

Runs well

Passung: Runs well mit sicherem Kontext 63K.

Laufzeit-Support: native via GGUF auf cuda-local.

Laufzeit

llama.cpp

Artefakt

GGUF

Quant.

q4-k-m

Dekodierung

63.1 tok/s

Sicherer Kontext

63K

Offizieller Kontext

128K

Support

native

TTFT

3068 ms

Gewichte: 4.9 GB

KV-Cache: 1.3 GB

Backend: cuda-local

Current limits

This setup is broadly balanced for this model.

No major red flags

This recommendation has enough memory headroom and acceptable estimated speed for the selected workload.

Best next improvements

Punktzahl 110.2 kombiniert Workload-Übereinstimmung, Katalogaktualität, Passungssicherheit, Kontextabdeckung, Artefaktwahl, Speicherauslastung, Durchsatz und Latenz.

Codestral

Mistral AI

Codestral Mamba 7B

AktuellVeröffentlicht Jul 2024Hugging FaceOllama

Warum empfohlen

Codestral Mamba 7B is a specialized fit for Coding. It sits in the middle of the current generation mix. It fits natively with comfortable headroom. Context coverage stays within the requested workload envelope. Known distribution channels: huggingface, ollama.

Capacity: Roomy · Bandwidth: Medium · Stack: Standard

Interactive: Good · Light API: Great · Bottleneck: Balanced

Rang #4
ARunsEST.

Punktzahl

107.2

Passungsstatus

Runs well

Passung: Runs well mit sicherem Kontext 184K.

Laufzeit-Support: native via GGUF auf cpu-gpu-local.

Laufzeit

llama.cpp

Artefakt

GGUF

Quant.

q4-k-m

Dekodierung

98 tok/s

Sicherer Kontext

184K

Offizieller Kontext

262K

Support

native

TTFT

1976 ms

Gewichte: 4.3 GB

KV-Cache: 0.5 GB

Backend: cpu-gpu-local

Current limits

This setup is broadly balanced for this model.

No major red flags

This recommendation has enough memory headroom and acceptable estimated speed for the selected workload.

Best next improvements

Punktzahl 107.2 kombiniert Workload-Übereinstimmung, Katalogaktualität, Passungssicherheit, Kontextabdeckung, Artefaktwahl, Speicherauslastung, Durchsatz und Latenz.

Yi

01.AI

Yi Coder 9B

AktuellVeröffentlicht Sep 2024Hugging FaceOllamaLM Studio

Warum empfohlen

Yi Coder 9B is a specialized fit for Coding. It sits in the middle of the current generation mix. It fits natively with comfortable headroom. Context coverage stays within the requested workload envelope. Known distribution channels: huggingface, ollama, lm-studio.

Capacity: Roomy · Bandwidth: Medium · Stack: Standard

Interactive: Good · Light API: Great · Bottleneck: Balanced

Rang #5
BRunsEST.

Punktzahl

106.6

Passungsstatus

Runs well

Passung: Runs well mit sicherem Kontext 48K.

Laufzeit-Support: native via GGUF auf cuda-local.

Laufzeit

llama.cpp

Artefakt

GGUF

Quant.

q4-k-m

Dekodierung

74.9 tok/s

Sicherer Kontext

48K

Offizieller Kontext

131K

Support

native

TTFT

2586 ms

Gewichte: 5.5 GB

KV-Cache: 1.5 GB

Backend: cuda-local

Current limits

This setup is broadly balanced for this model.

No major red flags

This recommendation has enough memory headroom and acceptable estimated speed for the selected workload.

Best next improvements

Punktzahl 106.6 kombiniert Workload-Übereinstimmung, Katalogaktualität, Passungssicherheit, Kontextabdeckung, Artefaktwahl, Speicherauslastung, Durchsatz und Latenz.

Granite

IBM

Granite 4.1 8B

AktuellVeröffentlicht Apr 2026Hugging FaceOllama

Warum empfohlen

Granite 4.1 8B is a specialized fit for Coding. It sits in the middle of the current generation mix. It fits natively with comfortable headroom. Context coverage stays within the requested workload envelope. Known distribution channels: huggingface, ollama.

Capacity: Roomy · Bandwidth: Medium · Stack: Standard

Interactive: Good · Light API: Great · Bottleneck: Balanced

Rang #6
ARunsEST.

Punktzahl

102.3

Passungsstatus

Runs well

Passung: Runs well mit sicherem Kontext 33K.

Laufzeit-Support: native via GGUF auf cpu-gpu-local.

Laufzeit

llama.cpp

Artefakt

GGUF

Quant.

q4-k-m

Dekodierung

83.3 tok/s

Sicherer Kontext

33K

Offizieller Kontext

131K

Support

native

TTFT

2325 ms

Gewichte: 4.9 GB

KV-Cache: 2.4 GB

Backend: cpu-gpu-local

Current limits

This setup is broadly balanced for this model.

No major red flags

This recommendation has enough memory headroom and acceptable estimated speed for the selected workload.

Best next improvements

Punktzahl 102.3 kombiniert Workload-Übereinstimmung, Katalogaktualität, Passungssicherheit, Kontextabdeckung, Artefaktwahl, Speicherauslastung, Durchsatz und Latenz.

Qwen

Alibaba

Qwen 2.5 Coder 7B

AktuellVeröffentlicht Sep 2024Hugging FaceOllamaLM Studio

Warum empfohlen

Qwen 2.5 Coder 7B is a specialized fit for Coding. It sits in the middle of the current generation mix. It fits natively with comfortable headroom. Context coverage stays within the requested workload envelope. Known distribution channels: huggingface, ollama, lm-studio.

Capacity: Roomy · Bandwidth: Medium · Stack: Standard

Interactive: Good · Light API: Great · Bottleneck: Balanced

Rang #7
ARunsEST.

Punktzahl

101.0

Passungsstatus

Runs well

Passung: Runs well mit sicherem Kontext 105K.

Laufzeit-Support: native via GGUF auf cpu-gpu-local.

Laufzeit

llama.cpp

Artefakt

GGUF

Quant.

q4-k-m

Dekodierung

96.1 tok/s

Sicherer Kontext

105K

Offizieller Kontext

131K

Support

native

TTFT

2014 ms

Gewichte: 4.3 GB

KV-Cache: 0.9 GB

Backend: cpu-gpu-local

Current limits

This setup is broadly balanced for this model.

No major red flags

This recommendation has enough memory headroom and acceptable estimated speed for the selected workload.

Best next improvements

Punktzahl 101.0 kombiniert Workload-Übereinstimmung, Katalogaktualität, Passungssicherheit, Kontextabdeckung, Artefaktwahl, Speicherauslastung, Durchsatz und Latenz.

Qwen

Alibaba

Qwen 3 8B

FrontierVeröffentlicht Apr 2025Hugging FaceOllamaLM Studio

Warum empfohlen

Qwen 3 8B is viable for Coding, but is not the most specialized choice. It is a recent-generation family, which helps on current local SOTA workloads. It fits natively with comfortable headroom. Context coverage stays within the requested workload envelope. Known distribution channels: huggingface, ollama, lm-studio.

Capacity: Roomy · Bandwidth: Medium · Stack: Standard

Interactive: Good · Light API: Great · Bottleneck: Balanced

Rang #8
SRunsEST.

Punktzahl

99.6

Passungsstatus

Runs well

Passung: Runs well mit sicherem Kontext 37K.

Laufzeit-Support: native via GGUF auf cpu-gpu-local.

Laufzeit

llama.cpp

Artefakt

GGUF

Quant.

q4-k-m

Dekodierung

83.3 tok/s

Sicherer Kontext

37K

Offizieller Kontext

131K

Support

native

TTFT

2325 ms

Gewichte: 4.9 GB

KV-Cache: 2.2 GB

Backend: cpu-gpu-local

Current limits

This setup is broadly balanced for this model.

No major red flags

This recommendation has enough memory headroom and acceptable estimated speed for the selected workload.

Best next improvements

Punktzahl 99.6 kombiniert Workload-Übereinstimmung, Katalogaktualität, Passungssicherheit, Kontextabdeckung, Artefaktwahl, Speicherauslastung, Durchsatz und Latenz.

Nemotron

NVIDIA

Nemotron Nano 9B v2

FrontierVeröffentlicht Jun 2025Hugging FaceOllamaLM Studio

Warum empfohlen

Nemotron Nano 9B v2 is a specialized fit for Coding. It is a recent-generation family, which helps on current local SOTA workloads. It should run, but memory headroom will be limited. Context coverage stays within the requested workload envelope. Known distribution channels: huggingface, ollama, lm-studio.

Capacity: Tight · Bandwidth: Medium · Stack: Standard

Interactive: Good · Light API: Good · Bottleneck: Balanced

Rang #9
ATightEST.

Punktzahl

99.4

Passungsstatus

Tight fit

Passung: Tight fit mit sicherem Kontext 29K.

Laufzeit-Support: native via GGUF auf cuda-local.

Laufzeit

llama.cpp

Artefakt

GGUF

Quant.

q4-k-m

Dekodierung

74 tok/s

Sicherer Kontext

29K

Offizieller Kontext

131K

Support

native

TTFT

2616 ms

Gewichte: 5.5 GB

KV-Cache: 2.4 GB

Backend: cuda-local

Current limits

This setup is broadly balanced for this model.

No major red flags

This recommendation has enough memory headroom and acceptable estimated speed for the selected workload.

Best next improvements

Punktzahl 99.4 kombiniert Workload-Übereinstimmung, Katalogaktualität, Passungssicherheit, Kontextabdeckung, Artefaktwahl, Speicherauslastung, Durchsatz und Latenz.

Qwen

Alibaba

Qwen 3.5 4B

FrontierVeröffentlicht Jun 2025Hugging FaceOllamaLM Studio

Warum empfohlen

Qwen 3.5 4B is a specialized fit for Coding. It is a recent-generation family, which helps on current local SOTA workloads. It fits natively with comfortable headroom. Context coverage stays within the requested workload envelope. Known distribution channels: huggingface, ollama, lm-studio.

Capacity: Roomy · Bandwidth: Medium · Stack: Standard

Interactive: Good · Light API: Great · Bottleneck: Balanced

Rang #10
SRunsEST.

Punktzahl

93.6

Passungsstatus

Runs well

Passung: Runs well mit sicherem Kontext 48K.

Laufzeit-Support: native via GGUF auf cpu-gpu-local.

Laufzeit

llama.cpp

Artefakt

GGUF

Quant.

q6-k

Dekodierung

56 tok/s

Sicherer Kontext

48K

Offizieller Kontext

131K

Support

native

TTFT

3457 ms

Gewichte: 3.3 GB

KV-Cache: 2.2 GB

Backend: cpu-gpu-local

Current limits

This setup is broadly balanced for this model.

No major red flags

This recommendation has enough memory headroom and acceptable estimated speed for the selected workload.

Best next improvements

Punktzahl 93.6 kombiniert Workload-Übereinstimmung, Katalogaktualität, Passungssicherheit, Kontextabdeckung, Artefaktwahl, Speicherauslastung, Durchsatz und Latenz.

Alle 374 Modelle

Full compatibility grid for RTX 4070 12GB

244 models fit · 9 excellent · 37 great

Grade
Model
Params
Tasks
Q4 VRAM
Decode
Context
Memory
Fit