Will It Run AI · カリキュレーター

お持ちのハードウェアとやりたいことを教えてください。最適なローカルモデルをランキングします。

ハードウェアとワークロードから始めて、汎用的なモデルリストやベンチマークのスクリーンショットを頼りにする代わりに、適合度、速度、ランタイム対応に基づいた候補リストを取得しましょう。

ライブカタログスナップショット: 196 hardware profiles, 374 models, 24 runtimes。静的なベンチマークリストではなく、現在のカタログに合わせてカリキュレーターを更新しています。

評価中

RTX 4070 12GB

ワークロード

Coding

ランタイム

llama.cpp

Operating mode

Balanced

入力

テストしたいハードウェア、ランタイム、ワークロードを選択してください。

検出されたハードウェアが正しければそのまま使用し、異なる場合は変更して、ランキングを再実行してローカルAIの選択肢を比較できます。

Browser detection

Collecting GPU metadata…

Awaiting detection

Update the hardware or workload and recalculate to refresh the ranking.

1. 適合度

メモリの適合度と余裕が、選択したハードウェアでモデルが現実的に動作するかを判定します。

2. ワークロード

選択したタスクに合うモデルにスコアを加算し、新しい専門リリースがある場合は古いモデルファミリーにペナルティを与えます。

3. 速度

デコードスループットとTTFTにより、理論上動作可能なだけでなく、実際に使えるモデルに候補を絞ります。

Qwen

Alibaba

Qwen 3.5 9B

最先端Jun 2025 リリースHugging FaceOllamaLM Studio

なぜ推奨されるか

Qwen 3.5 9B is a specialized fit for Coding. It is a recent-generation family, which helps on current local SOTA workloads. It fits natively with comfortable headroom. Context coverage stays within the requested workload envelope. Known distribution channels: huggingface, ollama, lm-studio.

Capacity: Roomy · Bandwidth: Medium · Stack: Standard

Interactive: Good · Light API: Great · Bottleneck: Balanced

ランク #1
SRunsMEASURED

スコア

122.0

適合状態

Runs well

適合:Runs well、安全なコンテキスト 32K。

ランタイムサポート:native、cuda-local 上の GGUF 経由。

ランタイム

llama.cpp

アーティファクト

GGUF

量子化

q4-k-m

デコード

72 tok/s

安全なコンテキスト

32K

公式コンテキスト

131K

サポート

native

TTFT

2616 ms

重み:5.5 GB

KVキャッシュ:2.2 GB

バックエンド:cuda-local

Current limits

This setup is broadly balanced for this model.

No major red flags

This recommendation has enough memory headroom and acceptable estimated speed for the selected workload.

Best next improvements

スコア 122.0 はワークロード適合度、カタログの新鮮さ、適合安全性、コンテキストカバレッジ、アーティファクト選択、メモリ使用率、スループット、レイテンシを組み合わせています。

CodeGeeX

Tsinghua/Zhipu

CodeGeeX 4 9B

現行Jul 2024 リリースHugging FaceOllama

なぜ推奨されるか

CodeGeeX 4 9B is a specialized fit for Coding. It sits in the middle of the current generation mix. It fits natively with comfortable headroom. Context coverage stays within the requested workload envelope. Known distribution channels: huggingface, ollama.

Capacity: Roomy · Bandwidth: Medium · Stack: Standard

Interactive: Good · Light API: Great · Bottleneck: Balanced

ランク #2
ARunsEST.

スコア

114.6

適合状態

Runs well

適合:Runs well、安全なコンテキスト 116K。

ランタイムサポート:native、cuda-local 上の GGUF 経由。

ランタイム

llama.cpp

アーティファクト

GGUF

量子化

q4-k-m

デコード

75.3 tok/s

安全なコンテキスト

116K

公式コンテキスト

131K

サポート

native

TTFT

2571 ms

重み:5.5 GB

KVキャッシュ:0.6 GB

バックエンド:cuda-local

Current limits

This setup is broadly balanced for this model.

No major red flags

This recommendation has enough memory headroom and acceptable estimated speed for the selected workload.

Best next improvements

スコア 114.6 はワークロード適合度、カタログの新鮮さ、適合安全性、コンテキストカバレッジ、アーティファクト選択、メモリ使用率、スループット、レイテンシを組み合わせています。

Gemma

Google

Gemma 4 E4B

最先端Apr 2026 リリースHugging FaceOllamaLM Studio

なぜ推奨されるか

Gemma 4 E4B is a specialized fit for Coding. It is a recent-generation family, which helps on current local SOTA workloads. It fits natively with comfortable headroom. Context coverage stays within the requested workload envelope. Known distribution channels: huggingface, ollama, lm-studio.

Capacity: Roomy · Bandwidth: Medium · Stack: Standard

Interactive: Good · Light API: Great · Bottleneck: Balanced

ランク #3
ARunsEST.

スコア

110.2

適合状態

Runs well

適合:Runs well、安全なコンテキスト 63K。

ランタイムサポート:native、cuda-local 上の GGUF 経由。

ランタイム

llama.cpp

アーティファクト

GGUF

量子化

q4-k-m

デコード

63.1 tok/s

安全なコンテキスト

63K

公式コンテキスト

128K

サポート

native

TTFT

3068 ms

重み:4.9 GB

KVキャッシュ:1.3 GB

バックエンド:cuda-local

Current limits

This setup is broadly balanced for this model.

No major red flags

This recommendation has enough memory headroom and acceptable estimated speed for the selected workload.

Best next improvements

スコア 110.2 はワークロード適合度、カタログの新鮮さ、適合安全性、コンテキストカバレッジ、アーティファクト選択、メモリ使用率、スループット、レイテンシを組み合わせています。

Codestral

Mistral AI

Codestral Mamba 7B

現行Jul 2024 リリースHugging FaceOllama

なぜ推奨されるか

Codestral Mamba 7B is a specialized fit for Coding. It sits in the middle of the current generation mix. It fits natively with comfortable headroom. Context coverage stays within the requested workload envelope. Known distribution channels: huggingface, ollama.

Capacity: Roomy · Bandwidth: Medium · Stack: Standard

Interactive: Good · Light API: Great · Bottleneck: Balanced

ランク #4
ARunsEST.

スコア

107.2

適合状態

Runs well

適合:Runs well、安全なコンテキスト 184K。

ランタイムサポート:native、cpu-gpu-local 上の GGUF 経由。

ランタイム

llama.cpp

アーティファクト

GGUF

量子化

q4-k-m

デコード

98 tok/s

安全なコンテキスト

184K

公式コンテキスト

262K

サポート

native

TTFT

1976 ms

重み:4.3 GB

KVキャッシュ:0.5 GB

バックエンド:cpu-gpu-local

Current limits

This setup is broadly balanced for this model.

No major red flags

This recommendation has enough memory headroom and acceptable estimated speed for the selected workload.

Best next improvements

スコア 107.2 はワークロード適合度、カタログの新鮮さ、適合安全性、コンテキストカバレッジ、アーティファクト選択、メモリ使用率、スループット、レイテンシを組み合わせています。

Yi

01.AI

Yi Coder 9B

現行Sep 2024 リリースHugging FaceOllamaLM Studio

なぜ推奨されるか

Yi Coder 9B is a specialized fit for Coding. It sits in the middle of the current generation mix. It fits natively with comfortable headroom. Context coverage stays within the requested workload envelope. Known distribution channels: huggingface, ollama, lm-studio.

Capacity: Roomy · Bandwidth: Medium · Stack: Standard

Interactive: Good · Light API: Great · Bottleneck: Balanced

ランク #5
BRunsEST.

スコア

106.6

適合状態

Runs well

適合:Runs well、安全なコンテキスト 48K。

ランタイムサポート:native、cuda-local 上の GGUF 経由。

ランタイム

llama.cpp

アーティファクト

GGUF

量子化

q4-k-m

デコード

74.9 tok/s

安全なコンテキスト

48K

公式コンテキスト

131K

サポート

native

TTFT

2586 ms

重み:5.5 GB

KVキャッシュ:1.5 GB

バックエンド:cuda-local

Current limits

This setup is broadly balanced for this model.

No major red flags

This recommendation has enough memory headroom and acceptable estimated speed for the selected workload.

Best next improvements

スコア 106.6 はワークロード適合度、カタログの新鮮さ、適合安全性、コンテキストカバレッジ、アーティファクト選択、メモリ使用率、スループット、レイテンシを組み合わせています。

Granite

IBM

Granite 4.1 8B

現行Apr 2026 リリースHugging FaceOllama

なぜ推奨されるか

Granite 4.1 8B is a specialized fit for Coding. It sits in the middle of the current generation mix. It fits natively with comfortable headroom. Context coverage stays within the requested workload envelope. Known distribution channels: huggingface, ollama.

Capacity: Roomy · Bandwidth: Medium · Stack: Standard

Interactive: Good · Light API: Great · Bottleneck: Balanced

ランク #6
ARunsEST.

スコア

102.3

適合状態

Runs well

適合:Runs well、安全なコンテキスト 33K。

ランタイムサポート:native、cpu-gpu-local 上の GGUF 経由。

ランタイム

llama.cpp

アーティファクト

GGUF

量子化

q4-k-m

デコード

83.3 tok/s

安全なコンテキスト

33K

公式コンテキスト

131K

サポート

native

TTFT

2325 ms

重み:4.9 GB

KVキャッシュ:2.4 GB

バックエンド:cpu-gpu-local

Current limits

This setup is broadly balanced for this model.

No major red flags

This recommendation has enough memory headroom and acceptable estimated speed for the selected workload.

Best next improvements

スコア 102.3 はワークロード適合度、カタログの新鮮さ、適合安全性、コンテキストカバレッジ、アーティファクト選択、メモリ使用率、スループット、レイテンシを組み合わせています。

Qwen

Alibaba

Qwen 2.5 Coder 7B

現行Sep 2024 リリースHugging FaceOllamaLM Studio

なぜ推奨されるか

Qwen 2.5 Coder 7B is a specialized fit for Coding. It sits in the middle of the current generation mix. It fits natively with comfortable headroom. Context coverage stays within the requested workload envelope. Known distribution channels: huggingface, ollama, lm-studio.

Capacity: Roomy · Bandwidth: Medium · Stack: Standard

Interactive: Good · Light API: Great · Bottleneck: Balanced

ランク #7
ARunsEST.

スコア

101.0

適合状態

Runs well

適合:Runs well、安全なコンテキスト 105K。

ランタイムサポート:native、cpu-gpu-local 上の GGUF 経由。

ランタイム

llama.cpp

アーティファクト

GGUF

量子化

q4-k-m

デコード

96.1 tok/s

安全なコンテキスト

105K

公式コンテキスト

131K

サポート

native

TTFT

2014 ms

重み:4.3 GB

KVキャッシュ:0.9 GB

バックエンド:cpu-gpu-local

Current limits

This setup is broadly balanced for this model.

No major red flags

This recommendation has enough memory headroom and acceptable estimated speed for the selected workload.

Best next improvements

スコア 101.0 はワークロード適合度、カタログの新鮮さ、適合安全性、コンテキストカバレッジ、アーティファクト選択、メモリ使用率、スループット、レイテンシを組み合わせています。

Qwen

Alibaba

Qwen 3 8B

最先端Apr 2025 リリースHugging FaceOllamaLM Studio

なぜ推奨されるか

Qwen 3 8B is viable for Coding, but is not the most specialized choice. It is a recent-generation family, which helps on current local SOTA workloads. It fits natively with comfortable headroom. Context coverage stays within the requested workload envelope. Known distribution channels: huggingface, ollama, lm-studio.

Capacity: Roomy · Bandwidth: Medium · Stack: Standard

Interactive: Good · Light API: Great · Bottleneck: Balanced

ランク #8
SRunsEST.

スコア

99.6

適合状態

Runs well

適合:Runs well、安全なコンテキスト 37K。

ランタイムサポート:native、cpu-gpu-local 上の GGUF 経由。

ランタイム

llama.cpp

アーティファクト

GGUF

量子化

q4-k-m

デコード

83.3 tok/s

安全なコンテキスト

37K

公式コンテキスト

131K

サポート

native

TTFT

2325 ms

重み:4.9 GB

KVキャッシュ:2.2 GB

バックエンド:cpu-gpu-local

Current limits

This setup is broadly balanced for this model.

No major red flags

This recommendation has enough memory headroom and acceptable estimated speed for the selected workload.

Best next improvements

スコア 99.6 はワークロード適合度、カタログの新鮮さ、適合安全性、コンテキストカバレッジ、アーティファクト選択、メモリ使用率、スループット、レイテンシを組み合わせています。

Nemotron

NVIDIA

Nemotron Nano 9B v2

最先端Jun 2025 リリースHugging FaceOllamaLM Studio

なぜ推奨されるか

Nemotron Nano 9B v2 is a specialized fit for Coding. It is a recent-generation family, which helps on current local SOTA workloads. It should run, but memory headroom will be limited. Context coverage stays within the requested workload envelope. Known distribution channels: huggingface, ollama, lm-studio.

Capacity: Tight · Bandwidth: Medium · Stack: Standard

Interactive: Good · Light API: Good · Bottleneck: Balanced

ランク #9
ATightEST.

スコア

99.4

適合状態

Tight fit

適合:Tight fit、安全なコンテキスト 29K。

ランタイムサポート:native、cuda-local 上の GGUF 経由。

ランタイム

llama.cpp

アーティファクト

GGUF

量子化

q4-k-m

デコード

74 tok/s

安全なコンテキスト

29K

公式コンテキスト

131K

サポート

native

TTFT

2616 ms

重み:5.5 GB

KVキャッシュ:2.4 GB

バックエンド:cuda-local

Current limits

This setup is broadly balanced for this model.

No major red flags

This recommendation has enough memory headroom and acceptable estimated speed for the selected workload.

Best next improvements

スコア 99.4 はワークロード適合度、カタログの新鮮さ、適合安全性、コンテキストカバレッジ、アーティファクト選択、メモリ使用率、スループット、レイテンシを組み合わせています。

Qwen

Alibaba

Qwen 3.5 4B

最先端Jun 2025 リリースHugging FaceOllamaLM Studio

なぜ推奨されるか

Qwen 3.5 4B is a specialized fit for Coding. It is a recent-generation family, which helps on current local SOTA workloads. It fits natively with comfortable headroom. Context coverage stays within the requested workload envelope. Known distribution channels: huggingface, ollama, lm-studio.

Capacity: Roomy · Bandwidth: Medium · Stack: Standard

Interactive: Good · Light API: Great · Bottleneck: Balanced

ランク #10
SRunsEST.

スコア

93.6

適合状態

Runs well

適合:Runs well、安全なコンテキスト 48K。

ランタイムサポート:native、cpu-gpu-local 上の GGUF 経由。

ランタイム

llama.cpp

アーティファクト

GGUF

量子化

q6-k

デコード

56 tok/s

安全なコンテキスト

48K

公式コンテキスト

131K

サポート

native

TTFT

3457 ms

重み:3.3 GB

KVキャッシュ:2.2 GB

バックエンド:cpu-gpu-local

Current limits

This setup is broadly balanced for this model.

No major red flags

This recommendation has enough memory headroom and acceptable estimated speed for the selected workload.

Best next improvements

スコア 93.6 はワークロード適合度、カタログの新鮮さ、適合安全性、コンテキストカバレッジ、アーティファクト選択、メモリ使用率、スループット、レイテンシを組み合わせています。

全374モデル

Full compatibility grid for RTX 4070 12GB

244 models fit · 9 excellent · 37 great

Grade
Model
Params
Tasks
Q4 VRAM
Decode
Context
Memory
Fit