AI Compatibility Tier List

NVIDIA H200 PCIe 141GB

380 AI models ranked by how well they run on your 141 GB VRAM hardware. Best match: Qwen 3.5 122B A10B (score: 98).

380

Models tested

337

Can run

141 GB

VRAM

162

Best tok/s

Tier Distribution

S 29

A 60

B 59

C 189

F 43

S: 29A: 60B: 59C: 189F: 43

Post on X

S Tier -- Perfect Fit (29 models)

These models run flawlessly with headroom to spare.

Qwen 3.5 122B A10B

S98

122B91.9 GB162 tok/s131K ctx

moe

Devstral 2 123B Instruct

S98

123B95.4 GB58 tok/s152K ctx

dense

Mistral Small 4 119B

S97

119B93.0 GB176 tok/s159K ctx

moe

GPT-OSS 120B

S95

117B91.3 GB61 tok/s131K ctx

dense

Pixtral Large 124B

S95

124B96.0 GB58 tok/s131K ctx

dense

Command A 111B

S94

111B86.6 GB65 tok/s239K ctx

dense

Leanstral 119B A6B

S92

119B96.4 GB162 tok/s97K ctx

moe

Qwen 2.5 VL 72B

S92

72B63.8 GB100 tok/s33K ctx

dense

Qwen3-Coder-Next

S92

80B65.3 GB272 tok/s256K ctx

moe

Qwen3-Coder 30B A3B Instruct

S90

30.5B35.1 GB610 tok/s256K ctx

moe

Qwen 3.6 35B A3B

S90

35B40.5 GB512 tok/s262K ctx

moe

Qwen 3.5 27B

S90

27B34.6 GB264 tok/s131K ctx

dense

Qwen3-VL 30B A3B Instruct

S89

30B34.8 GB631 tok/s256K ctx

moe

Qwen 3.6 27B

S89

27B32.4 GB165 tok/s262K ctx

dense

Qwen 3.5 35B A3B

S89

35B37.8 GB557 tok/s131K ctx

moe

Qwen 3 32B

S89

32B38.4 GB225 tok/s131K ctx

dense

Magistral Small 2507

S88

24B32.1 GB296 tok/s131K ctx

dense

Devstral Small 2 24B Instruct

S88

24B32.1 GB296 tok/s256K ctx

dense

Qwen 3 30B A3B

S88

30.5B35.1 GB610 tok/s131K ctx

moe

Nemotron 3 Nano 30B

S87

30B35.7 GB237 tok/s131K ctx

dense

Qwen 3.5 9B

S87

9B22.7 GB126 tok/s131K ctx

dense

Qwen 3 14B

S87

14B26.0 GB196 tok/s131K ctx

dense

Devstral Small 1.1

S86

24B32.1 GB296 tok/s131K ctx

dense

Gemma 4 31B

S86

30.7B48.4 GB141 tok/s117K ctx

dense

Llama 3.3 70B

S86

70B62.6 GB103 tok/s128K ctx

dense

Phi-4-reasoning-plus 14B

S86

14.7B27.0 GB206 tok/s33K ctx

dense

Qwen 3 8B

S85

8B22.1 GB112 tok/s131K ctx

dense

Nemotron Cascade 2 30B A3B

S85

30B36.2 GB623 tok/s262K ctx

moe

GPT-OSS 20B

S85

21B30.3 GB774 tok/s128K ctx

moe

A Tier -- Great Fit (60 models)

Excellent performance with comfortable memory margins.

Qwen 3.5 4B

A83

4B19.6 GB56 tok/s131K ctx

dense

EXAONE 4.0 32B

A83

32B38.4 GB223 tok/s131K ctx

dense

Qwen 2.5 72B

A83

72B63.8 GB100 tok/s131K ctx

dense

Llama 4 Scout 17B 16E

A83

109B84.4 GB154 tok/s325K ctx

moe

Llama 3.1 70B

A82

70B62.6 GB103 tok/s128K ctx

dense

Gemma 4 26B A4B

A82

25.2B34.0 GB655 tok/s256K ctx

moe

Qwen 2.5 32B

A81

32B38.4 GB223 tok/s131K ctx

dense

Kimi Linear 48B A3B

A81

48B45.2 GB138 tok/s1049K ctx

linear

Gemma 3 27B

A81

27B42.7 GB160 tok/s131K ctx

dense

Ministral 3 14B

A81

14B26.0 GB196 tok/s262K ctx

multimodal

Codestral 2 25.08

A81

22B30.9 GB288 tok/s256K ctx

dense

Mistral Small 3.2 24B

A81

24B32.1 GB296 tok/s131K ctx

vision

Nemotron Nano 8B

A80

8B21.8 GB112 tok/s131K ctx

dense

Qwen 3 235B A22B

A80

235B161.2 GB48 tok/s4K ctx

moe

Phi-4 Mini Reasoning 4B

A80

3.8B18.8 GB53 tok/s131K ctx

dense

OLMo 2 32B

A80

32B38.4 GB223 tok/s4K ctx

dense

LFM2 24B

A80

24B32.1 GB296 tok/s131K ctx

dense

Granite 4.1 30B

A80

30B37.2 GB237 tok/s131K ctx

dense

CogVLM2 19B

A80

19B29.0 GB266 tok/s8K ctx

dense

Mistral Small 24B

A79

24B32.1 GB296 tok/s33K ctx

dense

MiniMax M2.7

A79

230B159.1 GB56 tok/s4K ctx

moe

Mistral Small 3.1 24B

A78

24B32.1 GB296 tok/s131K ctx

dense

Ornith 1.0 35B A3B

A78

35.1B36.7 GB556 tok/s262K ctx

moe

DeepSeek R1 Distill 70B

A78

70B62.6 GB103 tok/s131K ctx

dense

Gemma 4 12B

A78

12B28.2 GB168 tok/s262K ctx

dense

Phi-4 14B

A78

14B26.6 GB196 tok/s16K ctx

dense

InternVL2 8B

A78

8B21.8 GB112 tok/s8K ctx

dense

Qwen 2.5 14B

A77

14B26.5 GB196 tok/s131K ctx

dense

Granite Code 20B

A76

20B30.4 GB280 tok/s8K ctx

dense

DiffusionGemma 26B A4B

A76

25.8B34.4 GB634 tok/s262K ctx

moe

Ministral 3 8B

A76

8B22.1 GB112 tok/s262K ctx

multimodal

MiniCPM-V 2.6 8B

A76

8B21.8 GB112 tok/s2K ctx

dense

Gemma 3 12B

A76

12B27.2 GB168 tok/s131K ctx

dense

Qwen 2.5 Coder 32B

A75

32B38.4 GB223 tok/s131K ctx

dense

Nemotron Nano 9B v2

A75

9B22.9 GB126 tok/s131K ctx

dense

Granite Code 34B

A75

34B39.4 GB211 tok/s8K ctx

dense

DeepSeek Coder V2 16B

A75

16B28.1 GB984 tok/s131K ctx

moe

SQLCoder 7B

A75

7B21.2 GB98 tok/s8K ctx

dense

Qwen 3 4B

A75

4B19.6 GB56 tok/s33K ctx

dense

Qwen 2.5 VL 7B

A75

7B20.1 GB98 tok/s33K ctx

dense

Command R 35B

A74

35B38.8 GB205 tok/s131K ctx

dense

Jina Embeddings v3

A74

0.57B18.1 GB8 tok/s8K ctx

dense

StarCoder 15B

A73

15B40.4 GB210 tok/s8K ctx

dense

DeepSeek R1 Distill 32B

A73

32B38.4 GB223 tok/s33K ctx

dense

Nemotron 70B

A73

70B62.6 GB103 tok/s131K ctx

dense

Magistral 7B

A73

7B21.2 GB98 tok/s8K ctx

dense

CodeGeeX 4 9B

A73

9B21.1 GB126 tok/s131K ctx

dense

BGE M3

A73

0.57B17.3 GB8 tok/s8K ctx

dense

OLMo 2 13B

A73

13B25.4 GB182 tok/s33K ctx

dense

Gemma 4 E4B

A72

8B21.2 GB112 tok/s128K ctx

dense

CodeLlama 13B Instruct

A72

13B35.1 GB182 tok/s16K ctx

dense

MPT-30B-Instruct

A72

30B60.0 GB190 tok/s8K ctx

dense

Qwen 2.5 7B

A71

7B20.1 GB98 tok/s131K ctx

dense

Command R+ 104B

A71

104B81.9 GB69 tok/s131K ctx

dense

LLaVA 1.6 13B

A71

13B35.1 GB182 tok/s4K ctx

dense

DeepSeek R1 Distill 14B

A70

14B26.5 GB196 tok/s33K ctx

dense

Mixtral 8x22B

A70

141B104.4 GB97 tok/s66K ctx

moe

Granite Code 8B

A70

8B21.8 GB112 tok/s8K ctx

dense

DevStral 7B

A70

7B21.2 GB98 tok/s8K ctx

dense

Codestral Mamba 7B

A70

7B19.8 GB98 tok/s262K ctx

state-space

B Tier -- Good Fit (59 models)

Solid performance, may need quantization or reduced context.

Granite 4.1 8B

B69

8B22.3 GB112 tok/s131K ctx

dense

Falcon 40B Instruct

B69

40B45.6 GB155 tok/s8K ctx

dense

mxbai Embed Large

B69

0.34B17.2 GB5 tok/s1K ctx

dense

CodeLlama 7B Instruct

B69

7B27.1 GB98 tok/s16K ctx

dense

StarCoder 7B

B69

7B26.6 GB98 tok/s8K ctx

dense

Pixtral 12B

B69

12B24.8 GB168 tok/s131K ctx

dense

LFM2.5 8B A1B

B69

8.5B20.4 GB1895 tok/s128K ctx

moe

Snowflake Arctic Embed L

B68

0.34B17.2 GB5 tok/s1K ctx

dense

Nous Dolphin 13B

B68

13B36.6 GB182 tok/s16K ctx

dense

Gemma 2 27B

B68

27B42.7 GB160 tok/s8K ctx

dense

Qwen 2.5 Coder 3B

B68

3B19.0 GB42 tok/s131K ctx

dense

WizardLM 13B

B68

13B35.1 GB182 tok/s8K ctx

dense

Vicuna 13B

B68

13B35.1 GB182 tok/s4K ctx

dense

Nous Hermes 1.0

B67

9B32.7 GB126 tok/s16K ctx

dense

Gemma 4 E2B

B67

5.1B18.6 GB71 tok/s128K ctx

dense

BGE Large EN v1.5

B67

0.34B17.2 GB5 tok/s1K ctx

dense

InternLM 7B

B67

7B27.1 GB98 tok/s8K ctx

dense

InternLM Chat 7B

B67

7B27.1 GB98 tok/s8K ctx

dense

GLM-4 9B

B66

9B21.1 GB126 tok/s128K ctx

dense

Llama 3.1 8B

B66

8B21.8 GB112 tok/s128K ctx

dense

Solar 7B

B66

7B22.2 GB98 tok/s8K ctx

dense

WizardMath 7B

B66

7B21.2 GB98 tok/s4K ctx

dense

OLMo 2 7B

B66

7B21.2 GB98 tok/s4K ctx

dense

Nomic Embed Text v1.5

B65

0.14B15.8 GB2 tok/s8K ctx

dense

Qwen 2.5 Math 72B

B65

72B63.8 GB100 tok/s4K ctx

dense

Qwen 2.5 Coder 7B

B65

7B20.1 GB98 tok/s131K ctx

dense

Gemma 3 4B

B65

4B19.5 GB56 tok/s128K ctx

dense

Ministral 3 3B

B64

3B17.6 GB42 tok/s262K ctx

multimodal

Mixtral 8x7B

B64

47B45.6 GB290 tok/s33K ctx

moe

LLaVA 1.5 7B

B64

7B27.1 GB98 tok/s4K ctx

dense

Phi 4 Mini 4B

B64

4B18.9 GB56 tok/s128K ctx

dense

Baichuan 13B

B64

13B36.6 GB182 tok/s8K ctx

dense

Cerebras-GPT 13B

B63

13B34.1 GB182 tok/s131K ctx

dense

Qwen 3.5 2B

B63

2B17.9 GB28 tok/s131K ctx

dense

MPT-7B-Instruct

B62

7B27.1 GB98 tok/s8K ctx

dense

Baichuan 7B

B62

7B27.1 GB98 tok/s8K ctx

dense

DeepSeek R1 Distill 7B

B62

7B20.1 GB98 tok/s33K ctx

dense

DeepSeek R1 Distill 8B

B62

8B21.8 GB112 tok/s33K ctx

dense

Samantha 7B

B61

7B21.2 GB98 tok/s4K ctx

dense

DeepSeek LLM 67B

B61

67B61.7 GB107 tok/s4K ctx

dense

Qwen 2.5 3B

B61

3B19.0 GB42 tok/s131K ctx

dense

Falcon 7B Instruct

B61

7B19.4 GB98 tok/s8K ctx

dense

Phi 3 Mini 3.8B

B61

3.8B23.2 GB53 tok/s128K ctx

dense

Yi 1.5 34B

B60

34B39.4 GB211 tok/s4K ctx

dense

Gemma 2 9B

B60

9B25.6 GB126 tok/s8K ctx

dense

Qwen 2.5 Coder 14B

B60

14B26.5 GB196 tok/s131K ctx

dense

Qwen 3 1.7B

B60

1.7B17.7 GB24 tok/s33K ctx

dense

Llama 3.2 11B Vision

B60

11B23.7 GB154 tok/s16K ctx

vision

All MiniLM L6 v2

B60

0.02B15.3 GB2 tok/s0K ctx

dense

Phi 3.5 Mini 4B

B60

4B23.3 GB56 tok/s128K ctx

dense

Granite 4.1 3B

B59

3B18.1 GB42 tok/s131K ctx

dense

Qwen 2.5 Coder 1.5B

B58

1.5B16.3 GB21 tok/s33K ctx

dense

Granite Code 3B

B58

3B19.3 GB42 tok/s8K ctx

dense

Mistral Nemo 12B

B58

12B24.8 GB168 tok/s128K ctx

dense

Yi Coder 9B

B57

9B22.0 GB126 tok/s131K ctx

dense

Mistral 7B Instruct v0.3

B57

7B21.2 GB98 tok/s8K ctx

dense

InternLM 20B

B57

20B47.7 GB280 tok/s8K ctx

dense

Phi 3 Medium 14B

B57

14B26.6 GB196 tok/s128K ctx

dense

Codestral 22B

B57

22B30.9 GB307 tok/s33K ctx

dense

C Tier -- Tight Fit (189 models)

Runs with offloading or significant compromises.

Ministral 8B

C55

8B22.1 GB112 tok/s131K ctx

dense

Llama 3.2 3B

C55

3B18.5 GB42 tok/s128K ctx

dense

Qwen3.5 122B A10B

C55

122B89.1 GB63 tok/s74K ctx

dense

Solar Open 100B

C54

100B87.7 GB66 tok/s89K ctx

dense

Solar Open 100B i1

C54

100B87.7 GB66 tok/s89K ctx

dense

Aya Expanse 32B

C53

32B37.0 GB225 tok/s8K ctx

dense

Llama 3.3 70B Instruct

C52

70B65.9 GB94 tok/s162K ctx

dense

BaichuanMed OCR 72B i1

C52

72B67.4 GB92 tok/s156K ctx

dense

Solar Open 69B REAP i1

C52

69B65.2 GB96 tok/s166K ctx

dense

stabilityai japanese stablelm instruct beta 70b

C51

70B65.9 GB94 tok/s162K ctx

dense

DeepSeek R1 1.5B

C50

1.5B16.3 GB21 tok/s33K ctx

dense

TinyLlama 1.1B

C50

1.1B16.0 GB15 tok/s4K ctx

dense

SmolLM3 3B

C50

3B18.8 GB42 tok/s128K ctx

dense

Granite 3.1 8B

C50

8B21.8 GB112 tok/s128K ctx

state-space

Yi 1.5 9B

C50

9B22.0 GB126 tok/s4K ctx

dense

Yi 34B Chat

C49

34B39.4 GB211 tok/s200K ctx

dense

Qwen3 48B A4B Savant Commander Distill 12X Closed Open Heretic Uncensored

C49

48B49.9 GB138 tok/s275K ctx

dense

Qwen 2.5 Math 7B

C49

7B20.1 GB98 tok/s4K ctx

dense

Qwen3.5 35B A3B

C48

35B40.5 GB189 tok/s408K ctx

dense

Qwen3.5 35B A3B

C48

35B40.5 GB189 tok/s408K ctx

dense

Hermes 4.3 36B

C48

36B41.2 GB184 tok/s395K ctx

dense

Qwen 2.5 1.5B

C48

1.5B16.3 GB21 tok/s131K ctx

dense

Qwen3.5 27B

C48

27B34.6 GB245 tok/s554K ctx

dense

EXAONE 4.0 32B

C47

32B38.3 GB207 tok/s454K ctx

dense

aya expanse 32b heretic MPOA i1

C47

32B38.3 GB207 tok/s454K ctx

dense

gemma 3 27b it

C47

27B34.6 GB245 tok/s554K ctx

dense

Baichuan M2 32B Q4 K M

C47

32B38.3 GB207 tok/s454K ctx

dense

StarCoder2 15B

C47

15B27.0 GB210 tok/s16K ctx

dense

baichuan inc Baichuan M2 32B

C47

32B38.3 GB207 tok/s454K ctx

dense

gemma 3 27b it

C47

27B34.6 GB245 tok/s554K ctx

dense

OpenChat 7B

C47

7B21.2 GB98 tok/s8K ctx

dense

StableLM 2 12B

C47

12B35.8 GB168 tok/s4K ctx

dense

Mistral Small 3.2 24B Instruct 2506

C47

24B32.5 GB275 tok/s634K ctx

dense

cognitivecomputations Dolphin Mistral 24B Venice Edition

C47

24B32.5 GB275 tok/s634K ctx

dense

Mistral Small 24B Instruct 2501

C47

24B32.5 GB275 tok/s634K ctx

dense

mistral small 3.1 24b instruct 2503 hf

C47

24B32.5 GB275 tok/s634K ctx

dense

cognitivecomputations Dolphin3.0 R1 Mistral 24B

C47

24B32.5 GB275 tok/s634K ctx

dense

Aya Expanse 8B

C47

8B21.8 GB112 tok/s8K ctx

dense

LFM2.5 350M

C47

0.35B15.4 GB5 tok/s128K ctx

dense

Dolphin Mistral GLM 4.7 Flash 24B Venice Edition Thinking Uncensored i1

C47

24B32.5 GB275 tok/s634K ctx

dense

Vicuna 7B

C47

7B27.1 GB98 tok/s4K ctx

dense

Codestral 22B v0.1

C47

22B31.0 GB300 tok/s699K ctx

dense

Codestral 22B v0.1

C47

22B31.0 GB300 tok/s699K ctx

dense

cognitivecomputations Dolphin Mistral 24B Venice Edition

C46

24B32.5 GB275 tok/s634K ctx

dense

Codestral 22B v0.1

C46

22B31.0 GB300 tok/s699K ctx

dense

Gemma 3 1B

C46

1B16.0 GB14 tok/s33K ctx

dense

Codestral 22B v0.1 IMat

C46

22B31.0 GB300 tok/s699K ctx

dense

Codestral 22B v0.1 i1

C46

22B31.0 GB300 tok/s699K ctx

dense

Codestral 21B Pruned i1

C46

21B30.3 GB294 tok/s736K ctx

dense

internlm2 5 20b chat

C46

20B29.5 GB280 tok/s777K ctx

dense

internlm2 limarp chat 20b

C46

20B29.5 GB280 tok/s777K ctx

dense

OpenHermes 2.5 7B

C46

7B21.2 GB98 tok/s8K ctx

dense

internlm2 math plus 20b i1

C46

20B29.5 GB280 tok/s777K ctx

dense

Dolphin 2.9 8B

C46

8B21.8 GB112 tok/s33K ctx

dense

DeepSeek R1 Distill Qwen 14B

C46

14B25.2 GB196 tok/s1146K ctx

dense

Phi 4 reasoning vision 15B

C46

15B25.9 GB210 tok/s1064K ctx

dense

Codestral RAG 19B Pruned i1

C46

19B28.8 GB266 tok/s822K ctx

dense

StarCoder2 15B

C46

15B25.9 GB210 tok/s1064K ctx

dense

Zephyr 7B Beta

C46

7B21.2 GB98 tok/s33K ctx

dense

NousResearch Hermes 4 14B

C46

14B25.2 GB196 tok/s1146K ctx

dense

gemma 3 12b it

C46

12B23.7 GB168 tok/s1350K ctx

dense

Qwen3.5 9B

C46

9B21.5 GB126 tok/s1828K ctx

dense

Qwen3.5 9B Uncensored HauhauCS Aggressive

C45

9B21.5 GB126 tok/s1828K ctx

dense

starcoder2 15b instruct v0.1

C45

15B25.9 GB210 tok/s1064K ctx

dense

starcoder2 15b i1

C45

15B25.9 GB210 tok/s1064K ctx

dense

Gemma 2 2B

C45

2B17.8 GB28 tok/s8K ctx

dense

starcoder2 15b instruct v0.1

C45

15B25.9 GB210 tok/s1064K ctx

dense

Starling LM 7B

C45

7B21.2 GB98 tok/s8K ctx

dense

Meta Llama 3.1 8B Instruct

C45

8B20.8 GB112 tok/s2067K ctx

dense

Qwen3.5 9B

C45

9B21.5 GB126 tok/s1828K ctx

dense

GGUF SOLARized GraniStral 14B 2102 YeAM HCT 32QKV

C45

14B25.2 GB196 tok/s1146K ctx

dense

HelpingAI 15B i1

C45

15B25.9 GB210 tok/s1064K ctx

dense

llava llama 3 8b v1 1

C45

8B20.8 GB112 tok/s2067K ctx

dense

internlm JanusCoder 14B

C45

14B25.2 GB196 tok/s1146K ctx

dense

DeepSeek R1 0528 Qwen3 8B

C45

8B20.8 GB112 tok/s2067K ctx

dense

GGUF SOLARized GraniStral 14B 1902 YeAM HCT

C45

14B25.2 GB196 tok/s1146K ctx

dense

SOLAR 10.7B Instruct v1.0 uncensored

C45

10.7B22.8 GB150 tok/s1524K ctx

dense

Nous Hermes 2 SOLAR 10.7B

C45

10.7B22.8 GB150 tok/s1524K ctx

dense

Meta Llama 3 8B Instruct

C45

8B20.8 GB112 tok/s2067K ctx

dense

Llama 2 7B Chat

C45

7B20.1 GB98 tok/s2374K ctx

dense

DeepSeek R1 Distill Llama 8B

C45

8B20.8 GB112 tok/s2067K ctx

dense

Dolphin3.0 Llama3.1 8B

C45

8B20.8 GB112 tok/s2067K ctx

dense

Llama 3 8B Instruct 32k v0.1

C45

8B20.8 GB112 tok/s2067K ctx

dense

Yi Coder 9B Chat

C45

9B21.5 GB126 tok/s1828K ctx

dense

Mistral 7B Instruct v0.2

C45

7B20.1 GB98 tok/s2374K ctx

dense

Meta Llama 3.1 8B Instruct

C45

8B20.8 GB112 tok/s2067K ctx

dense

vntl llama3 8b v2

C45

8B20.8 GB112 tok/s2067K ctx

dense

glm 4 9b chat 1m

C45

9B21.5 GB126 tok/s1828K ctx

dense

DeepSeek R1 0528 Qwen3 8B

C45

8B20.8 GB112 tok/s2067K ctx

dense

Mistral 7B Instruct v0.3

C45

7B20.1 GB98 tok/s2374K ctx

dense

DeepSeek R1 0528 Qwen3 8B

C45

8B20.8 GB112 tok/s2067K ctx

dense

Qwen3 8B DeepSeek v3.2 Speciale Distill

C45

8B20.8 GB112 tok/s2067K ctx

dense

Qwen 2.5 Coder 0.5B

C45

0.5B15.5 GB7 tok/s131K ctx

dense

Hermes 3 Llama 3.1 8B

C45

8B20.8 GB112 tok/s2067K ctx

dense

Yi 1.5 9B Chat

C45

9B21.5 GB126 tok/s1828K ctx

dense

solar finalised finetuned Model 10.7B i1

C45

10.7B22.8 GB150 tok/s1524K ctx

dense

Hermes 2 Pro Llama 3 8B

C45

8B20.8 GB112 tok/s2067K ctx

dense

Dolphin3.0 Llama3.1 8B

C45

8B20.8 GB112 tok/s2067K ctx

dense

granite 8b code instruct 4k

C45

8B20.8 GB112 tok/s2067K ctx

dense

SOLAR 10.7B v1.0

C45

10.7B22.8 GB150 tok/s1524K ctx

dense

dolphin 2.9.4 llama3.1 8b

C45

8B20.8 GB112 tok/s2067K ctx

dense

Mistral 7B Instruct v0.3

C45

7B20.1 GB98 tok/s2374K ctx

dense

Hermes 2 Pro Mistral 7B

C45

7B20.1 GB98 tok/s2374K ctx

dense

zephyr 7B beta

C45

7B20.1 GB98 tok/s2374K ctx

dense

Nous Hermes 2 Mistral 7B DPO

C45

7B20.1 GB98 tok/s2374K ctx

dense

openchat 3.6 8b 20240522 IMat

C45

8B20.8 GB112 tok/s2067K ctx

dense

aya expanse 8b

C45

8B20.8 GB112 tok/s2067K ctx

dense

EXAONE 3.5 7.8B Instruct

C45

7.8B20.7 GB109 tok/s2122K ctx

dense

Falcon H1R 7B

C45

7B20.1 GB98 tok/s2374K ctx

dense

Yi 9B Coder i1

C45

9B21.5 GB126 tok/s1828K ctx

dense

dolphin v2 8b abliterated i1

C45

8B20.8 GB112 tok/s2067K ctx

dense

EXAONE 3.5 7.8B Instruct

C45

7.8B20.7 GB109 tok/s2122K ctx

dense

falcon mamba 7b instruct Q4 K M

C45

7B20.1 GB98 tok/s2374K ctx

dense

zephyr 7B alpha

C45

7B20.1 GB98 tok/s2374K ctx

dense

speechless zephyr code functionary 7b

C45

7B20.1 GB98 tok/s2374K ctx

dense

EXAONE 3.5 7.8B Instruct i1

C45

7.8B20.7 GB109 tok/s2122K ctx

dense

HelpingAI2.5 10B i1

C45

10B22.3 GB140 tok/s1637K ctx

dense

aya expanse 8b orthogonal heretic i1

C45

8B20.8 GB112 tok/s2067K ctx

dense

Helply 10.2b chat i1

C45

10.2B22.4 GB143 tok/s1603K ctx

dense

StarCoder2 7B

C45

7B20.1 GB98 tok/s2374K ctx

dense

exaone 3.0 7.8b it

C45

7.8B20.7 GB109 tok/s2122K ctx

dense

HelpingAI2 9B

C45

9B21.5 GB126 tok/s1828K ctx

dense

japanese stablelm instruct gamma 7B

C45

7B20.1 GB98 tok/s2374K ctx

dense

Falcon H1 7B Instruct

C45

7B20.1 GB98 tok/s2374K ctx

dense

Falcon H1R 7B

C45

7B20.1 GB98 tok/s2374K ctx

dense

HelpingAI2 9B i1

C45

9B21.5 GB126 tok/s1828K ctx

dense

HelpingAI 9B 200k i1

C45

9B21.5 GB126 tok/s1828K ctx

dense

aya expanse 8b orthogonal heretic

C45

8B20.8 GB112 tok/s2067K ctx

dense

Yi 1.5 6B Chat

C45

6B19.4 GB84 tok/s2784K ctx

dense

HelpingAI 9B i1

C45

9B21.5 GB126 tok/s1828K ctx

dense

Mamba Codestral 7B v0.1

C45

7B20.1 GB98 tok/s2374K ctx

dense

stablelm 2 zephyr 1 6b

C45

6B19.4 GB84 tok/s2784K ctx

dense

stabilityai japanese stablelm base gamma 7b

C45

7B20.1 GB98 tok/s2374K ctx

dense

internlm2 5 1 8b chat i1

C45

8B20.8 GB112 tok/s2067K ctx

dense

internlm3 8b instruct abliterated i1

C45

8B20.8 GB112 tok/s2067K ctx

dense

baichuan2 7b chat

C45

7B20.1 GB98 tok/s2374K ctx

dense

DiscoPOP zephyr 7b gemma

C45

7B20.1 GB98 tok/s2374K ctx

dense

starcoder2 7b

C44

7B20.1 GB98 tok/s2374K ctx

dense

zephyr 7b beta Mistral 7B Instruct v0.2

C44

7B20.1 GB98 tok/s2374K ctx

dense

OpenChat 3.5 7B Qwen v2.0 i1

C44

7B20.1 GB98 tok/s2374K ctx

dense

OpenChat 3.5 7B Starling v2.0 i1

C44

7B20.1 GB98 tok/s2374K ctx

dense

internlm2 math plus 7b IMat

C44

7B20.1 GB98 tok/s2374K ctx

dense

CodeNinja 1.0 OpenChat 7B i1

C44

7B20.1 GB98 tok/s2374K ctx

dense

internlm2 5 7b chat i1

C44

7B20.1 GB98 tok/s2374K ctx

dense

OpenSafetyLab MD Judge v0 2 internlm2 7b

C44

7B20.1 GB98 tok/s2374K ctx

dense

MD Judge v0 2 internlm2 7b i1

C44

7B20.1 GB98 tok/s2374K ctx

dense

zephyr 7b gemma sft african ultrachat 100k

C44

7B20.1 GB98 tok/s2374K ctx

dense

jointpreferences mistral 7b sft helpful

C44

7B20.1 GB98 tok/s2374K ctx

dense

Yi 1.5 6B

C44

6B19.6 GB84 tok/s4K ctx

dense

Yi 1.5 6B Chat

C44

6B19.4 GB84 tok/s2784K ctx

dense

zephyr 7b dpo full i1

C44

7B20.1 GB98 tok/s2374K ctx

dense

blossom v3 baichuan2 7b i1

C44

7B20.1 GB98 tok/s2374K ctx

dense

stablelm 2 1 6b chat imatrix

C44

6B19.4 GB84 tok/s2784K ctx

dense

blossom v1 baichuan 7b i1

C44

7B20.1 GB98 tok/s2374K ctx

dense

Neural Chat 7B

C44

7B21.2 GB98 tok/s8K ctx

dense

DeepSeek LLM 7B

C44

7B26.6 GB98 tok/s4K ctx

dense

HelpingAI2 6B

C44

6B19.4 GB84 tok/s2784K ctx

dense

StarCoder2 7B

C44

7B19.8 GB98 tok/s16K ctx

dense

HelpingAI2 6B i1

C44

6B19.4 GB84 tok/s2784K ctx

dense

Nemotron Mini 4B

C44

4B19.4 GB56 tok/s4K ctx

dense

HelpingAI2.5 5B i1

C43

5B18.6 GB70 tok/s3357K ctx

dense

Qwen3.5 4B

C43

4B17.9 GB56 tok/s4218K ctx

dense

gemma 3 4b it

C43

4B17.9 GB56 tok/s4218K ctx

dense

gemma 3 4b it

C43

4B17.9 GB56 tok/s4218K ctx

dense

Qwen 3 0.6B

C43

0.6B16.2 GB8 tok/s33K ctx

dense

Llama 3.2 1B

C43

1B16.1 GB14 tok/s128K ctx

dense

Llama 3.2 3B Instruct

C42

3B17.5 GB42 tok/s5636K ctx

dense

Qwen2.5 3B Instruct

C42

3B17.2 GB42 tok/s5651K ctx

dense

Llama 3.2 3B Instruct

C42

3B17.2 GB42 tok/s5651K ctx

dense

Ministral 3 3B Instruct 2512

C42

3B17.2 GB42 tok/s5651K ctx

dense

HELVETE 3B

C42

3B17.2 GB42 tok/s5651K ctx

dense

Hermes 3 Llama 3.2 3B

C42

3B17.2 GB42 tok/s5651K ctx

dense

stablelm zephyr 3b

C42

3B17.2 GB42 tok/s5651K ctx

dense

StarCoder2 3B

C42

3B17.2 GB42 tok/s5651K ctx

dense

AI21 Jamba Reasoning 3B

C42

3B17.2 GB42 tok/s5651K ctx

dense

stablelm 3b 4e1t

C42

3B17.2 GB42 tok/s5651K ctx

dense

ai21labs AI21 Jamba Reasoning 3B

C42

3B17.2 GB42 tok/s5651K ctx

dense

ai21labs AI21 Jamba2 3B

C42

3B17.2 GB42 tok/s5651K ctx

dense

HelpingAI 3B hindi i1

C41

3B17.2 GB42 tok/s5651K ctx

dense

AI21 Jamba2 3B

C41

3B17.2 GB42 tok/s5651K ctx

dense

HelpingAI 3B hindi

C41

3B17.2 GB42 tok/s5651K ctx

dense

AI21 Jamba2 3B i1

C41

3B17.2 GB42 tok/s5651K ctx

dense

EXAONE 3.5 2.4B Instruct

C41

2.4B16.7 GB34 tok/s7085K ctx

dense

gemma 2 2b it

C41

2B16.9 GB28 tok/s8490K ctx

dense

gemma 2b

C41

2B16.5 GB28 tok/s8518K ctx

dense

Gemmasutra Mini 2B v1

C41

2B16.5 GB28 tok/s8518K ctx

dense

Qwen 3.5 0.6B

C41

0.6B16.2 GB8 tok/s131K ctx

dense

gemma 2 2b it

C41

2B16.5 GB28 tok/s8518K ctx

dense

StarCoder2 3B

C41

3B17.3 GB42 tok/s16K ctx

dense

F Tier -- Can't Run (43 models)

Too heavy for this hardware.

Qwen2.5 1.5B Instruct

D40

1.5B16.1 GB21 tok/s11386K ctx

dense

DeepSeek R1 Distill Qwen 1.5B

D40

1.5B16.1 GB21 tok/s11386K ctx

dense

Yi Coder 1.5B Chat

D40

1.5B16.1 GB21 tok/s11386K ctx

dense

stablelm 2 zephyr 1.6b

D39

1.6B16.2 GB22 tok/s10669K ctx

dense

logos16v2 stablelm2 1.6b i1

D39

1.6B16.2 GB22 tok/s10669K ctx

dense

Yi Coder 1.5B

D39

1.5B16.1 GB21 tok/s11386K ctx

dense

Falcon H1 1.5B Instruct

D39

1.5B16.1 GB21 tok/s11386K ctx

dense

TinyLlama 1.1B Chat v1.0

D39

1.1B15.8 GB15 tok/s15556K ctx

dense

Qwen 2.5 0.5B

D39

0.5B15.5 GB7 tok/s131K ctx

dense

EXAONE 4.0 1.2B

D39

1.2B15.9 GB17 tok/s14253K ctx

dense

Llama 3.2 1B Instruct Q8 0

D39

1B15.9 GB14 tok/s17091K ctx

dense

TinyLlama 1.1B Chat v0.3

D39

1.1B15.8 GB15 tok/s15556K ctx

dense

TinyLlama 1.1B Chat v0.6

D39

1.1B15.8 GB15 tok/s15556K ctx

dense

Llama 3.2 1B Instruct

D38

1B15.7 GB14 tok/s17120K ctx

dense

gemma 3 1b it

D38

1B15.7 GB14 tok/s17120K ctx

dense

TinyLlama 1.1B Chat v1.0 imatrix

D38

1.1B15.8 GB15 tok/s15556K ctx

dense

Falcon3 1B Instruct abliterated

D38

1B15.7 GB14 tok/s17120K ctx

dense

SmolVLM 500M Instruct

D36

0.5B15.5 GB7 tok/s20094K ctx

dense

embeddinggemma 300M

D35

0.3B15.3 GB4 tok/s20121K ctx

dense

granite embedding 107m multilingual

D33

0.11B15.2 GB2 tok/s20150K ctx

dense

Falcon H1 Tiny 90M Instruct

D33

0.09B15.2 GB2 tok/s20151K ctx

dense

Qwen3-Coder 480B A35B Instruct

480B310.7 GB6 tok/s4K ctx

moe

Qwen 3.5 397B A17B

397B260.0 GB12 tok/s4K ctx

moe

Mistral Large 3

675B432.1 GB5 tok/s4K ctx

moe

GLM-5

744B487.9 GB4 tok/s4K ctx

moe

GLM-5.1

754B494.0 GB4 tok/s4K ctx

moe

Kimi K2.5

1000B632.4 GB3 tok/s4K ctx

moe

Kimi K2.6

1000B632.4 GB3 tok/s4K ctx

moe

DeepSeek V3 671B

671B483.9 GB4 tok/s4K ctx

moe

DeepSeek V3.1 671B

671B483.9 GB4 tok/s4K ctx

moe

DeepSeek V4 Pro

1600B878.9 GB2 tok/s4K ctx

moe

DeepSeek V4 Flash

284B174.3 GB43 tok/s4K ctx

moe

DeepSeek R1 671B

671B483.9 GB4 tok/s4K ctx

moe

DeepSeek Coder V2 236B

236B217.6 GB24 tok/s4K ctx

moe

DeepSeek V2.5 236B

236B217.6 GB24 tok/s4K ctx

moe

Llama 4 Maverick 17B 128E

400B261.9 GB12 tok/s4K ctx

moe

Llama 3.1 405B

405B269.7 GB4 tok/s4K ctx

dense

DeepSeek V3.2

671B424.8 GB5 tok/s4K ctx

moe

GLM-5.2

753.3B493.6 GB4 tok/s4K ctx

moe

K EXAONE 236B A23B

236B186.6 GB12 tok/s4K ctx

dense

Baichuan M3 235B

235B185.9 GB12 tok/s4K ctx

dense

Baichuan M3 235B i1

235B185.9 GB12 tok/s4K ctx

dense

Qwen3.5 397B A17B

397B303.7 GB3 tok/s4K ctx

dense

Compare with...

See How Other Hardware Stacks Up

Check tier lists for similar GPUs and Apple Silicon configs

NVIDIA H200 141GB

141 GB VRAM

View tier list

AMD Instinct MI250X 128GB

128 GB VRAM

View tier list

AMD Instinct MI300A 128GB

128 GB VRAM

View tier list

Intel Data Center GPU Max 1550 128GB

128 GB VRAM

View tier list

Full NVIDIA H200 PCIe 141GB page Compare this hardware