郭震 AI公众号:郭震AI
返回 AI 小工具合集

AI Calculator

本地开源大模型适配器

输入电脑内存/显存、量化和用途,筛出常见本地开放权重大模型中哪些能跑、哪些勉强、哪些不建议。

适合:Ollama、LM Studio、llama.cpp、MLX、vLLM、本地开源模型选型

模型名称和参数量来自官方模型卡或项目文档。能否运行由本工具按参数量、量化、上下文和运行开销估算,不是厂商保证。

内置模型
60
常见开放权重版本
可运行
56
优先家族
Qwen3
量化
4-bit / Q4

推荐候选

Qwen3 30B-A3B MoE
19.3 GB
显存内可跑
Qwen3 4B
3.0 GB
显存内可跑
Gemma 3 4B
3.0 GB
显存内可跑
Phi-4-mini 3.8B
2.9 GB
显存内可跑
Llama 3.2 3B Instruct
2.4 GB
显存内可跑
模型参数上下文估算占用结论适合来源
Qwen3 30B-A3B MoE
MoE 模型,加载看总参数,速度更接近激活参数。
30B / A3B256K
19.3 GB
W 17.4 / KV 0.3
显存内可跑
通用聊天推理/数学中文优先
Qwen3 GitHub
Apache 2.0 / model card terms
Qwen3 4B
低显存中文和推理入门档。
4B32K
3.0 GB
W 2.3 / KV 0.3
显存内可跑
通用聊天推理/数学中文优先
Qwen3 GitHub
Apache 2.0 / model card terms
Gemma 3 4B
4B 以上 Gemma 3 支持多模态能力,文本使用更省资源。
4B128K
3.0 GB
W 2.3 / KV 0.3
显存内可跑
通用聊天图文多模态低配置/端侧
Google Gemma 3 model card
Gemma Terms of Use
Phi-4-mini 3.8B
小尺寸推理模型,适合低延迟和学习场景。
3.8B128K
2.9 GB
W 2.2 / KV 0.3
显存内可跑
推理/数学低配置/端侧
Microsoft Phi-4 models
MIT
Llama 3.2 3B Instruct
低门槛本地聊天模型,适合轻量助手。
3B128K
2.4 GB
W 1.7 / KV 0.3
显存内可跑
通用聊天低配置/端侧
Meta Llama 3.2
Llama 3.2 Community License
Qwen2.5 3B Instruct
低显存下比 1B 档更稳。
3B32K
2.4 GB
W 1.7 / KV 0.3
显存内可跑
通用聊天中文优先
Qwen2.5 LLM
Apache 2.0
Qwen2.5-Coder 3B
3B 代码模型,使用前注意许可证。
3B32K
2.4 GB
W 1.7 / KV 0.3
显存内可跑
写代码
Qwen2.5-Coder
Qwen-Research
StarCoder2 3B
小型代码生成模型。
3B16K
2.4 GB
W 1.7 / KV 0.3
显存内可跑
写代码低配置/端侧
StarCoder2 paper
OpenRAIL-M
InternLM2.5 1.8B Chat
轻量中文开放模型。
1.8B32K
1.7 GB
W 1.0 / KV 0.3
显存内可跑
通用聊天中文优先低配置/端侧
InternLM GitHub
Apache 2.0 / model card terms
Qwen3 1.7B
适合轻量中文问答和简单任务。
1.7B32K
1.7 GB
W 1.0 / KV 0.3
显存内可跑
通用聊天中文优先低配置/端侧
Qwen3 GitHub
Apache 2.0 / model card terms
Qwen2.5 1.5B Instruct
适合低配置中文助手和简单摘要。
1.5B32K
1.6 GB
W 0.9 / KV 0.3
显存内可跑
通用聊天中文优先低配置/端侧
Qwen2.5 LLM
Apache 2.0
Qwen2.5-Coder 1.5B
轻量代码生成和解释。
1.5B32K
1.6 GB
W 0.9 / KV 0.3
显存内可跑
写代码低配置/端侧
Qwen2.5-Coder
Apache 2.0 / Qwen-Research for 3B
DeepSeek-R1-Distill-Qwen 1.5B
小型蒸馏推理模型,适合低配置体验思维链风格。
1.5B128K
1.6 GB
W 0.9 / KV 0.3
显存内可跑
推理/数学中文优先低配置/端侧
DeepSeek-R1 GitHub
MIT / base model terms
Llama 3.2 1B Instruct
轻量文本模型,适合低内存设备和快速问答。
1B128K
1.3 GB
W 0.6 / KV 0.3
显存内可跑
通用聊天低配置/端侧
Meta Llama 3.2
Llama 3.2 Community License
Gemma 3 1B
Google 小尺寸开放权重模型,适合轻量任务。
1B32K
1.3 GB
W 0.6 / KV 0.3
显存内可跑
通用聊天低配置/端侧
Google Gemma 3 model card
Gemma Terms of Use
Qwen3 0.6B
超小中文友好模型,适合低配置设备尝试。
0.6B32K
1.0 GB
W 0.3 / KV 0.3
显存内可跑
通用聊天中文优先低配置/端侧
Qwen3 GitHub
Apache 2.0 / model card terms
Qwen2.5 0.5B Instruct
极低门槛中文轻量模型。
0.5B32K
1.0 GB
W 0.3 / KV 0.3
显存内可跑
通用聊天中文优先低配置/端侧
Qwen2.5 LLM
Apache 2.0
Qwen2.5-Coder 0.5B
极小代码模型,适合低成本补全实验。
0.5B32K
1.0 GB
W 0.3 / KV 0.3
显存内可跑
写代码低配置/端侧
Qwen2.5-Coder
Apache 2.0 / Qwen-Research for 3B
Llama 3.1 8B Instruct
经典 8B 档通用模型,生态和量化版本丰富。
8B128K
5.3 GB
W 4.6 / KV 0.3
显存内可跑
通用聊天知识库/RAG
Meta Llama 3.1
Llama 3.1 Community License
Qwen3 8B
常见单卡本地中文模型选择。
8B32K
5.3 GB
W 4.6 / KV 0.3
显存内可跑
通用聊天推理/数学中文优先
Qwen3 GitHub
Apache 2.0 / model card terms
DeepSeek-R1-Distill-Llama 8B
基于 Llama 的 8B 蒸馏推理模型。
8B128K
5.3 GB
W 4.6 / KV 0.3
显存内可跑
推理/数学
DeepSeek-R1 GitHub
MIT / base model terms
Qwen2.5 7B Instruct
中文本地部署常用 7B 档。
7B128K
4.8 GB
W 4.1 / KV 0.3
显存内可跑
通用聊天中文优先知识库/RAG
Qwen2.5 LLM
Apache 2.0
Qwen2.5-Coder 7B
常见代码本地模型,低门槛实用。
7B128K
4.8 GB
W 4.1 / KV 0.3
显存内可跑
写代码中文优先
Qwen2.5-Coder
Apache 2.0
DeepSeek-R1-Distill-Qwen 7B
常见本地推理入门模型。
7B128K
4.8 GB
W 4.1 / KV 0.3
显存内可跑
推理/数学中文优先
DeepSeek-R1 GitHub
MIT / base model terms
Mistral 7B Instruct
经典 7B 开放模型,生态成熟。
7B32K
4.8 GB
W 4.1 / KV 0.3
显存内可跑
通用聊天写代码
Mistral 7B docs
Apache 2.0
Code Llama 7B Instruct
经典代码模型,适合兼容旧工具链。
7B16K
4.8 GB
W 4.1 / KV 0.3
显存内可跑
写代码
Code Llama paper
Llama 2 Community License
StarCoder2 7B
代码补全和生成常见选择。
7B16K
4.8 GB
W 4.1 / KV 0.3
显存内可跑
写代码
StarCoder2 paper
OpenRAIL-M
InternLM2.5 7B Chat
常见中文 7B 档模型。
7B32K
4.8 GB
W 4.1 / KV 0.3
显存内可跑
通用聊天中文优先
InternLM GitHub
Apache 2.0 / model card terms
Yi-1.5 6B Chat
Yi-1.5 小尺寸模型,中文用户常见。
6B32K
4.2 GB
W 3.5 / KV 0.3
显存内可跑
通用聊天中文优先
Yi-1.5 GitHub
Yi License / model card terms
Qwen3 14B
中档质量和本地成本较平衡。
14B32K
9.2 GB
W 8.1 / KV 0.4
显存内可跑
通用聊天推理/数学中文优先
Qwen3 GitHub
Apache 2.0 / model card terms
Qwen2.5 14B Instruct
中文质量和成本均衡,适合 16GB 以上显存优先试。
14B128K
9.2 GB
W 8.1 / KV 0.4
显存内可跑
通用聊天中文优先知识库/RAG
Qwen2.5 LLM
Apache 2.0
Qwen2.5-Coder 14B
代码生成、解释和改错的中档选择。
14B128K
9.2 GB
W 8.1 / KV 0.4
显存内可跑
写代码中文优先
Qwen2.5-Coder
Apache 2.0
DeepSeek-R1-Distill-Qwen 14B
推理质量比小模型更稳,适合 16GB 以上显存尝试。
14B128K
9.2 GB
W 8.1 / KV 0.4
显存内可跑
推理/数学中文优先
DeepSeek-R1 GitHub
MIT / base model terms
Phi-4 14B
14B 小模型家族里常见的数学/推理选择。
14B16K
9.2 GB
W 8.1 / KV 0.4
显存内可跑
推理/数学写代码
Microsoft Phi-4 model card
MIT
Code Llama 13B Instruct
13B 代码模型,已有大量量化版本。
13B16K
8.6 GB
W 7.5 / KV 0.3
显存内可跑
写代码
Code Llama paper
Llama 2 Community License
Gemma 3 12B
中档 Gemma 3,适合视觉/文本混合任务尝试。
12B128K
7.9 GB
W 7.0 / KV 0.3
显存内可跑
通用聊天图文多模态
Google Gemma 3 model card
Gemma Terms of Use
Mistral NeMo 12B
12B 多语言开放模型,长上下文友好。
12B128K
7.9 GB
W 7.0 / KV 0.3
显存内可跑
通用聊天知识库/RAG
Mistral NeMo
Apache 2.0
GLM-4 9B Chat
中文生态常见 9B 模型,有长上下文变体。
9B128K
6.0 GB
W 5.2 / KV 0.3
显存内可跑
通用聊天中文优先知识库/RAG
GLM Transformers docs
GLM license / model card terms
Yi-1.5 9B Chat
9B 中文/英文通用模型。
9B32K
6.0 GB
W 5.2 / KV 0.3
显存内可跑
通用聊天中文优先
Yi-1.5 GitHub
Yi License / model card terms
Qwen3 32B
高质量单机/工作站常见选择,显存要求明显上升。
32B32K
21.1 GB
W 18.6 / KV 0.8
显存内可跑
通用聊天推理/数学中文优先写代码
Qwen3 GitHub
Apache 2.0 / model card terms
Qwen2.5 32B Instruct
32B 档通用能力强,适合工作站。
32B128K
21.1 GB
W 18.6 / KV 0.8
显存内可跑
通用聊天中文优先写代码知识库/RAG
Qwen2.5 LLM
Apache 2.0
Qwen2.5-Coder 32B
常见高质量本地代码模型,需要较强显存。
32B128K
21.1 GB
W 18.6 / KV 0.8
显存内可跑
写代码中文优先
Qwen2.5-Coder
Apache 2.0
DeepSeek-R1-Distill-Qwen 32B
本地推理常见高质量档,需要工作站显存。
32B128K
21.1 GB
W 18.6 / KV 0.8
显存内可跑
推理/数学中文优先写代码
DeepSeek-R1 GitHub
MIT / base model terms
Gemma 3 27B
Gemma 3 高质量档,24GB 显存需看量化和上下文。
27B128K
17.8 GB
W 15.7 / KV 0.7
显存内可跑
通用聊天图文多模态推理/数学
Google Gemma 3 model card
Gemma Terms of Use
Mistral Small 3.1 24B
24B 开放模型,适合中高端单机尝试。
24B128K
15.8 GB
W 13.9 / KV 0.6
显存内可跑
通用聊天图文多模态知识库/RAG
Mistral Small 3.1
Apache 2.0
Devstral Small 24B
面向代码库探索和软件工程 Agent 的 24B 模型。
24B128K
15.8 GB
W 13.9 / KV 0.6
显存内可跑
写代码
Devstral Small docs
Apache 2.0
InternLM2.5 20B Chat
20B 中文模型,适合中高端本地机器。
20B32K
13.2 GB
W 11.6 / KV 0.5
显存内可跑
通用聊天中文优先
InternLM GitHub
Apache 2.0 / model card terms
StarCoder2 15B
StarCoder2 最大公开尺寸,适合代码任务。
15B16K
9.9 GB
W 8.7 / KV 0.4
显存内可跑
写代码
StarCoder2 paper
OpenRAIL-M
Mixtral 8x7B
MoE 模型,加载按总参数估算,推理速度看激活参数。
47B / A13B32K
30.2 GB
W 27.3 / KV 0.3
需要 offload
通用聊天写代码
Mixtral 8x7B docs
Apache 2.0
Qwen2.5 72B Instruct
高质量大模型,普通单卡通常需要强量化或 offload。
72B128K
47.5 GB
W 41.8 / KV 1.8
需要 offload
通用聊天中文优先知识库/RAG
Qwen2.5 LLM
Qwen license / model card terms
Llama 3.1 70B Instruct
高质量通用模型,通常需要大显存或多卡/CPU offload。
70B128K
46.2 GB
W 40.6 / KV 1.8
需要 offload
通用聊天知识库/RAG
Meta Llama 3.1
Llama 3.1 Community License
Llama 3.3 70B Instruct
70B 档通用模型,适合高质量聊天和推理。
70B128K
46.2 GB
W 40.6 / KV 1.8
需要 offload
通用聊天推理/数学
Meta Llama 3.3 model card
Llama 3.3 Community License
DeepSeek-R1-Distill-Llama 70B
大尺寸推理蒸馏模型,通常需要大显存或多卡。
70B128K
46.2 GB
W 40.6 / KV 1.8
需要 offload
推理/数学
DeepSeek-R1 GitHub
MIT / base model terms
Code Llama 70B Instruct
70B 代码模型,普通个人电脑不推荐。
70B16K
46.2 GB
W 40.6 / KV 1.8
需要 offload
写代码
Code Llama paper
Llama 2 Community License
Code Llama 34B Instruct
较大代码模型,适合高显存环境。
34B16K
22.4 GB
W 19.7 / KV 0.9
需要 offload
写代码
Code Llama paper
Llama 2 Community License
Yi-1.5 34B Chat
Yi-1.5 大尺寸模型,需要较高显存。
34B32K
22.4 GB
W 19.7 / KV 0.9
需要 offload
通用聊天中文优先
Yi-1.5 GitHub
Yi License / model card terms
DeepSeek-R1 671B MoE
完整 R1 需要加载 671B 总参数,个人电脑通常不适合。
671B / A37B128K
427.0 GB
W 389.2 / KV 0.9
不建议
推理/数学中文优先写代码
DeepSeek-R1 GitHub
MIT / model card terms
Llama 3.1 405B Instruct
旗舰级开放权重模型,普通个人电脑不适合本地加载。
405B128K
267.3 GB
W 234.9 / KV 10.1
不建议
通用聊天推理/数学
Meta Llama 3.1
Llama 3.1 Community License
Qwen3 235B-A22B MoE
旗舰 MoE,通常属于服务器或多卡工作站范围。
235B / A22B256K
149.8 GB
W 136.3 / KV 0.6
不建议
通用聊天推理/数学中文优先
Qwen3 GitHub
Apache 2.0 / model card terms
Mixtral 8x22B
大型 MoE,通常需要服务器级内存/显存。
141B / A39B64K
90.5 GB
W 81.8 / KV 1.0
不建议
通用聊天写代码
Mistral Mixtral 8x22B
Apache 2.0