AI Calculator

本地开源大模型适配器

输入电脑内存/显存、量化和用途，筛出常见本地开放权重大模型中哪些能跑、哪些勉强、哪些不建议。

适合：Ollama、LM Studio、llama.cpp、MLX、vLLM、本地开源模型选型

模型名称和参数量来自官方模型卡或项目文档。能否运行由本工具按参数量、量化、上下文和运行开销估算，不是厂商保证。

电脑类型显存 GB系统/统一内存 GB量化方式目标上下文 K tokens8 表示约 8,000 tokens。用途筛选

显存不够时允许 CPU/RAM offload（能跑但会慢）

内置模型

常见开放权重版本

可运行

优先家族

Qwen3

量化

4-bit / Q4

推荐候选

Qwen3 30B-A3B MoE

19.3 GB

显存内可跑

Qwen3 4B

3.0 GB

显存内可跑

Gemma 3 4B

3.0 GB

显存内可跑

Phi-4-mini 3.8B

2.9 GB

显存内可跑

Llama 3.2 3B Instruct

2.4 GB

显存内可跑

模型	参数	上下文	估算占用	结论	适合	来源
Qwen3 30B-A3B MoE MoE 模型，加载看总参数，速度更接近激活参数。	30B / A3B	256K	19.3 GB W 17.4 / KV 0.3	显存内可跑	通用聊天推理/数学中文优先	Qwen3 GitHub Apache 2.0 / model card terms
Qwen3 4B 低显存中文和推理入门档。	4B	32K	3.0 GB W 2.3 / KV 0.3	显存内可跑	通用聊天推理/数学中文优先	Qwen3 GitHub Apache 2.0 / model card terms
Gemma 3 4B 4B 以上 Gemma 3 支持多模态能力，文本使用更省资源。	4B	128K	3.0 GB W 2.3 / KV 0.3	显存内可跑	通用聊天图文多模态低配置/端侧	Google Gemma 3 model card Gemma Terms of Use
Phi-4-mini 3.8B 小尺寸推理模型，适合低延迟和学习场景。	3.8B	128K	2.9 GB W 2.2 / KV 0.3	显存内可跑	推理/数学低配置/端侧	Microsoft Phi-4 models MIT
Llama 3.2 3B Instruct 低门槛本地聊天模型，适合轻量助手。	3B	128K	2.4 GB W 1.7 / KV 0.3	显存内可跑	通用聊天低配置/端侧	Meta Llama 3.2 Llama 3.2 Community License
Qwen2.5 3B Instruct 低显存下比 1B 档更稳。	3B	32K	2.4 GB W 1.7 / KV 0.3	显存内可跑	通用聊天中文优先	Qwen2.5 LLM Apache 2.0
Qwen2.5-Coder 3B 3B 代码模型，使用前注意许可证。	3B	32K	2.4 GB W 1.7 / KV 0.3	显存内可跑	写代码	Qwen2.5-Coder Qwen-Research
StarCoder2 3B 小型代码生成模型。	3B	16K	2.4 GB W 1.7 / KV 0.3	显存内可跑	写代码低配置/端侧	StarCoder2 paper OpenRAIL-M
InternLM2.5 1.8B Chat 轻量中文开放模型。	1.8B	32K	1.7 GB W 1.0 / KV 0.3	显存内可跑	通用聊天中文优先低配置/端侧	InternLM GitHub Apache 2.0 / model card terms
Qwen3 1.7B 适合轻量中文问答和简单任务。	1.7B	32K	1.7 GB W 1.0 / KV 0.3	显存内可跑	通用聊天中文优先低配置/端侧	Qwen3 GitHub Apache 2.0 / model card terms
Qwen2.5 1.5B Instruct 适合低配置中文助手和简单摘要。	1.5B	32K	1.6 GB W 0.9 / KV 0.3	显存内可跑	通用聊天中文优先低配置/端侧	Qwen2.5 LLM Apache 2.0
Qwen2.5-Coder 1.5B 轻量代码生成和解释。	1.5B	32K	1.6 GB W 0.9 / KV 0.3	显存内可跑	写代码低配置/端侧	Qwen2.5-Coder Apache 2.0 / Qwen-Research for 3B
DeepSeek-R1-Distill-Qwen 1.5B 小型蒸馏推理模型，适合低配置体验思维链风格。	1.5B	128K	1.6 GB W 0.9 / KV 0.3	显存内可跑	推理/数学中文优先低配置/端侧	DeepSeek-R1 GitHub MIT / base model terms
Llama 3.2 1B Instruct 轻量文本模型，适合低内存设备和快速问答。	1B	128K	1.3 GB W 0.6 / KV 0.3	显存内可跑	通用聊天低配置/端侧	Meta Llama 3.2 Llama 3.2 Community License
Gemma 3 1B Google 小尺寸开放权重模型，适合轻量任务。	1B	32K	1.3 GB W 0.6 / KV 0.3	显存内可跑	通用聊天低配置/端侧	Google Gemma 3 model card Gemma Terms of Use
Qwen3 0.6B 超小中文友好模型，适合低配置设备尝试。	0.6B	32K	1.0 GB W 0.3 / KV 0.3	显存内可跑	通用聊天中文优先低配置/端侧	Qwen3 GitHub Apache 2.0 / model card terms
Qwen2.5 0.5B Instruct 极低门槛中文轻量模型。	0.5B	32K	1.0 GB W 0.3 / KV 0.3	显存内可跑	通用聊天中文优先低配置/端侧	Qwen2.5 LLM Apache 2.0
Qwen2.5-Coder 0.5B 极小代码模型，适合低成本补全实验。	0.5B	32K	1.0 GB W 0.3 / KV 0.3	显存内可跑	写代码低配置/端侧	Qwen2.5-Coder Apache 2.0 / Qwen-Research for 3B
Llama 3.1 8B Instruct 经典 8B 档通用模型，生态和量化版本丰富。	8B	128K	5.3 GB W 4.6 / KV 0.3	显存内可跑	通用聊天知识库/RAG	Meta Llama 3.1 Llama 3.1 Community License
Qwen3 8B 常见单卡本地中文模型选择。	8B	32K	5.3 GB W 4.6 / KV 0.3	显存内可跑	通用聊天推理/数学中文优先	Qwen3 GitHub Apache 2.0 / model card terms
DeepSeek-R1-Distill-Llama 8B 基于 Llama 的 8B 蒸馏推理模型。	8B	128K	5.3 GB W 4.6 / KV 0.3	显存内可跑	推理/数学	DeepSeek-R1 GitHub MIT / base model terms
Qwen2.5 7B Instruct 中文本地部署常用 7B 档。	7B	128K	4.8 GB W 4.1 / KV 0.3	显存内可跑	通用聊天中文优先知识库/RAG	Qwen2.5 LLM Apache 2.0
Qwen2.5-Coder 7B 常见代码本地模型，低门槛实用。	7B	128K	4.8 GB W 4.1 / KV 0.3	显存内可跑	写代码中文优先	Qwen2.5-Coder Apache 2.0
DeepSeek-R1-Distill-Qwen 7B 常见本地推理入门模型。	7B	128K	4.8 GB W 4.1 / KV 0.3	显存内可跑	推理/数学中文优先	DeepSeek-R1 GitHub MIT / base model terms
Mistral 7B Instruct 经典 7B 开放模型，生态成熟。	7B	32K	4.8 GB W 4.1 / KV 0.3	显存内可跑	通用聊天写代码	Mistral 7B docs Apache 2.0
Code Llama 7B Instruct 经典代码模型，适合兼容旧工具链。	7B	16K	4.8 GB W 4.1 / KV 0.3	显存内可跑	写代码	Code Llama paper Llama 2 Community License
StarCoder2 7B 代码补全和生成常见选择。	7B	16K	4.8 GB W 4.1 / KV 0.3	显存内可跑	写代码	StarCoder2 paper OpenRAIL-M
InternLM2.5 7B Chat 常见中文 7B 档模型。	7B	32K	4.8 GB W 4.1 / KV 0.3	显存内可跑	通用聊天中文优先	InternLM GitHub Apache 2.0 / model card terms
Yi-1.5 6B Chat Yi-1.5 小尺寸模型，中文用户常见。	6B	32K	4.2 GB W 3.5 / KV 0.3	显存内可跑	通用聊天中文优先	Yi-1.5 GitHub Yi License / model card terms
Qwen3 14B 中档质量和本地成本较平衡。	14B	32K	9.2 GB W 8.1 / KV 0.4	显存内可跑	通用聊天推理/数学中文优先	Qwen3 GitHub Apache 2.0 / model card terms
Qwen2.5 14B Instruct 中文质量和成本均衡，适合 16GB 以上显存优先试。	14B	128K	9.2 GB W 8.1 / KV 0.4	显存内可跑	通用聊天中文优先知识库/RAG	Qwen2.5 LLM Apache 2.0
Qwen2.5-Coder 14B 代码生成、解释和改错的中档选择。	14B	128K	9.2 GB W 8.1 / KV 0.4	显存内可跑	写代码中文优先	Qwen2.5-Coder Apache 2.0
DeepSeek-R1-Distill-Qwen 14B 推理质量比小模型更稳，适合 16GB 以上显存尝试。	14B	128K	9.2 GB W 8.1 / KV 0.4	显存内可跑	推理/数学中文优先	DeepSeek-R1 GitHub MIT / base model terms
Phi-4 14B 14B 小模型家族里常见的数学/推理选择。	14B	16K	9.2 GB W 8.1 / KV 0.4	显存内可跑	推理/数学写代码	Microsoft Phi-4 model card MIT
Code Llama 13B Instruct 13B 代码模型，已有大量量化版本。	13B	16K	8.6 GB W 7.5 / KV 0.3	显存内可跑	写代码	Code Llama paper Llama 2 Community License
Gemma 3 12B 中档 Gemma 3，适合视觉/文本混合任务尝试。	12B	128K	7.9 GB W 7.0 / KV 0.3	显存内可跑	通用聊天图文多模态	Google Gemma 3 model card Gemma Terms of Use
Mistral NeMo 12B 12B 多语言开放模型，长上下文友好。	12B	128K	7.9 GB W 7.0 / KV 0.3	显存内可跑	通用聊天知识库/RAG	Mistral NeMo Apache 2.0
GLM-4 9B Chat 中文生态常见 9B 模型，有长上下文变体。	9B	128K	6.0 GB W 5.2 / KV 0.3	显存内可跑	通用聊天中文优先知识库/RAG	GLM Transformers docs GLM license / model card terms
Yi-1.5 9B Chat 9B 中文/英文通用模型。	9B	32K	6.0 GB W 5.2 / KV 0.3	显存内可跑	通用聊天中文优先	Yi-1.5 GitHub Yi License / model card terms
Qwen3 32B 高质量单机/工作站常见选择，显存要求明显上升。	32B	32K	21.1 GB W 18.6 / KV 0.8	显存内可跑	通用聊天推理/数学中文优先写代码	Qwen3 GitHub Apache 2.0 / model card terms
Qwen2.5 32B Instruct 32B 档通用能力强，适合工作站。	32B	128K	21.1 GB W 18.6 / KV 0.8	显存内可跑	通用聊天中文优先写代码知识库/RAG	Qwen2.5 LLM Apache 2.0
Qwen2.5-Coder 32B 常见高质量本地代码模型，需要较强显存。	32B	128K	21.1 GB W 18.6 / KV 0.8	显存内可跑	写代码中文优先	Qwen2.5-Coder Apache 2.0
DeepSeek-R1-Distill-Qwen 32B 本地推理常见高质量档，需要工作站显存。	32B	128K	21.1 GB W 18.6 / KV 0.8	显存内可跑	推理/数学中文优先写代码	DeepSeek-R1 GitHub MIT / base model terms
Gemma 3 27B Gemma 3 高质量档，24GB 显存需看量化和上下文。	27B	128K	17.8 GB W 15.7 / KV 0.7	显存内可跑	通用聊天图文多模态推理/数学	Google Gemma 3 model card Gemma Terms of Use
Mistral Small 3.1 24B 24B 开放模型，适合中高端单机尝试。	24B	128K	15.8 GB W 13.9 / KV 0.6	显存内可跑	通用聊天图文多模态知识库/RAG	Mistral Small 3.1 Apache 2.0
Devstral Small 24B 面向代码库探索和软件工程 Agent 的 24B 模型。	24B	128K	15.8 GB W 13.9 / KV 0.6	显存内可跑	写代码	Devstral Small docs Apache 2.0
InternLM2.5 20B Chat 20B 中文模型，适合中高端本地机器。	20B	32K	13.2 GB W 11.6 / KV 0.5	显存内可跑	通用聊天中文优先	InternLM GitHub Apache 2.0 / model card terms
StarCoder2 15B StarCoder2 最大公开尺寸，适合代码任务。	15B	16K	9.9 GB W 8.7 / KV 0.4	显存内可跑	写代码	StarCoder2 paper OpenRAIL-M
Mixtral 8x7B MoE 模型，加载按总参数估算，推理速度看激活参数。	47B / A13B	32K	30.2 GB W 27.3 / KV 0.3	需要 offload	通用聊天写代码	Mixtral 8x7B docs Apache 2.0
Qwen2.5 72B Instruct 高质量大模型，普通单卡通常需要强量化或 offload。	72B	128K	47.5 GB W 41.8 / KV 1.8	需要 offload	通用聊天中文优先知识库/RAG	Qwen2.5 LLM Qwen license / model card terms
Llama 3.1 70B Instruct 高质量通用模型，通常需要大显存或多卡/CPU offload。	70B	128K	46.2 GB W 40.6 / KV 1.8	需要 offload	通用聊天知识库/RAG	Meta Llama 3.1 Llama 3.1 Community License
Llama 3.3 70B Instruct 70B 档通用模型，适合高质量聊天和推理。	70B	128K	46.2 GB W 40.6 / KV 1.8	需要 offload	通用聊天推理/数学	Meta Llama 3.3 model card Llama 3.3 Community License
DeepSeek-R1-Distill-Llama 70B 大尺寸推理蒸馏模型，通常需要大显存或多卡。	70B	128K	46.2 GB W 40.6 / KV 1.8	需要 offload	推理/数学	DeepSeek-R1 GitHub MIT / base model terms
Code Llama 70B Instruct 70B 代码模型，普通个人电脑不推荐。	70B	16K	46.2 GB W 40.6 / KV 1.8	需要 offload	写代码	Code Llama paper Llama 2 Community License
Code Llama 34B Instruct 较大代码模型，适合高显存环境。	34B	16K	22.4 GB W 19.7 / KV 0.9	需要 offload	写代码	Code Llama paper Llama 2 Community License
Yi-1.5 34B Chat Yi-1.5 大尺寸模型，需要较高显存。	34B	32K	22.4 GB W 19.7 / KV 0.9	需要 offload	通用聊天中文优先	Yi-1.5 GitHub Yi License / model card terms
DeepSeek-R1 671B MoE 完整 R1 需要加载 671B 总参数，个人电脑通常不适合。	671B / A37B	128K	427.0 GB W 389.2 / KV 0.9	不建议	推理/数学中文优先写代码	DeepSeek-R1 GitHub MIT / model card terms
Llama 3.1 405B Instruct 旗舰级开放权重模型，普通个人电脑不适合本地加载。	405B	128K	267.3 GB W 234.9 / KV 10.1	不建议	通用聊天推理/数学	Meta Llama 3.1 Llama 3.1 Community License
Qwen3 235B-A22B MoE 旗舰 MoE，通常属于服务器或多卡工作站范围。	235B / A22B	256K	149.8 GB W 136.3 / KV 0.6	不建议	通用聊天推理/数学中文优先	Qwen3 GitHub Apache 2.0 / model card terms
Mixtral 8x22B 大型 MoE，通常需要服务器级内存/显存。	141B / A39B	64K	90.5 GB W 81.8 / KV 1.0	不建议	通用聊天写代码	Mistral Mixtral 8x22B Apache 2.0

如何理解这个结果

MoE 模型通常按总参数加载，即使每个 token 只激活部分参数。上下文越长，KV cache 越大。CPU offload 能让模型加载起来，但生成速度会明显下降。