AI Calculator
本地开源大模型适配器
输入电脑内存/显存、量化和用途,筛出常见本地开放权重大模型中哪些能跑、哪些勉强、哪些不建议。
适合:Ollama、LM Studio、llama.cpp、MLX、vLLM、本地开源模型选型
模型名称和参数量来自官方模型卡或项目文档。能否运行由本工具按参数量、量化、上下文和运行开销估算,不是厂商保证。
内置模型
60
常见开放权重版本
可运行
56
优先家族
Qwen3
量化
4-bit / Q4
推荐候选
Qwen3 30B-A3B MoE
19.3 GB
显存内可跑
Qwen3 4B
3.0 GB
显存内可跑
Gemma 3 4B
3.0 GB
显存内可跑
Phi-4-mini 3.8B
2.9 GB
显存内可跑
Llama 3.2 3B Instruct
2.4 GB
显存内可跑
| 模型 | 参数 | 上下文 | 估算占用 | 结论 | 适合 | 来源 |
|---|---|---|---|---|---|---|
Qwen3 30B-A3B MoE MoE 模型,加载看总参数,速度更接近激活参数。 | 30B / A3B | 256K | 19.3 GB W 17.4 / KV 0.3 | 显存内可跑 | 通用聊天推理/数学中文优先 | Qwen3 GitHub Apache 2.0 / model card terms |
Qwen3 4B 低显存中文和推理入门档。 | 4B | 32K | 3.0 GB W 2.3 / KV 0.3 | 显存内可跑 | 通用聊天推理/数学中文优先 | Qwen3 GitHub Apache 2.0 / model card terms |
Gemma 3 4B 4B 以上 Gemma 3 支持多模态能力,文本使用更省资源。 | 4B | 128K | 3.0 GB W 2.3 / KV 0.3 | 显存内可跑 | 通用聊天图文多模态低配置/端侧 | Google Gemma 3 model card Gemma Terms of Use |
Phi-4-mini 3.8B 小尺寸推理模型,适合低延迟和学习场景。 | 3.8B | 128K | 2.9 GB W 2.2 / KV 0.3 | 显存内可跑 | 推理/数学低配置/端侧 | Microsoft Phi-4 models MIT |
Llama 3.2 3B Instruct 低门槛本地聊天模型,适合轻量助手。 | 3B | 128K | 2.4 GB W 1.7 / KV 0.3 | 显存内可跑 | 通用聊天低配置/端侧 | Meta Llama 3.2 Llama 3.2 Community License |
Qwen2.5 3B Instruct 低显存下比 1B 档更稳。 | 3B | 32K | 2.4 GB W 1.7 / KV 0.3 | 显存内可跑 | 通用聊天中文优先 | Qwen2.5 LLM Apache 2.0 |
Qwen2.5-Coder 3B 3B 代码模型,使用前注意许可证。 | 3B | 32K | 2.4 GB W 1.7 / KV 0.3 | 显存内可跑 | 写代码 | Qwen2.5-Coder Qwen-Research |
StarCoder2 3B 小型代码生成模型。 | 3B | 16K | 2.4 GB W 1.7 / KV 0.3 | 显存内可跑 | 写代码低配置/端侧 | StarCoder2 paper OpenRAIL-M |
InternLM2.5 1.8B Chat 轻量中文开放模型。 | 1.8B | 32K | 1.7 GB W 1.0 / KV 0.3 | 显存内可跑 | 通用聊天中文优先低配置/端侧 | InternLM GitHub Apache 2.0 / model card terms |
Qwen3 1.7B 适合轻量中文问答和简单任务。 | 1.7B | 32K | 1.7 GB W 1.0 / KV 0.3 | 显存内可跑 | 通用聊天中文优先低配置/端侧 | Qwen3 GitHub Apache 2.0 / model card terms |
Qwen2.5 1.5B Instruct 适合低配置中文助手和简单摘要。 | 1.5B | 32K | 1.6 GB W 0.9 / KV 0.3 | 显存内可跑 | 通用聊天中文优先低配置/端侧 | Qwen2.5 LLM Apache 2.0 |
Qwen2.5-Coder 1.5B 轻量代码生成和解释。 | 1.5B | 32K | 1.6 GB W 0.9 / KV 0.3 | 显存内可跑 | 写代码低配置/端侧 | Qwen2.5-Coder Apache 2.0 / Qwen-Research for 3B |
DeepSeek-R1-Distill-Qwen 1.5B 小型蒸馏推理模型,适合低配置体验思维链风格。 | 1.5B | 128K | 1.6 GB W 0.9 / KV 0.3 | 显存内可跑 | 推理/数学中文优先低配置/端侧 | DeepSeek-R1 GitHub MIT / base model terms |
Llama 3.2 1B Instruct 轻量文本模型,适合低内存设备和快速问答。 | 1B | 128K | 1.3 GB W 0.6 / KV 0.3 | 显存内可跑 | 通用聊天低配置/端侧 | Meta Llama 3.2 Llama 3.2 Community License |
Gemma 3 1B Google 小尺寸开放权重模型,适合轻量任务。 | 1B | 32K | 1.3 GB W 0.6 / KV 0.3 | 显存内可跑 | 通用聊天低配置/端侧 | Google Gemma 3 model card Gemma Terms of Use |
Qwen3 0.6B 超小中文友好模型,适合低配置设备尝试。 | 0.6B | 32K | 1.0 GB W 0.3 / KV 0.3 | 显存内可跑 | 通用聊天中文优先低配置/端侧 | Qwen3 GitHub Apache 2.0 / model card terms |
Qwen2.5 0.5B Instruct 极低门槛中文轻量模型。 | 0.5B | 32K | 1.0 GB W 0.3 / KV 0.3 | 显存内可跑 | 通用聊天中文优先低配置/端侧 | Qwen2.5 LLM Apache 2.0 |
Qwen2.5-Coder 0.5B 极小代码模型,适合低成本补全实验。 | 0.5B | 32K | 1.0 GB W 0.3 / KV 0.3 | 显存内可跑 | 写代码低配置/端侧 | Qwen2.5-Coder Apache 2.0 / Qwen-Research for 3B |
Llama 3.1 8B Instruct 经典 8B 档通用模型,生态和量化版本丰富。 | 8B | 128K | 5.3 GB W 4.6 / KV 0.3 | 显存内可跑 | 通用聊天知识库/RAG | Meta Llama 3.1 Llama 3.1 Community License |
Qwen3 8B 常见单卡本地中文模型选择。 | 8B | 32K | 5.3 GB W 4.6 / KV 0.3 | 显存内可跑 | 通用聊天推理/数学中文优先 | Qwen3 GitHub Apache 2.0 / model card terms |
DeepSeek-R1-Distill-Llama 8B 基于 Llama 的 8B 蒸馏推理模型。 | 8B | 128K | 5.3 GB W 4.6 / KV 0.3 | 显存内可跑 | 推理/数学 | DeepSeek-R1 GitHub MIT / base model terms |
Qwen2.5 7B Instruct 中文本地部署常用 7B 档。 | 7B | 128K | 4.8 GB W 4.1 / KV 0.3 | 显存内可跑 | 通用聊天中文优先知识库/RAG | Qwen2.5 LLM Apache 2.0 |
Qwen2.5-Coder 7B 常见代码本地模型,低门槛实用。 | 7B | 128K | 4.8 GB W 4.1 / KV 0.3 | 显存内可跑 | 写代码中文优先 | Qwen2.5-Coder Apache 2.0 |
DeepSeek-R1-Distill-Qwen 7B 常见本地推理入门模型。 | 7B | 128K | 4.8 GB W 4.1 / KV 0.3 | 显存内可跑 | 推理/数学中文优先 | DeepSeek-R1 GitHub MIT / base model terms |
Mistral 7B Instruct 经典 7B 开放模型,生态成熟。 | 7B | 32K | 4.8 GB W 4.1 / KV 0.3 | 显存内可跑 | 通用聊天写代码 | Mistral 7B docs Apache 2.0 |
Code Llama 7B Instruct 经典代码模型,适合兼容旧工具链。 | 7B | 16K | 4.8 GB W 4.1 / KV 0.3 | 显存内可跑 | 写代码 | Code Llama paper Llama 2 Community License |
StarCoder2 7B 代码补全和生成常见选择。 | 7B | 16K | 4.8 GB W 4.1 / KV 0.3 | 显存内可跑 | 写代码 | StarCoder2 paper OpenRAIL-M |
InternLM2.5 7B Chat 常见中文 7B 档模型。 | 7B | 32K | 4.8 GB W 4.1 / KV 0.3 | 显存内可跑 | 通用聊天中文优先 | InternLM GitHub Apache 2.0 / model card terms |
Yi-1.5 6B Chat Yi-1.5 小尺寸模型,中文用户常见。 | 6B | 32K | 4.2 GB W 3.5 / KV 0.3 | 显存内可跑 | 通用聊天中文优先 | Yi-1.5 GitHub Yi License / model card terms |
Qwen3 14B 中档质量和本地成本较平衡。 | 14B | 32K | 9.2 GB W 8.1 / KV 0.4 | 显存内可跑 | 通用聊天推理/数学中文优先 | Qwen3 GitHub Apache 2.0 / model card terms |
Qwen2.5 14B Instruct 中文质量和成本均衡,适合 16GB 以上显存优先试。 | 14B | 128K | 9.2 GB W 8.1 / KV 0.4 | 显存内可跑 | 通用聊天中文优先知识库/RAG | Qwen2.5 LLM Apache 2.0 |
Qwen2.5-Coder 14B 代码生成、解释和改错的中档选择。 | 14B | 128K | 9.2 GB W 8.1 / KV 0.4 | 显存内可跑 | 写代码中文优先 | Qwen2.5-Coder Apache 2.0 |
DeepSeek-R1-Distill-Qwen 14B 推理质量比小模型更稳,适合 16GB 以上显存尝试。 | 14B | 128K | 9.2 GB W 8.1 / KV 0.4 | 显存内可跑 | 推理/数学中文优先 | DeepSeek-R1 GitHub MIT / base model terms |
Phi-4 14B 14B 小模型家族里常见的数学/推理选择。 | 14B | 16K | 9.2 GB W 8.1 / KV 0.4 | 显存内可跑 | 推理/数学写代码 | Microsoft Phi-4 model card MIT |
Code Llama 13B Instruct 13B 代码模型,已有大量量化版本。 | 13B | 16K | 8.6 GB W 7.5 / KV 0.3 | 显存内可跑 | 写代码 | Code Llama paper Llama 2 Community License |
Gemma 3 12B 中档 Gemma 3,适合视觉/文本混合任务尝试。 | 12B | 128K | 7.9 GB W 7.0 / KV 0.3 | 显存内可跑 | 通用聊天图文多模态 | Google Gemma 3 model card Gemma Terms of Use |
Mistral NeMo 12B 12B 多语言开放模型,长上下文友好。 | 12B | 128K | 7.9 GB W 7.0 / KV 0.3 | 显存内可跑 | 通用聊天知识库/RAG | Mistral NeMo Apache 2.0 |
GLM-4 9B Chat 中文生态常见 9B 模型,有长上下文变体。 | 9B | 128K | 6.0 GB W 5.2 / KV 0.3 | 显存内可跑 | 通用聊天中文优先知识库/RAG | GLM Transformers docs GLM license / model card terms |
Yi-1.5 9B Chat 9B 中文/英文通用模型。 | 9B | 32K | 6.0 GB W 5.2 / KV 0.3 | 显存内可跑 | 通用聊天中文优先 | Yi-1.5 GitHub Yi License / model card terms |
Qwen3 32B 高质量单机/工作站常见选择,显存要求明显上升。 | 32B | 32K | 21.1 GB W 18.6 / KV 0.8 | 显存内可跑 | 通用聊天推理/数学中文优先写代码 | Qwen3 GitHub Apache 2.0 / model card terms |
Qwen2.5 32B Instruct 32B 档通用能力强,适合工作站。 | 32B | 128K | 21.1 GB W 18.6 / KV 0.8 | 显存内可跑 | 通用聊天中文优先写代码知识库/RAG | Qwen2.5 LLM Apache 2.0 |
Qwen2.5-Coder 32B 常见高质量本地代码模型,需要较强显存。 | 32B | 128K | 21.1 GB W 18.6 / KV 0.8 | 显存内可跑 | 写代码中文优先 | Qwen2.5-Coder Apache 2.0 |
DeepSeek-R1-Distill-Qwen 32B 本地推理常见高质量档,需要工作站显存。 | 32B | 128K | 21.1 GB W 18.6 / KV 0.8 | 显存内可跑 | 推理/数学中文优先写代码 | DeepSeek-R1 GitHub MIT / base model terms |
Gemma 3 27B Gemma 3 高质量档,24GB 显存需看量化和上下文。 | 27B | 128K | 17.8 GB W 15.7 / KV 0.7 | 显存内可跑 | 通用聊天图文多模态推理/数学 | Google Gemma 3 model card Gemma Terms of Use |
Mistral Small 3.1 24B 24B 开放模型,适合中高端单机尝试。 | 24B | 128K | 15.8 GB W 13.9 / KV 0.6 | 显存内可跑 | 通用聊天图文多模态知识库/RAG | Mistral Small 3.1 Apache 2.0 |
Devstral Small 24B 面向代码库探索和软件工程 Agent 的 24B 模型。 | 24B | 128K | 15.8 GB W 13.9 / KV 0.6 | 显存内可跑 | 写代码 | Devstral Small docs Apache 2.0 |
InternLM2.5 20B Chat 20B 中文模型,适合中高端本地机器。 | 20B | 32K | 13.2 GB W 11.6 / KV 0.5 | 显存内可跑 | 通用聊天中文优先 | InternLM GitHub Apache 2.0 / model card terms |
StarCoder2 15B StarCoder2 最大公开尺寸,适合代码任务。 | 15B | 16K | 9.9 GB W 8.7 / KV 0.4 | 显存内可跑 | 写代码 | StarCoder2 paper OpenRAIL-M |
Mixtral 8x7B MoE 模型,加载按总参数估算,推理速度看激活参数。 | 47B / A13B | 32K | 30.2 GB W 27.3 / KV 0.3 | 需要 offload | 通用聊天写代码 | Mixtral 8x7B docs Apache 2.0 |
Qwen2.5 72B Instruct 高质量大模型,普通单卡通常需要强量化或 offload。 | 72B | 128K | 47.5 GB W 41.8 / KV 1.8 | 需要 offload | 通用聊天中文优先知识库/RAG | Qwen2.5 LLM Qwen license / model card terms |
Llama 3.1 70B Instruct 高质量通用模型,通常需要大显存或多卡/CPU offload。 | 70B | 128K | 46.2 GB W 40.6 / KV 1.8 | 需要 offload | 通用聊天知识库/RAG | Meta Llama 3.1 Llama 3.1 Community License |
Llama 3.3 70B Instruct 70B 档通用模型,适合高质量聊天和推理。 | 70B | 128K | 46.2 GB W 40.6 / KV 1.8 | 需要 offload | 通用聊天推理/数学 | Meta Llama 3.3 model card Llama 3.3 Community License |
DeepSeek-R1-Distill-Llama 70B 大尺寸推理蒸馏模型,通常需要大显存或多卡。 | 70B | 128K | 46.2 GB W 40.6 / KV 1.8 | 需要 offload | 推理/数学 | DeepSeek-R1 GitHub MIT / base model terms |
Code Llama 70B Instruct 70B 代码模型,普通个人电脑不推荐。 | 70B | 16K | 46.2 GB W 40.6 / KV 1.8 | 需要 offload | 写代码 | Code Llama paper Llama 2 Community License |
Code Llama 34B Instruct 较大代码模型,适合高显存环境。 | 34B | 16K | 22.4 GB W 19.7 / KV 0.9 | 需要 offload | 写代码 | Code Llama paper Llama 2 Community License |
Yi-1.5 34B Chat Yi-1.5 大尺寸模型,需要较高显存。 | 34B | 32K | 22.4 GB W 19.7 / KV 0.9 | 需要 offload | 通用聊天中文优先 | Yi-1.5 GitHub Yi License / model card terms |
DeepSeek-R1 671B MoE 完整 R1 需要加载 671B 总参数,个人电脑通常不适合。 | 671B / A37B | 128K | 427.0 GB W 389.2 / KV 0.9 | 不建议 | 推理/数学中文优先写代码 | DeepSeek-R1 GitHub MIT / model card terms |
Llama 3.1 405B Instruct 旗舰级开放权重模型,普通个人电脑不适合本地加载。 | 405B | 128K | 267.3 GB W 234.9 / KV 10.1 | 不建议 | 通用聊天推理/数学 | Meta Llama 3.1 Llama 3.1 Community License |
Qwen3 235B-A22B MoE 旗舰 MoE,通常属于服务器或多卡工作站范围。 | 235B / A22B | 256K | 149.8 GB W 136.3 / KV 0.6 | 不建议 | 通用聊天推理/数学中文优先 | Qwen3 GitHub Apache 2.0 / model card terms |
Mixtral 8x22B 大型 MoE,通常需要服务器级内存/显存。 | 141B / A39B | 64K | 90.5 GB W 81.8 / KV 1.0 | 不建议 | 通用聊天写代码 | Mistral Mixtral 8x22B Apache 2.0 |
如何理解这个结果
MoE 模型通常按总参数加载,即使每个 token 只激活部分参数。上下文越长,KV cache 越大。CPU offload 能让模型加载起来,但生成速度会明显下降。
Meta Llama 3.2Meta Llama 3.1Meta Llama 3.3 model cardQwen3 GitHubQwen2.5 LLMQwen2.5-CoderDeepSeek-R1 GitHubGoogle Gemma 3 model cardMicrosoft Phi-4 modelsMicrosoft Phi-4 model cardMistral 7B docsMistral NeMoMistral Small 3.1Devstral Small docsMixtral 8x7B docsMistral Mixtral 8x22BCode Llama paperStarCoder2 paperGLM Transformers docsYi-1.5 GitHubInternLM GitHub