自从deepseek R1发布之后,deepseek便爆火 爆火以后便应了“人红是非多”那句话,不但遭受各种大规模攻击,即便后来挡住了大部分攻击,但海内外大量闯入deepseek官网一探究竟的网友也把他们的服务器压得不堪重负 导致一提问,要么频繁显示:服务器繁忙,请稍后再试;要么回答了 但无法联网,致使我朋友圈内一些不知情的朋友说:看把媒体给能的,各种瞎吹,但其实不过尔尔… 怎么办呢? 如此,本文来了,以下是本文的更新记录「本文不用付费、不用各种附加条件,直接看即可,且涵盖各种版本的部署、各种交互模式、各种额外功能比如联网、知识库——齐活」
2.3日下午,在我自己的iMac上本地部署了下R1 7B蒸馏版,详见下文的
2.4日晚上,可能是自己早已习惯在博客中尽可能把所有细节一次性讲清楚 且同时让同事文弱尝试了通过vLLM推理deepseek-r1,也已更新在了下文的
2.5日早上,再度尝试了 在huggingface上总共有以下几种参数的deepseek R1 DeepSeek-R1 671B DeepSeek-R1-Zero 671B DeepSeek-R1-Distill-Llama-70B DeepSeek-R1-Distill-Qwen-32B DeepSeek-R1-Distill-Qwen-14B DeepSeek-R1-Distill-Llama-8B DeepSeek-R1-Distill-Qwen-7B DeepSeek-R1-Distill-Qwen-1.5B 1.2 主流的大模型推理框架:分为PC端和Android端首先,看推理框架,目前主流的大模型推理框架主要有以下5种: 1.3 不同参数的模型所要求的硬件其次,看硬件要求,很显然,不同参数的模型所要求的硬件各不相同(下表修改自微信好友杨老师整理的表格) 模型参数 最低GPU配置 最低CPU配置 建议内存 建议硬盘空间R1 or R1-Zero 满血版 A/H100(80G) x 16-18 某乎上便有篇文章:16张H100部署模型DeepSeek-R1 值得一提的是,A100/A800原生并不支持FP8运算,如果A800要执行FP8精度计算,需要在指令层面进行模拟(存在精度转换计算) 如下图所示(图源) | Xeon 8核 | 192GB | 2TB固态 | 可以看到 因此提供的精度就是FP8(e4m3),占单个Byte空间 "quantization_config": { "activation_scheme": "dynamic" "fmt": "e4m3", "quant method": "fp8" "weight_block_size": [ 128, 128 ] }模型分片163个,模型的文件总计约为642G,如果以FP3精度加载到显存,模型参数就需要642GB空间 在推理场景下,输出大多是长文本,那就更多了,而且具体模型还要实测,或用Nvidia Nisight+分析显存占用。估计常规部署都需要800GB以上,10张A800打底 而大部分消费者或开发者拥有的硬件资源是有限的,故关于网上大多数人所谓部署的R1都是其蒸馏Llama/Qwen后的8B/32B/70B版本,本质是微调后的Llama或Qwen模型 1.4 蒸馏版和满血版的两类部署最后,咱们下面有两种部署对象
一个是部署各种蒸馏版 也不要小看蒸馏版,虽然R1蒸馏llama/qwen的版本效果上不及R1 671B满血版,但还是挺能打的 详见下图,在与GPT-4o 0513、o1 mini、QwQ-32B preview PK的过程中,各个蒸馏版在六个榜单中的五个榜单 都拿到了第一
一个是部署R1 or R1-Zero 满血版 第二部分 通过Ollama、vLLM本地部署DeepSeek-R1蒸馏版:支持联网搜索及知识库问答 2.1 基于Ollama和各类插件构建智能对话:终端、open-webui(支持联网)、chatbox 2.1.1 Ollama下的终端命令行交互首先,671B的R1光模型本身就有688G: 所以,一般用户比较好跑的还是R1的蒸馏版 ollama目前支持部署多种模型,包括且不限于目前最流行的deepseek R1,也包括之前的llama 3.3等 我下午在我自己的iMac上本地部署了下R1 7B蒸馏版,还想办法支持了联网搜索,这一切确实比之前更平权了,速度可以的,效果的话 毕竟就7B嘛——和671B 满血版还是有很大差距的 我的iMac,配置如下 Retina 4K, 21.5-inch, 2017 处理器 3,4 GHz 四核Intel Core i5 图形卡 Radeon Pro 560 4 GB 内存16 GB 2400 MHZ DDR4 macOS Ventura 13.6.7 具体怎么操作呢,进入Ollama页面
Download Ollama,我个人电脑因为是iMac,故选择macOS版本——180M大小
在模型列表页面,下载deepseek R1模型:ollama.com/library/deepseek-r1,然后可以选择比如R1蒸馏qwen2 7B的蒸馏版
打开本地的命令提示符「我个人电脑是iMac,故在启动台的搜索框里:输入终端,即可打开」,输入以下命令后,回车键开始下载安装对应参数的模型:``` 想看具体某一个模型的参数。可以使用ollama show指令:```
然后再运行以下命令,便可以和deepseek R1对话了``` 当然,如果你希望有更好的交互方式,则可以考虑用ollama的标配前端open-webui
首先通过docker的官网下载docker
安装好后在右下角点击Terminal,打开控制台
输入以下命令——等待安装完成```
点击上面的链接::3000/auth,创建相关管理员账号之后 即可开始和R1对话拉 可能有同学疑问,这个7B没法联网,有点弱智啊,好问题
巧的是,在管理员面板上::3000/admin/settings,可以打开联网搜索滴,如果有相应搜索引擎的API,则自行设置,否则可以选择免费的duckduckgo
然后点击聊天界面的左下角 + 按钮,选择联网搜索
则一切大功告成 除了上面的open-webui之外,当然,也有人说,chatbox 是个很方便的图形界面,比open web-UI 好用 一不做二不休,那我们再试下这个chatbox
通过Ollama部署好deepseek-r1:7b之后,再通过chatbox官网下载对应的客户端:chatboxai
下载好chatbox之后,进行如下图所示的一系列设置「比如模型的提供方选择OLLAMA.API,且在下拉框处选择本地已经安装的模型deepseek-r1:7b」
接下来,便可以提问R1 7B拉 2.2 基于Ollama和Page Assist/AnythingLLM构建本地知识库问答系统 2.2.1 基于Ollama + Page Assist搭建本地知识库问答系统:且支持联网搜索也有人称,Page Assist 直接提供了一个类似Open WebUI的交互界面来运行本地的大模型,故我们再试下这个Page Assist 更何况在通过Ollama部署好deepseek-r1:7b之后,如果你想让DeepSeek R1不仅仅是一个问答机器人,而是一个具有专有知识的智能助手,那就需要搭建本地知识库了 实现也很简单——基于Page Assist即可
直接打开Chrome的插件市场,搜索并添加Page Assist插件
安装完插件后,点击插件图标,选择本地搭建的DeepSeek模型,进行配置,且支持联网搜索——背后还是基于免费的duckduckgo
且点击页面右上角的设置按钮,还可以进入RAG(RetrievalAugmented Generation)模式
上传你自己的知识库 除了通过page Assist搭建本地知识库外,还可以通过AnythingLLM
在其官网下载客户端:https://anythingllm.com/desktop
下载好了之后,选择模型
一切安装好了之后,点击界面左上角-工作区的上传按钮 即可上传自己的知识库 本2.3节基本为我司大模型项目组的文弱编写 2.3.1 基于vLLM的命令行交互——R1-Distill-Llama-8B
首先,新建一个conda环境:```
然后配置该conda环境:``` pip install vllm
配置好以后,启动vllm推理服务:```
启动vllm服务后,便可以直接提问了,比如输入如下命令行:``` -H “Content-Type: application/json” \ -d '{ “model”: "path_to/DeepSeek-R1-Distill-Llama-8B ", “messages”: [ {"role": "system", "content": "You are a helpful assistant."}, {"role": "user", "content": "题目:有五个人站成一排,每个人手中都拿着一顶帽子,帽子的颜色可以是红色、蓝色或绿色。每个人都能看到自己前面的人头上的帽子颜色,但看不见自己头上的帽子,且每个人只能看到前面人的帽子颜色,而无法看见自己的帽子和别人背后的帽子。每个人都可以听到别人说话的内容,但不能交换信息。规则:每个人都知道一共有三种颜色的帽子(红、蓝、绿),并且帽子是随机分配的,每种颜色可能有多个,但也可能没有。每个人会依次回答自己头上的帽子颜色,能正确猜出自己帽子颜色的人可以获得奖励。第一个人只能听到后面四个人的回答,无法知道任何自己的信息;第二个人只能听到后面三个人的回答,依此类推。第一个人可以先做一个声明,告知后面的人如何推理他们自己的帽子颜色。问题:如果所有人都能完美推理出自己头上的帽子颜色,问:第一个人应该如何开始,才能确保最多的人能够猜对自己帽子颜色?"}], “max_tokens”: 2000, “temperature”: 0.7, “top_p”: 0.9 }’ 2.3.2 基于vllm + open WebUi 部署r1 7b同事文弱因为电脑显存有限,所以找了一个量化的7b模型,重在跑通流程「如他所说,open webui需要docker,所以autodl上不能用,但是我的电脑显存又比较小,我去魔搭社区找到了一个8bit的r1 7b弄的,最终在wsl2上启动的vllm服务,在Windows上启动的open webui」 对于wsl2的部分:
第一步:下载模型``` git clone https://www.modelscope.cn/okwinds/DeepSeek-R1-Distill-Qwen-7B-Int8-W8A16.git
第二步:搭建环境``` conda activate vllm_deploy pip install vllm
第三步:用vllm启动推理服务```
第四步:得到wsl2的实际ip地址``` 172.18.xxx.xxx 对于Windows部分
第一步:下载docker桌面版
第二步:运行(下载)open Webui docker```
第三步:在本地浏览器输入 localhost:3000 进入open Webui界面 在settings的界面再点击admin settings: 在接下来的页面点击Connections,点击以后在 Manage OpenAI API Connections 这个框中填入「注意,这里只是个设置框,并不需要你事先有OpenAI的API」: 在第二框中填入一个空格即可 点击右下角的齿轮再连接就可以了
第四步:对话验证 直接通过这个链接:mnn_llm_app_debug_0_1.apk,下载Android apk,安装之后,在应用内的模型列表最后一个,直接安装R1-1.5B-Qwen-MNN // 待更 第三部分 无蒸馏前提下本地部署R1 or R1-Zero 671B满血版本地部署R1 or R1-Zero 满血版又分为两种方式 一种是做了各种量化的,此乃属于追求满血版但资源还是有限不得不做的折中处理 一种是不做任何量化的,这种属于土豪路径,如果你是用的这个路线,请私我,原因很简单,我也想多一些土豪朋友 3.1 折中路径:无蒸馏但量化部署Deepseek-R1 671B满血版 3.1.1 本地CPU上运行 Deepseek-R1 的完整的硬件 + 软件设置huggingface 的一工程师Matthew Carrigan展示了在本地CPU上运行 Deepseek-R1 的完整的硬件 + 软件设置「他使用的是 670B 模型,无蒸馏,Q8 量化,实现全质量,总成本 6,000 美元——GPU版本得10万美元+」 核心硬件方面 主板:技嘉 MZ73-LM0 或 MZ73-LM1。有 2 个 EPYC 插槽,以获得 24 个 DDR5 RAM 通道 CPU:2x 任何 AMD EPYC 9004 或 9005 CPU RAM:24×32GB DDR5-RDIMM 关键组件方面 电源:该系统的功耗出奇地低!(<400W) 机箱:具有用于安装完整服务器主板的螺丝安装座 散热器:适合AMD EPYC 有 SP5 插槽的就行 系统调优方面 最后,SSD:任何适合 R1 的 1TB 或更大的 SSD 都可以。“推荐 NVMe,只是因为启动模型时你必须将 700GB 复制到 RAM 中 软件部分:安装 Linux,进入 BIOS 并将 NUMA 组数设置为 0。这将确保模型的每一层都交错在所有 RAM 芯片上,从而使我们的吞吐量加倍。安装 Llama。下载 700G 的DeepSeek-R1-Q8_0 版本 软件部署 安装llama.cpp:git clone https://github.com/ggerganov/llama.cpp 下载模型权重:HuggingFace Q8_0目录全量700GB(⚠️确保存储空间) 一切完成后,设置以下代码:``` 这个版本没有 GPU,生成速度是每秒 6 到 8 个tokens,作者认为考虑到价格,这个非 GPU 硬件的方案可以接受。因为运行的是 Q8 量化的完整 670B 模型,因此质量应与 Deepseek API 无异 至于为什么不用GPU? 显存墙限制:保持Q8精度需700GB+显存,单张H100仅80GB → 需9张组集群 → 成本超10万美元 量化损耗困境:若降精度至FP16,8卡H100即可运行 → 但模型质量显著下降 ≈ 智商砍半 性价比暴击:本方案以1/20成本实现可用推理速度(对比GPU方案6-8tps vs 50-100tps) 3.1.2 GPU上跑无蒸馏但量化的Deepseek-R1 671B满血版Unsloth AI 在 HuggingFace 上提供了 “动态量化” 版本来大幅缩减模型的体积 所谓“动态量化” 的核心思路是:对模型的少数关键层进行高质量的 4-6bit 量化,而对大部分相对没那么关键的混合专家层(MoE)进行大刀阔斧的 1-2bit 量化 为什么可以做呢,原因在于他们观察到,DeepSeek 的前 3 层是全连接层,而非 MoE 层 作为回顾,MoE(专家混合)层使得能够在不增加模型计算量(FLOPs)的情况下增加参数数量,因为他们动态地将大多数条目掩码为 0,因此实际上跳过了对这些零值条目的矩阵乘法运算「更多请参阅此条推文:x.com/danielhanchen/status/1868748998783517093」
总之,通过这种方法,DeepSeek R1 全量模型可压缩至最小 131GB(1.58-bit 量化),极大降低了本地部署门槛,甚至能在单台 Mac Studio 上运行
Unsloth AI 提供了4 种动态量化模型(1.58 至 2.51 比特,文件体积为 131GB 至 212GB) MoE Bits Disk Size Type Quality Link Down_proj1.58-bit 131GB IQ1_S Fair huggingface.co/unsloth/DeepSeek-R1-GGUF/tree/main/DeepSeek-R1-UD-IQ1_S 2.06/1.56bit — — — — — — 1.73-bit 158GB IQ1_M Good huggingface.co/unsloth/DeepSeek-R1-GGUF/tree/main/DeepSeek-R1-UD-IQ1_M 2.06bit — — — — — — 2.22-bit 183GB IQ2_XXS Better huggingface.co/unsloth/DeepSeek-R1-GGUF/tree/main/DeepSeek-R1-UD-IQ2_XXS 2.5/2.06bit — — — — — — 2.51-bit 212GB Q2_K_XL Best huggingface.co/unsloth/DeepSeek-R1-GGUF/tree/main/DeepSeek-R1-UD-Q2_K_XL 3.5/2.5bit — — — — — — 部署此类大模型的主要瓶颈是内存+显存容量,建议配置如下: DeepSeek-R1-UD-IQ1_M:内存 + 显存 ≥ 200 GB DeepSeek-R1-Q4_K_M:内存 + 显存 ≥ 500 GB 若硬件条件有限,可尝试体积更小的 1.58-bit 量化版(131GB),可运行于: 单台 Mac Studio 2×Nvidia H100 80GB 且在这些硬件上的运行速度可达到 10+ token / 秒 // 待更 3.2 土豪路径:无蒸馏不量化部署Deepseek-R1 671B满血版想既不蒸馏、且不量化部署R1满血版,其实过程跟上面差不多,但核心问题是对硬件的要求很高——正因为需要十几张H100,故涉及到对GPU集群的管理 配置项 配置要求GPU H100 * 16 CPU 128核 内存 512GB 磁盘 1TB // 待更 大模型岗位需求大模型时代,企业对人才的需求变了,AIGC相关岗位人才难求,薪资持续走高,AI运营薪资平均值约18457元,AI工程师薪资平均值约37336元,大模型算法薪资平均值约39607元。 掌握大模型技术你还能拥有更多可能性: • 成为一名全栈大模型工程师,包括Prompt,LangChain,LoRA等技术开发、运营、产品等方向全栈工程; • 能够拥有模型二次训练和微调能力,带领大家完成智能对话、文生图等热门应用; • 薪资上浮10%-20%,覆盖更多高薪岗位,这是一个高需求、高待遇的热门方向和领域; • 更优质的项目可以为未来创新创业提供基石。 可能大家都想学习AI大模型技术,也想通过这项技能真正达到升职加薪,就业或是副业的目的,但是不知道该如何开始学习,因为网上的资料太多太杂乱了,如果不能系统的学习就相当于是白学。为了让大家少走弯路,少碰壁,这里我直接把全套AI技术和大模型入门资料、操作变现玩法都打包整理好,希望能够真正帮助到大家。 读者福利:如果大家对大模型感兴趣,这套大模型学习资料一定对你有用 零基础入门AI大模型今天贴心为大家准备好了一系列AI大模型资源,包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。 有需要的小伙伴,可以点击下方链接免费领取【保证100%免费】 点击领取 《AI大模型&人工智能&入门进阶学习资源包》 1.学习路线图第一阶段: 从大模型系统设计入手,讲解大模型的主要方法; 第二阶段: 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用; 第三阶段: 大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统; 第四阶段: 大模型知识库应用开发以LangChain框架为例,构建物流行业咨询智能问答系统; 第五阶段: 大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型; 第六阶段: 以SD多模态大模型为主,搭建了文生图小程序案例; 第七阶段: 以大模型平台应用与开发为主,通过星火大模型,文心大模型等成熟大模型构建大模型行业应用。 2.视频教程网上虽然也有很多的学习资源,但基本上都残缺不全的,这是我自己整理的大模型视频教程,上面路线图的每一个知识点,我都有配套的视频讲解。 (都打包成一块的了,不能一一展开,总共300多集) 3.技术文档和电子书这里主要整理了大模型相关PDF书籍、行业报告、文档,有几百本,都是目前行业最新的。 这里主要整理了行业目前最新的大模型面试题和各种大厂offer面经合集。 👉学会后的收获:👈 • 基于大模型全栈工程实现(前端、后端、产品经理、设计、数据分析等),通过这门课可获得不同能力; • 能够利用大模型解决相关实际项目需求: 大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。因此,掌握大模型应用开发技能,可以让程序员更好地应对实际项目需求; • 基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握; • 能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习框架等技术,这些技术的掌握可以提高程序员的编码能力和分析能力,让程序员更加熟练地编写高质量的代码。 1.AI大模型学习路线图 这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码或者点击以下链接都可以免费领取【保证100%免费】 点击领取 《AI大模型&人工智能&入门进阶学习资源包》 |