,,

基于RAG技術(shù)架構(gòu)的DeepSeek大模型本地知識庫構(gòu)建實戰(zhàn)

admin

2025年3月10日 22:58 本文熱度 574

一、前言

在當(dāng)今這個信息爆炸的時代，人工智能技術(shù)正以前所未有的速度發(fā)展。其中，DeepSeek 作為新一代的 AI 選手，迅速成為行業(yè)內(nèi)的焦點。DeepSeek 在多項性能測試中已經(jīng)達到了 OpenAI 的最新大模型 o1 水平，部分項目還實現(xiàn)了超越，在多項評測中表現(xiàn)優(yōu)異，甚至直逼世界頂尖的閉源模型 GPT-4o 和 Claude-3.5-Sonnet。

目前，我們已經(jīng)在公司的高性能服務(wù)器上完成了本地 AI 智能助手部署的 demo，通過大參數(shù)量的 DeepSeek 本地大模型（70b 及以上）與豐富的本地知識庫相結(jié)合，成功創(chuàng)建了 “虛擬 CST/ABAQUS 技術(shù)支持工程師” 這一 AI 智能體，驗證了 AI 模型 + 行業(yè)本地知識庫在業(yè)務(wù)中的實際運用效果。

二、技術(shù)方案概述

2.1 整體架構(gòu)：DeepSeek-R1 模型與 RAG 技術(shù)相結(jié)合

在選擇 AI 模型時，我們考慮引入 DeepSeek 本地大模型，并結(jié)合 RAG（Retrieval-Augmented Generation）技術(shù)構(gòu)建整體架構(gòu)。

RAG 技術(shù)工作思路：先解析本地數(shù)據(jù)庫，將文本、圖像或其他類型數(shù)據(jù)轉(zhuǎn)換成高維向量，而后將原始問題和引用的知識內(nèi)容以向量形式整合到生成模型的輸入中，增強生成的文本質(zhì)量

DeepSeek 是一款專注于推理的模型，特別適用于利用已有的知識庫高效回答客戶問題。其高效的推理能力和多模態(tài)融合特性，使得 DeepSeek 在處理復(fù)雜邏輯任務(wù)和長文本時表現(xiàn)出色。DeepSeek-R1 不僅在數(shù)學(xué)、代碼和自然語言推理等任務(wù)上表現(xiàn)卓越，性能直接對標 OpenAI 的 o1 正式版，同時使用 MIT 協(xié)議以開源形式向全球開發(fā)者開放。

而 RAG 技術(shù)則通過檢索增強生成，進一步提升模型的檢索和生成能力。通過從外部知識庫中檢索相關(guān)信息，并將這些信息整合到生成模型的輸入中，以增強生成的文本質(zhì)量、準確性和相關(guān)性。

在知識庫中導(dǎo)入文檔后，系統(tǒng)會通過分塊處理將文檔切割為語義連貫的片段（Chunk）。這些文本塊會經(jīng)過嵌入模型（Embedding Model）轉(zhuǎn)化為高維向量，存儲至向量數(shù)據(jù)庫（Vector DB）。當(dāng)用戶發(fā)起問答請求時，系統(tǒng)通過向量相似度檢索匹配的文本片段，并將問題與相關(guān)上下文共同輸入大語言模型（LLM），完成檢索增強生成（Retrieval-Augmented Generation，RAG）的智能問答流程。

RAG 技術(shù)對本地知識庫處理的流程圖，圖源 Cherry Studio 官方文檔

這種方法能有效解決大型語言模型在處理訓(xùn)練數(shù)據(jù)外信息時的 “幻覺” 問題。文獻表明，RAG 技術(shù)通過動態(tài)檢索外部知識庫實現(xiàn)行業(yè)適配（Lewis et al., 2020），這種架構(gòu)既保留了通用模型的對話能力，又能通過知識庫更新擴展專業(yè)認知邊界。現(xiàn)有研究表明其綜合成本顯著低于全參數(shù)微調(diào)方案（Izacard et al., 2022）。相較于微調(diào)模型需要重新訓(xùn)練參數(shù)的方式，RAG 技術(shù)通過動態(tài)檢索外部知識庫實現(xiàn)行業(yè)適配，無需承擔(dān)高昂的模型重訓(xùn)練成本。

2.2 部署方式：完全本地部署

通過全鏈路本地化部署架構(gòu)，實現(xiàn)數(shù)據(jù)從存儲到處理的端到端閉環(huán)，在消除外部攻擊面的同時確保毫秒級響應(yīng)速度。技術(shù)驗證采用 Ollama 容器化框架集成 Cherry Studio 平臺及 RAGFlow 智能檢索系統(tǒng)，基于離線環(huán)境完成向量數(shù)據(jù)庫構(gòu)建與模型推理，使敏感信息全程駐留內(nèi)網(wǎng)。

2.3 實現(xiàn)效果：高效、準確、清晰

該 “虛擬工程師” demo 可以快速且準確地查詢 CST、ABAQUS 軟件的幫助文檔和工程案例，相比傳統(tǒng)檢索的方式， “虛擬工程師” demo 更能深刻理解用戶的需求。通過 DeepSeek-R1 模型與 RAG 技術(shù)的結(jié)合，“虛擬工程師” demo 能夠快速、準確地找到相關(guān)文檔和案例，提供精準的答案和建議。

ABAQUS 問題響應(yīng)結(jié)果

CST 問題響應(yīng)結(jié)果

相比傳統(tǒng)的單純使用 “微調(diào)模型” 技術(shù)方案（可類比為 “考前復(fù)習(xí)”），大模型與 RAG 技術(shù)工作流程（可類比為 “開卷考試”）能夠結(jié)合具體行業(yè)學(xué)習(xí)的內(nèi)容，更有針對性地給出建議的解決方案。該方案不僅提升了模型的適應(yīng)性和靈活性，還顯著提高了問題解決的效率和準確性。

部署本地知識庫后，在思考的過程中會引用知識庫內(nèi)容

三、部署流程

3.1 總覽

下表展示了不同部署方式的主要特點，大家可以根據(jù)自身的情況和需求，決定部署的方式。

本文將聚焦本地化部署方案，以輕量級模型DeepSeek-R1:1.5b為示范，通過三步走流程實現(xiàn)零門檻安裝：

環(huán)境搭建：使用開源工具Ollama，通過 ollama run deepseek-r1:1.5b 命令完成模型加載；
離線運行：所有數(shù)據(jù)在本地完成向量化處理與推理，避免敏感信息外傳；
硬件適配：1.5b 版本僅需 4GB 內(nèi)存即可流暢運行，適合個人電腦部署。

3.2 部署DeepSeek

1、從官網(wǎng)下載并安裝Ollama，過程略。可參考 https://ollama.com/

點擊 Download 下載對應(yīng)系統(tǒng)版本的安裝包。

2、在 Ollama 模型列表中復(fù)制命令ollama run deepseek-r1:1.5b，粘貼到命令行中，等待下載完成。

此處以最低版本作為示例，后續(xù)會推薦適合的模型規(guī)模。

下載完成后，可直接在命令行中與模型對話，檢查模型能否正常加載。

3、安裝對話界面軟件，可以更直觀地調(diào)整模型的參數(shù)和提示詞，同時也支持將對話內(nèi)容完全存檔在本地。推薦Cherry Studio https://cherry-ai.com/

4、配置遠程 Ollama 服務(wù)（可選）。默認情況下，Ollama 服務(wù)僅在本地運行，不對外提供服務(wù)。要使 Ollama 服務(wù)能夠覆蓋在局域網(wǎng)內(nèi)的設(shè)備中，需要設(shè)置以下兩個環(huán)境變量：

OLLAMA_HOST=0.0.0.0
OLLAMA_ORIGINS=*

5、評估電腦最大可以運行的模型參數(shù)。根據(jù)對應(yīng)參數(shù)的模型大小，對比計算機配置（如顯卡、顯存、內(nèi)存、CPU等）與實際應(yīng)用效果（如共享顯存占用、CPU/GPU占用等）。

3.3 知識庫

簡略版：使用內(nèi)置知識庫的 AI 對話平臺

以下平臺可根據(jù)個人喜好選擇：

1.Cherry Studio設(shè)置方式：參考 https://docs.cherry-ai.com/knowledge-base/knowledge-base

2.AnythingLLM設(shè)置方式：參考 https://docs.anythingllm.com/introduction

至尊版：使用 docker 部署 RAGFlow

可參考：

https://ragflow.io/
https://www.bilibili.com/video/BV1WiP2ezE5a/

1.安裝 RAGFlow 1. 安裝 docker 2. 拉取 RAGFlow 鏡像

可訪問官方 GitHub 倉庫的 README 頁面拉取鏡像，并按照文檔中的指引安裝部署：https://github.com/infiniflow/ragflow/blob/main/README_zh.md
如果遇到問題，可訪問網(wǎng)絡(luò)上部署 RAGFlow 的踩坑帖子，如：https://blog.csdn.net/gr1785/article/details/145543754?spm=1001.2014.3001.5502

2.添加本地模型

1、在瀏覽器輸入http://localhost:88，并注冊賬號和組織（該賬號基于本地服務(wù)）。
2、在頁面中選擇 Ollama，并選擇對應(yīng)的模型類型。（DeepSeek 模型選擇 chat，bge-m3 模型選擇 embedding）
3、按照控制臺Ollama -list命令中列出的模型名稱填寫（建議在列表中復(fù)制）。
4、基礎(chǔ) URL：http://host.docker.internal:11434
5、最大 token 數(shù)可隨便填寫（本地部署不消耗在線
token）。
6、按照上述方法分別添加 chat 模型和 embedding 模型。

RAGFlow 添加本地模型配置示例

3、設(shè)置快速啟用服務(wù)腳本

可編寫一個批處理文件start_ragflow.bat

@echo off     
 
:: 解決中文亂碼問題   
chcp 65001 >nul   
title RAGFlow啟動器      
:: 進入docker目錄啟動服務(wù)   
cd /d "你的RAGFlow路徑，以\ragflow-main\docker結(jié)尾"   
docker compose up -d      
:: 打開瀏覽器訪問頁面   
start """http://localhost:80"      
echo RAGFlow服務(wù)已啟動，瀏覽器即將打開...   
pause   `

4、設(shè)置知識庫

由于網(wǎng)上關(guān)于RAGFlow的內(nèi)容眾多，在 RAGFlow 中設(shè)置知識庫的具體步驟，可根據(jù)官方文檔或網(wǎng)絡(luò)教程操作，在此不再贅述。

創(chuàng)建好的知識庫

3.4 參數(shù)調(diào)整

參數(shù)背景知識

Temperature（溫度） ：

溫度參數(shù)控制模型生成文本的隨機性和創(chuàng)造性程度（默認值為0.7或1.0，不同軟件/平臺有不同的設(shè)置）。具體表現(xiàn)為：

低溫度值(0-0.3)：輸出更確定、更專注，適合代碼生成、數(shù)據(jù)分析等需要準確性的場景。
中等溫度值(0.4-0.7)：平衡了創(chuàng)造性和連貫性，適合日常對話、一般性寫作。
高溫度值(0.8-1.0)：產(chǎn)生更具創(chuàng)造性和多樣性的輸出，適合創(chuàng)意寫作、頭腦風(fēng)暴等場景。

Top P（核采樣）：

默認值為 1，值越小，AI 生成的內(nèi)容越單調(diào)，也越容易理解；值越大，AI 回復(fù)的詞匯范圍越大，越多樣化。

核采樣通過控制詞匯選擇的概率閾值來影響輸出：

較小值(0.1-0.3)：僅考慮最高概率的詞匯，輸出更保守、更可控，適合代碼注釋、技術(shù)文檔等場景。
中等值(0.4-0.6)：平衡詞匯多樣性和準確性，適合一般對話和寫作任務(wù)，
較大值(0.7-1.0)：考慮更廣泛的詞匯選擇，產(chǎn)生更豐富多樣的內(nèi)容，適合創(chuàng)意寫作等需要多樣化表達的場景。

這兩個參數(shù)可以獨立使用或組合使用
根據(jù)具體任務(wù)類型選擇合適的參數(shù)值
建議通過實驗找到最適合特定應(yīng)用場景的參數(shù)組合
以上內(nèi)容僅供參考和了解概念，所給參數(shù)范圍不一定適合所有模型，具體可參考模型相關(guān)文檔給出的參數(shù)建議。

場景配置

不同業(yè)務(wù)場景中 LLM 模型的參數(shù)需求往往有著明顯差異，需要結(jié)合理論與實踐結(jié)果進行調(diào)整。下表系統(tǒng)地梳理了Temperature與Top-P參數(shù)的協(xié)同配置策略，綜合考量了輸出質(zhì)量、創(chuàng)意需求及風(fēng)險控制三個維度，并標注典型應(yīng)用場景的實踐驗證效果。

場景	Temperature 范圍	Top-P 范圍	說明
代碼生成	0.1–0.3	0.1–0.3	極低溫+極低Top-P，減少語法錯誤，確保代碼邏輯正確。
技術(shù)文檔如代碼、產(chǎn)品說明	0.2–0.5	0.5–0.7	低溫+中低Top-P，確保輸出準確結(jié)構(gòu)化，避免冗余內(nèi)容。
客戶服務(wù)如聊天機器人	0.5–0.8	0.7–0.9	平衡自然與可控，保留部分多樣性以靈活應(yīng)答。
創(chuàng)意寫作如詩歌、故事生成	0.7–1.2	0.8–0.95	高溫+高Top-P，鼓勵多樣性，需注意邏輯連貫性。
開放探索如頭腦風(fēng)暴、靈感激發(fā)	1.0–1.5	0.95–1.0	高溫+全覆蓋Top-P，犧牲準確性以激發(fā)意外創(chuàng)新。
本地知識庫如業(yè)務(wù)數(shù)據(jù)分類、結(jié)構(gòu)化信息抽取、知識問答	0.2–0.5	0.5–0.7	降低隨機性，確保輸出穩(wěn)定和事實準確，同時聚焦高頻候選詞，避免低質(zhì)量內(nèi)容干擾。

參數(shù)調(diào)整建議

優(yōu)先調(diào)整單一參數(shù)：通常僅需調(diào)整Temperature或Top-P，避免兩者同時大幅改動。
高溫+中低Top-P：在創(chuàng)意任務(wù)中，高溫配合稍低Top-P（如0.8）可平衡多樣性與質(zhì)量。
低溫+低Top-P：用于高精度任務(wù)（如法律文本生成），確保輸出高度可控。
提示詞約束：可以增加知識庫中無查詢內(nèi)容情況下輸出信息，最大化利用模型本身的知識范圍。例如：【如果知識庫中沒有找到相關(guān)的信息，請現(xiàn)在回答的開頭說明“我不了解這個問題，但我會根據(jù)我自己的理解嘗試回答”，然后再討論你的見解。】

四、總結(jié)

通過以上操作，即可在本地計算機或服務(wù)器上搭建一套完全離線的 AI 本地知識庫查詢系統(tǒng)。且效果能夠隨著模型參數(shù)、知識庫參數(shù)的優(yōu)化而變得更明顯。目前，該方案已在企業(yè)內(nèi)部知識管理、智能客服等場景落地，在保障數(shù)據(jù)安全的前提下，讓企業(yè)知識庫真正「活起來」。

DeepSeek 推理模型與 RAG 技術(shù)的結(jié)合，為構(gòu)建企業(yè)專屬知識庫的業(yè)務(wù)場景提供了高效的解決方案。通過將行業(yè)積累的技術(shù)文檔、項目經(jīng)驗等結(jié)構(gòu)化數(shù)據(jù)與 AI 深度結(jié)合，既能讓系統(tǒng)精準理解專業(yè)術(shù)語，又能基于實時更新的知識庫生成可靠回答。采用這種架構(gòu)的方案，既保留了通用大模型的對話能力，又通過持續(xù)學(xué)習(xí)企業(yè)特有知識，實現(xiàn)「越用越懂業(yè)務(wù)」的個性化效果。

該文章在 2025/3/11 18:11:39 編輯過

關(guān)鍵字查詢