Ollama引擎快速安裝DeepSeek R1量化剪裁版完整命令流

發布日期：2026年05月20日 [cite: 12] 分類：DeepSeek 核心技術專題讀者對象：香港開發者及企業決策層

各位香港的科技同好、開發者及中小企老闆們，大家好！我係你哋熟悉嘅本地科技博主，今次想同大家分享一個現今AI浪潮下極具實用價值嘅教學：點樣透過Ollama引擎，喺你嘅本地機器上快速部署DeepSeek R1量化剪裁版大型語言模型。喺香港呢個數碼轉型嘅前沿都市，本地化部署AI模型唔單止可以大大提高數據私隱度同回應速度，對於資源有限嘅中小企嚟講，量化版模型更係一個性價比極高嘅選擇。

近年嚟，將大型語言模型（LLMs）部署到本地設備嘅趨勢日益明顯。無論係出於數據安全考量、降低雲端服務成本，定係需要喺斷網環境下運作，本地化部署都提供咗無可比擬嘅優勢。而Ollama正正係為此而生嘅輕量級工具，佢簡化咗LLMs嘅管理同運行過程，令AI模型普及化變得更加觸手可及。

DeepSeek系列模型，特別係其開源版本，喺業界獲得咗廣泛認可，佢哋喺多種任務上表現出色，尤其係對中文嘅理解同生成能力。而我哋今次重點關注嘅「量化剪裁版」，則係經過優化後，大幅減少咗模型嘅記憶體佔用同運算資源需求，令佢哋可以喺更多中低階顯示卡（GPU）上順暢運行，對於希望喺有限預算內探索AI應用嘅香港企業或個人開發者嚟講，呢個簡直係福音。

本文將會手把手咁帶領大家，從前期準備、Ollama安裝，到DeepSeek R1量化版模型嘅下載同運行，提供一個完整嘅命令流，確保大家可以順利完成部署。我哋會盡量使用正宗嘅香港繁體字同本地常用詞，務求令呢個教學更貼地、更易理解。事不宜遲，我哋即刻開始！

為何選擇Ollama與DeepSeek R1量化剪裁版？

喺眾多本地AI部署方案中，Ollama同DeepSeek R1量化剪裁版嘅組合，可謂係現階段最適合香港開發者同中小企嘅黃金拍檔。

Ollama的獨特優勢

Ollama之所以能夠喺AI社區中迅速崛起，憑藉嘅係佢一系列簡化AI模型操作嘅核心優勢：

簡化模型管理與運行： 佢將複雜嘅模型依賴、運行環境配置等問題抽象化，用戶只需一個簡單命令即可下載、運行甚至創建模型。
跨平台支援： 無論你用緊Windows、macOS（包括Apple Silicon M系列晶片）定係Linux，Ollama都能提供原生支援，大大降低咗入門門檻。
API兼容性： Ollama提供咗一個兼容OpenAI API嘅RESTful接口，意味住你可以輕易咁將本地運行嘅DeepSeek模型整合到你現有嘅應用程式中，例如客戶服務chatbot、智能寫作助手等。
社區活躍： 擁有一個活躍嘅社區，不斷有新模型被適配，遇到問題亦容易搵到幫助。

DeepSeek R1模型的亮點

DeepSeek系列模型，由中國嘅DeepSeek AI團隊開發，以其優異嘅性能同開源精神而聞名。

高性能表現： 喺多項基準測試中，DeepSeek模型展現出超越同級模型嘅能力，尤其喺編碼（Coding）同通用語言理解上表現突出。
開源精神與社區支持： 作為開源模型，DeepSeek提供咗高度嘅透明度同靈活性，開發者可以自由修改、優化同整合，形成咗一個強大嘅社區生態。
量化剪裁版的價值： 呢個係最關鍵嘅一點。傳統嘅大型語言模型需要大量嘅顯示卡記憶體（VRAM）才能運行，動輒需要24GB、48GB甚至更多。量化剪裁版透過降低模型參數嘅精度（例如從FP16降到INT4/INT8），喺唔大幅犧牲性能嘅情況下，將模型對VRAM嘅需求大幅降低，通常只需要4GB、6GB或8GB VRAM即可運行，甚至可以喺部分整合顯示卡上運行。對於冇頂級顯示卡嘅香港開發者同中小企嚟講，呢個意味住可以用更經濟嘅方式享受到AI嘅強大能力。

前期準備：確保您的環境萬無一失

喺我哋正式開始安裝之前，確保你嘅硬體同軟體環境符合基本要求係至關重要嘅一步。呢個可以避免之後出現不必要嘅錯誤同挫折。

硬體要求

雖然量化剪裁版模型已經大大降低咗門檻，但基本嘅硬體配置仍然係必須嘅：

CPU： 任何多核心處理器（例如Intel i5/i7/i9或AMD Ryzen 5/7/9系列）都足以應付。核心數越多，處理速度越快。
RAM（系統記憶體）： 建議至少16GB。如果同時運行其他應用程式，24GB或32GB會提供更流暢嘅體驗。當顯示卡記憶體不足時，部分模型數據會溢出到系統記憶體，所以RAM越多越好。
GPU（顯示卡）：
- NVIDIA顯示卡： 首選，因為Ollama同大部分AI模型對CUDA支援最完善。建議具有8GB或以上嘅顯示卡記憶體（VRAM），例如RTX 3060/3070/3080/4060/4070/4080/4090系列。即使係6GB VRAM嘅卡，運行大部分量化版模型都冇問題。
- AMD顯示卡： Ollama對ROCm嘅支援亦有進步，但相對NVIDIA仍有差距。請自行確認你嘅AMD顯示卡係否支援ROCm。
- Apple Silicon： MacBook Pro或Mac Studio等配備M1/M2/M3系列晶片嘅Mac電腦，內置統一記憶體，表現非常出色，無需獨立顯示卡。
SSD儲存： 建議使用固態硬碟（SSD）作為系統同模型嘅儲存裝置。大型語言模型文件通常幾GB甚至幾十GB，SSD可以顯著加快模型加載速度同整體運行效率。確保你有至少50GB-100GB嘅可用空間。

軟體要求

操作系統：
- Windows 10/11 (64-bit)
- macOS (macOS Monterey 12.0或更高版本，尤其係Apple Silicon機型)
- Linux (例如Ubuntu 20.04+, Debian 11+, Fedora 37+)
CUDA Toolkit (僅限NVIDIA GPU用戶)： 確保你嘅NVIDIA顯示卡驅動程式係最新版本。Ollama通常會自行管理CUDA版本，但如果遇到問題，可能需要手動安裝最新嘅CUDA Toolkit。
顯示卡驅動程式： 無論係NVIDIA定AMD，請務必將你嘅顯示卡驅動程式更新到最新版本，呢個對於AI運算性能至關重要。

Ollama引擎的極速部署

搞掂晒前期準備，我哋就可以開始安裝Ollama喇！呢個過程非常簡單直接。

下載並安裝Ollama

前往Ollama嘅官方網站：https://ollama.com/

喺官網首頁，你會睇到唔同操作系統嘅下載選項。選擇你對應嘅版本進行下載：

Windows用戶： 下載 .exe 安裝檔，然後雙擊執行並按照提示一步步安裝即可。
macOS用戶： 下載 .dmg 檔，打開後將Ollama應用程式拖曳到「應用程式」資料夾。
Linux用戶： 打開終端機（Terminal），執行以下命令：
```
curl -fsSL https://ollama.com/install.sh | sh
```
呢個腳本會自動檢測你嘅Linux發行版並安裝Ollama。

驗證安裝

安裝完成後，打開你嘅命令提示字元（Windows）、終端機（macOS/Linux），輸入以下命令：

ollama --version

如果Ollama已經成功安裝，你會睇到類似 ollama version is 0.1.X 嘅輸出，其中 X 係當前版本號。

初步運行與模型庫探索

為咗確保Ollama運作正常，我哋可以嘗試運行一個Ollama官方提供嘅基本模型，例如Llama 2：

ollama run llama2

第一次運行會自動下載Llama 2模型。下載完成後，你就會進入一個互動式對話界面，可以同Llama 2進行對話。呢個係一個好嘅測試，證明你嘅Ollama環境已經準備就緒。當你玩夠之後，輸入 /bye 或按 Ctrl + D 即可退出。

你亦可以輸入以下命令，查看你已經下載咗哪些模型：

ollama list

DeepSeek R1量化剪裁版的引入與命令流

現在，係時候將我哋嘅主角DeepSeek R1量化剪裁版模型請出場喇！

尋找DeepSeek R1模型

Ollama提供咗一個公開嘅模型庫，你可以在 ollama.com/library 瀏覽所有可供下載嘅模型。

針對DeepSeek系列，Ollama庫中通常會有多個版本，包括通用嘅 deepseek-llm 同專注於編碼嘅 deepseek-coder。為咗符合「量化剪裁版」同「R1」嘅主題，我哋會揀選一個常見且性能表現良好嘅量化版本作為示範。請注意，Ollama庫中模型嘅具體命名可能會有所更新，你可能需要喺庫中搜尋 deepseek-llm 或 deepseek-coder 並尋找帶有 q4_0、q4_K_M 等後綴嘅模型，呢啲就係量化版本。

喺本文中，我哋將以 deepseek-llm:7b-chat-q4_0 作為範例。呢個係一個7B參數嘅DeepSeek聊天模型，採用了4位元量化，相對輕量，對顯示卡記憶體要求較低，非常適合本地部署。請記住，你可以根據自己嘅硬體配置同需求，選擇其他量化程度（例如 q5_K_M 會稍微大啲，但性能可能更好）。

下載DeepSeek R1量化版模型

打開你嘅命令提示字元或終端機，輸入以下命令來下載DeepSeek R1量化版模型：

ollama pull deepseek-llm:7b-chat-q4_0

輸入命令後，Ollama會開始從網絡下載模型文件。呢個過程可能需要啲時間，具體取決於你嘅網絡速度同模型大小。你會睇到下載進度條同百分比。請耐心等待，直到下載完成。

下載過程中，不妨睇睇我哋為你準備嘅視覺參考，想像下你嘅AI工作站啟動後嘅情境：

DeepSeek 模型本地部署情境

首次運行DeepSeek R1量化版

當模型下載完成後，你就可以立即運行佢喇！再次喺終端機中輸入以下命令：

ollama run deepseek-llm:7b-chat-q4_0

如果一切順利，你會再次進入一個互動式對話界面，今次你對話嘅對象就係你本地運行嘅DeepSeek R1量化剪裁版模型！你可以開始向佢提問，例如：

你好，可以介紹一下香港嘅主要旅遊景點嗎？
請幫我寫一篇關於中小企數字轉型嘅短文。
Ollama喺本地部署AI模型方面有咩優勢？

模型會喺你嘅本地顯示卡（如果支持）或CPU上進行推理，並即時回應你。當你完成對話後，同樣可以輸入 /bye 或按 Ctrl + D 退出。

高級應用與優化策略 (針對香港中小企及開發者)

成功運行DeepSeek R1模型只係個開始。對於香港嘅中小企同開發者嚟講，將呢個本地部署嘅AI能力整合到實際應用中，並持續優化，先至係發揮其最大價值嘅關鍵。

整合至應用程式

Ollama最吸引人嘅一點就係佢提供咗一個兼容OpenAI API嘅RESTful接口。呢個意味住你可以使用任何支持OpenAI API嘅客戶端庫，輕鬆調用你本地運行嘅DeepSeek模型。

Ollama REST API介紹： Ollama默認喺 http://localhost:11434/api 提供服務。你可以透過HTTP POST請求向 /api/generate、/api/chat 等端點發送請求。例如，發送一個聊天請求：
```
{
  "model": "deepseek-llm:7b-chat-q4_0",
  "messages": [
    {"role": "user", "content": "香港嘅網絡安全現況如何？"}
  ],
  "stream": false
}
```

Python或其他語言的客戶端庫： 你可以使用 requests 庫直接發送HTTP請求，或者使用專為Ollama設計嘅Python庫 ollama，甚至係 openai 庫（只需將Base URL指向Ollama服務器）。

Python 範例：

import ollama

def chat_with_deepseek(prompt):
    response = ollama.chat(model='deepseek-llm:7b-chat-q4_0', messages=[
        {'role': 'user', 'content': prompt},
    ])
    return response['message']['content']

if __name__ == "__main__":
    print("與本地DeepSeek AI對話 (輸入 'exit' 退出):")
    while True:
        user_input = input("你: ")
        if user_input.lower() == 'exit':
            break
        ai_response = chat_with_deepseek(user_input)
        print(f"DeepSeek: {ai_response}")

範例應用：
- 本地智能客服： 將 DeepSeek 整合到企業內部網站或通訊平台，處理客戶常見問題，保護客戶數據私隱。
- 內容生成助手： 協助市場部快速生成社交媒體文案、產品描述或博客文章。
- 內部知識庫查詢： 讓員工透過自然語言查詢企業內部文件同資料。
- 代碼輔助： 如果你部署的是 DeepSeek Coder 量化版，可以作為本地代碼生成或輔助開發工具。

性能監控與調優

要充分發揮本地AI模型嘅潛力，持續嘅監控同調優係不可或缺嘅。

顯示卡資源監控 (nvidia-smi)： 如果你使用NVIDIA顯示卡，打開終端機輸入 nvidia-smi 命令，可以實時查看顯示卡嘅使用率、記憶體佔用同溫度。呢個有助於判斷模型是否充分利用了顯示卡資源，或者是否存在記憶體瓶頸。
Ollama日誌分析： Ollama通常會將運行日誌輸出到終端機或指定文件。通過分析日誌，你可以了解模型加載時間、推理速度同可能嘅錯誤。
模型版本選擇： Ollama庫中提供嘅模型通常有唔同嘅量化程度（例如 q4_0, q4_K_M, q5_K_M 等）。q4_0 通常係最輕量嘅，但可能會犧牲少少精度；q5_K_M 會稍微佔用更多VRAM，但性能會更好。你可以根據自己顯示卡嘅VRAM容量同對性能嘅要求，測試唔同嘅量化版本，搵出最平衡嘅選擇。

網絡安全考量

對於香港企業嚟講，網絡安全同數據私隱永遠係首要考慮因素。本地部署AI模型喺呢方面具備天然優勢。

本地部署的安全性優勢： 數據無需上傳到第三方雲端服務器，所有處理都喺你嘅本地網絡內進行，大大降低咗數據洩漏嘅風險，符合嚴格嘅數據保護法規（例如GDPR或香港嘅PDPO）。
API訪問控制： 如果你打算將Ollama服務暴露喺本地網絡中供多個設備使用，確保設置防火牆規則，限制只有授權設備才能訪問 localhost:11434 端口。
定期更新Ollama及模型： Ollama同DeepSeek模型會不斷有更新，修復bug、提升性能或改進安全性。定期使用 ollama pull deepseek-llm:7b-chat-q4_0 來更新模型（如果Ollama庫有新版本），並關注Ollama官方發布嘅軟件更新，以確保你嘅系統保持最新同最安全嘅狀態。

以下圖片展示咗一個典型的AI開發者工作站概覽，提醒我哋喺享受技術帶來便利嘅同時，亦要注重設備同環境嘅優化：

AI 開發者工作站概覽

常見問題與解決方案

喺本地部署AI模型嘅過程中，你可能會遇到一啲常見問題。以下提供一啲解決方案：

模型下載失敗/緩慢：
- 網絡問題： 檢查你嘅互聯網連接。香港嘅網絡速度一般較快，如果下載緩慢，可能係Ollama服務器或你嘅ISP問題。嘗試更換DNS服務器。
- 代理設置： 如果你使用代理服務器，Ollama可能需要額外配置。參考Ollama官方文檔關於代理設置嘅說明。
- 存儲空間不足： 確保你嘅硬碟有足夠空間。
顯示卡記憶體不足 (OOM - Out Of Memory)：
- 選擇更小嘅量化模型： 嘗試下載更低位元嘅量化模型，例如從 q4_K_M 降到 q4_0，或選擇參數更少嘅模型（例如從7B降到3B）。
- 關閉其他應用程式： 關閉所有不必要嘅應用程式，特別係會佔用顯示卡記憶體嘅遊戲或繪圖軟件。
- 減少上下文長度： 喺調用API時，可以嘗試減少傳遞俾模型嘅上下文（prompt）長度。
模型運行緩慢：
- 顯示卡性能： 檢查 nvidia-smi（NVIDIA）或相應工具，確認顯示卡是否被充分利用。如果CPU使用率過高而顯示卡使用率低，可能係顯示卡驅動問題或模型無法正確調用GPU。
- CPU回退： 如果你嘅顯示卡記憶體不足，Ollama會將部分運算回退到CPU。CPU運算速度遠慢於GPU。嘗試升級顯示卡或選擇更小模型。
- 背景進程： 檢查是否有其他佔用CPU或GPU資源嘅背景進程。
Python API調用錯誤：
- Ollama服務未運行： 確保Ollama應用程式正在後台運行。喺macOS，應用程式圖標會喺菜單欄顯示。喺Windows，任務管理器會顯示 ollama.exe 進程。
- 端口衝突： 確認 localhost:11434 端口未被其他應用程式佔用。
- 模型名稱錯誤： 確保你在API調用中指定嘅模型名稱（例如 deepseek-llm:7b-chat-q4_0）同你已下載嘅模型名稱完全一致。

總結

今次嘅教學，我哋由淺入深，詳細講解咗點樣透過Ollama引擎，喺本地快速安裝 DeepSeek R1量化剪裁版大型語言模型。我哋探討咗Ollama同DeepSeek模型嘅各自優勢，特別係量化剪裁版對於香港中小企同個人開發者喺資源有限情況下嘅巨大價值。從環境準備、Ollama安裝、模型下載到運行，我哋提供咗完整嘅命令流同實用建議，並進一步探討咗高級應用、優化策略同網絡安全考量。

本地部署AI模型，唔單止係技術上嘅一次突破，更係為香港嘅數字轉型注入新動力。佢賦予咗我哋更大嘅控制權、更高嘅數據私隱度同更低嘅營運成本，為中小企開啟咗利用AI提升效率、創造價值嘅新篇章。

我深信，隨住更多類似Ollama嘅工具同更多高效嘅開源模型出現，AI技術將會變得更加普及，唔再係大型企業嘅專利。我鼓勵各位讀者，特別係香港嘅開發者同企業家，親自動手嘗試呢個教學，探索DeepSeek R1喺你業務中嘅無限可能。如果你喺實踐過程中遇到任何困難或有更多優化嘅心得，歡迎喺評論區留言分享，我哋共同學習，一同進步！

延伸閱讀與資源

Ollama官方網站： https://ollama.com/
Ollama模型庫： https://ollama.com/library
DeepSeek AI官方網站： https://deepseek-ai.com/ (了解更多關於DeepSeek系列模型嘅技術細節)
Ollama GitHub倉庫： https://github.com/ollama/ollama (參與社區討論，獲取最新更新)

← 上一篇： 香港法律事務所如何引入DeepSeek進行合同自動化審計
→ 下一篇： DeepSeek高效率提示詞：如何精準輸出香港商務常用術語