我們使用兩塊英特爾銳炫A770 16GB顯卡在Ubuntu操作系統下,雙銳離線部署了32B參數的炫A顯DeepSeek R1大模型,實現了高效的本地部署本地推理,實測生成階段的輕松Avg Generation Throughput可以穩定在26 tokens/s以上。
今年春節期間,雙銳科技圈最火的炫A顯一個名詞出現了,它就是本地部署“DeepSeek”,這個橫空出世的輕松開源大語言模型(LLM)讓人工智能以網絡熱門級的速度進入了億萬普通用戶的視野,更多的雙銳用戶知道了大模型,也開始使用大模型。炫A顯但正如DeepSeek火了之后其在線服務包括手機和APP和網頁端,本地部署經常出現服務器繁忙、輕松等待的雙銳情況,這就是炫A顯云端部署的缺點,往往伴隨著排隊、本地部署延遲、隱私和安全等問題。
因此本地部署大語言模型就成為許多用戶的新需求,與云端相比,本地部署LLM模型不僅不用排隊就可以實現即時推理,同時還有更好的穩定性和安全性,降低數據泄露和服務器故障的風險,一些不方便上傳云端的機密內容也可以在本地離線處理,確保用戶隱私。
(DeepSeek R1模型提供從1.5b到671b多個參數量版本)
但本地部署對于硬件還是有一定要求的,尤其是GPU算力,大家都知道顯存越大、算力越高,本地推理就會越快,但是想要獲得更完整的推理效果,7B參數的大模型是不夠用的,14B、32B甚至更大的70B模型才是必選項,而大顯存的顯卡價格不菲,除卻昂貴的企業級產品,即使是消費級的大顯存顯卡也是普通用戶難以承受的,以24GB顯存的RTX 4090顯卡為例,現在的價格也在一萬七千元左右,部署成本相當之高。
本文將介紹如何使用一萬元的預算來實現32GB顯存的本地DeepSeek R1大模型部署。其中顯卡部分使用兩塊英特爾銳炫A770 16GB顯卡組成,成本不到四千元,價格相當親民,可以有效控制預算。通過使用IPEX-LLM在Ubuntu操作系統下部署32B參數的DeepSeek R1大模型,實現高效的本地推理,實測生成階段的Avg Generation Throughput可以穩定在26 tokens/s以上。無論是在上下文生成還是代碼生成實例中,都表現出了極強的效率,并且整套系統的功耗控制在800瓦以下。
我們使用讓DeepSeek模型生成貪吃蛇游戲代碼的prompt來測試整個推理效率,完全在本地運行。
輸入Prompt為:
【請用html寫個貪吃蛇游戲的代碼,需要包含以下功能:
1. 使用鍵盤上的上下左右箭頭鍵控制蛇的移動方向
2. 蛇會自動向前移動,并在吃到紅色的食物時增長并增加得分
3. 當蛇碰到墻壁或自己時,游戲結束并顯示得分
4. 點擊重新開始按鈕可以重置游戲并重新開始
游戲規則:
·蛇不能碰到墻壁或自己,否則游戲結束
·每吃一個食物,得分增加10分
·食物不會出現在蛇的身體上】
在經過大約15秒鐘的推理過程之后,DeepSeek模型即開始輸出代碼,全部輸出完成耗時僅1分鐘。特別是,通過使用Open WebUI圖形界面交互時,在代碼完成后,還可以出現一個預覽窗口,這是我們可以使用鍵盤方向鍵控制蛇的移動,吃掉食物獲得分數,當蛇撞到墻壁或自己時,游戲結束。所見即所得,編程從未如此簡單。
(貪吃蛇代碼調整演示)
如果代碼有哪里不滿意,我們還可以繼續通過指令讓DeepSeek進行調整,例如第一次生成的代碼,蛇的移動速度太快,調整之后蛇的移動時間間隔增加到了200毫秒,這時玩起來就容易多了??傊?,在離線部署的DeepSeek下,你可以隨意提出自己的要求,實現工作效率的提升。
我們還嘗試了文本內容生成,在約3000漢字的文章生成測試中,后臺顯示Prefill階段的吞吐最高可以達28 .1 tokens/s,生成階段平均輸出速度約為25 tokens/s。我們以一個中文字符0.6個token算,生成速度大概為每秒鐘20個漢字,按人類平均每分鐘700字的閱讀速度來看,這套本地部署的DeepSeek R1模型生成速度已經大幅超越正常人類閱讀速度,十分的高效。
本次部署過程使用硬件平臺配置一覽:
關于具體的軟硬件部署有一些值得注意的地方,首先是硬件部分。我們搭配了英特爾酷睿Ultra 9 285K處理器與Z890主板,作為目前Intel桌面平臺的旗艦型號,其實是用不到這么高的配置的,因為大模型完全跑在GPU上,對于處理器的負載反倒不高,如果你選擇酷睿Ultra 7處理器或者Ultra 5處理器也是沒問題的。而之所以選擇Z890主板是由于需要至少兩個PCIE顯卡插槽,并且如果想要發揮出顯卡的全部帶寬優勢,選擇支持兩條x8通道拆分的主板會更好。同時如果你要是使用封閉機箱,還要考慮到顯卡干涉的問題。
內存方面,最好選擇大容量高速內存,以提升模型的加載和調用效率。我們使用的24GB*2 CUDIMM內存效率還不錯,只不過CUDIMM內存由于CKD原因現在價格較貴,并且主要針對超頻有利,因此使用普通的8000 MT/s DDR5內存也是沒問題的。因此如果進一步調整配置,是能做到整體硬件開銷在萬元之內的,相比單24GB/32GB顯存顯卡的方案那可是太實惠了。
值得注意的是電源,因為需要同時接入兩塊A770顯卡(此次使用的一塊A770還是來自藍戟的超頻版本),單卡TGP約在200瓦左右,加上我們使用的是Ultra 9處理器,因此選擇了鑫谷的GM1250瓦電源,更主要的原因是其支持4個PCIe 8Pin供電接口,能夠滿足兩塊A770雙8+6pin的供電需求。
至于操作系統,其實在Windows系統下也能實現雙銳炫A770顯卡的部署,只不過由于操作系統差異和機器學習架構的效率不同,其運行效率不如在Linux系統下更快。因此我們使用Ubuntu 22.04系統,這個版本已經由英特爾官方提供來了驅動適配和支持,兼容性很好。當然,如果你使用其它版本的Linux系統,可以參看intel官方支持頁面進行操作。
關于DeepSeek模型的部署,我們使用了采用Q4量化的DeepSeek R1-32B版本模型,可以在huggingface或者魔塔社區等進行下載。同時為了方便查看后臺運行情況,我們還使用了Open WebUI圖形界面來進行演示和檢測。
不過值得注意的是,由于我們使用了其中一塊銳炫A770顯卡的DP接口進行輸出,理論上會對顯卡運行大模型的效率產生一點影響,如果你采用局域網方式訪問后端,能夠讓兩塊銳炫A770完全集中到大模型的負載上,這點需要說明。
通過這套本地部署的方式,我們將兩張英特爾A770顯卡的顯存疊加使用,實現了32B參數DeepSeek R1大型模型的離線運行,并且實測運行效率很高,可以很方便地實現高效的推理和豐富的功能,如果你也有類似需求可以嘗試搭建自己的大模型服務器。
(作者:汽車配件)