這兩天DeepSeek開源3FS并行文件系統(tǒng)的消息,猶如向AI基礎(chǔ)設施領(lǐng)域投下一枚深水炸彈。3FS每秒能搬運6.6TB數(shù)據(jù),相當于1秒鐘傳輸完700部4K高清電影。還能自動調(diào)資源,國產(chǎn)芯片用了它,跟國際大牌的差距直接縮小到15%。
這并非簡單的技術(shù)迭代——當Llama3 70B模型單次訓練需吞掉15PB數(shù)據(jù)(相當于連續(xù)播放250萬小時4K視頻)時,全球AI實驗室突然意識到:決定大模型訓練效率的不僅是GPU算力,存儲系統(tǒng)正成為影響進度的一大瓶頸。
當AI算力狂飆時,存儲正在成為隱形戰(zhàn)場
2024年,某頭部AI公司曾因存儲帶寬不足,導致2000張A100顯卡的算力利用率長期低于40%,單日經(jīng)濟損失超百萬美元。這暴露了AI時代的“木桶效應”——當GPU計算速度進入微秒級時,一次突發(fā)的存儲抖動就可能導致整個訓練任務崩潰,讓數(shù)周的計算成果瞬間蒸發(fā)。這或許也是DeepSeek自研存儲的原因。
數(shù)據(jù)顯示,存儲優(yōu)化可直接將175B參數(shù)模型的訓練周期壓縮30%,對應百萬美元級的成本被填平。而在推理端,當10%的異常請求遭遇存儲延遲波動時,P99響應時間會瞬間突破SLA紅線,這正是某自動駕駛公司在線服務突發(fā)降級的根本誘因。
DeepSeek之所以選擇自研3FS的本質(zhì),正是發(fā)現(xiàn)了存儲架構(gòu)在AI應用中的重要性。《金融行業(yè)先進AI存力報告》中提到,在同樣的GPU算力規(guī)模下,存儲性能的高低可能造成模型訓練周期數(shù)倍的差異。在算力競賽的背后,一場關(guān)于存儲性能密度的暗戰(zhàn)悄然升級,自研存儲顯得尤為重要。
5家頭部廠商角逐AI存儲,國產(chǎn)能否拔得頭籌
相比于傳統(tǒng)AI的需求,大模型對存力需求場景具有數(shù)據(jù)量大、參數(shù)規(guī)模大、訓練周期長等特點。
為了提升大模型訓練速度,需要對大規(guī)模數(shù)據(jù)集進行快速加載,且一般采用數(shù)百甚至上萬張GPU構(gòu)成計算集群進行高效的并行計算,需要高并發(fā)輸入/輸出(I/O)處理,而訓練數(shù)據(jù)集呈現(xiàn)海量小文件的特點,文件量在幾億到幾十億量級,對應的帶寬需求可能每秒要達到上TB,這就要求存儲系統(tǒng)具備強大的數(shù)據(jù)管理能力,業(yè)界能達到該能力的僅寥寥幾家。
從國內(nèi)外優(yōu)秀的并行存儲產(chǎn)品具體能力對比來看,IBM作為老牌存儲品牌,其產(chǎn)品從HPC場景成功向AI場景演進。在全球AI場景得到廣泛應用的DDN,多個讀、寫帶寬等關(guān)鍵性能指標上表現(xiàn)突出,但DDN由于技術(shù)封閉性、專有化硬件等原因,導致用戶建設成本過高。
國產(chǎn)廠商DeepSeek 3FS雖然是開源的新產(chǎn)品,但相對老牌存儲也有不錯的表現(xiàn),在讀帶寬能力上表現(xiàn)優(yōu)異,單集群6.6TB/s,平均單節(jié)點36.7GB/s的讀帶寬。
另一家國產(chǎn)廠商京東云云海,在這個專業(yè)領(lǐng)域同樣表現(xiàn)出色,以單節(jié)點95GB/s的讀帶寬、60GB/s的寫帶寬,進一步拉低了國產(chǎn)存儲與國際老牌廠商的差距。相較于DeepSeek的3FS,京東云云海在提供高性能的同時適用性更廣,可以同時滿足DeepSeek、ChatGPT、LLaMA等20余種主流大模型的存力需求。
綜上來看,隨著大模型快速向縱深場景演進,對存儲的要求也越來越高,DeepSeek 3FS、京東云云海等國產(chǎn)存儲,顯示出在處理大規(guī)模數(shù)據(jù)集時的優(yōu)越性能。未來國產(chǎn)存儲能否拔得頭籌,讓我們拭目以待。
這兩天DeepSeek開源3FS并行文件系統(tǒng)的消息,猶如向AI基礎(chǔ)設施領(lǐng)域投下一枚深水炸彈。3FS每秒能搬運6.6TB數(shù)據(jù),相當于1秒鐘傳輸完700部4K高清電影。還能自動調(diào)資源,國產(chǎn)芯片用了它,跟國際大牌的差距直接縮小到15%。
這并非簡單的技術(shù)迭代——當Llama3 70B模型單次訓練需吞掉15PB數(shù)據(jù)(相當于連續(xù)播放250萬小時4K視頻)時,全球AI實驗室突然意識到:決定大模型訓練效率的不僅是GPU算力,存儲系統(tǒng)正成為影響進度的一大瓶頸。
當AI算力狂飆時,存儲正在成為隱形戰(zhàn)場
2024年,某頭部AI公司曾因存儲帶寬不足,導致2000張A100顯卡的算力利用率長期低于40%,單日經(jīng)濟損失超百萬美元。這暴露了AI時代的“木桶效應”——當GPU計算速度進入微秒級時,一次突發(fā)的存儲抖動就可能導致整個訓練任務崩潰,讓數(shù)周的計算成果瞬間蒸發(fā)。這或許也是DeepSeek自研存儲的原因。
數(shù)據(jù)顯示,存儲優(yōu)化可直接將175B參數(shù)模型的訓練周期壓縮30%,對應百萬美元級的成本被填平。而在推理端,當10%的異常請求遭遇存儲延遲波動時,P99響應時間會瞬間突破SLA紅線,這正是某自動駕駛公司在線服務突發(fā)降級的根本誘因。
DeepSeek之所以選擇自研3FS的本質(zhì),正是發(fā)現(xiàn)了存儲架構(gòu)在AI應用中的重要性。《金融行業(yè)先進AI存力報告》中提到,在同樣的GPU算力規(guī)模下,存儲性能的高低可能造成模型訓練周期數(shù)倍的差異。在算力競賽的背后,一場關(guān)于存儲性能密度的暗戰(zhàn)悄然升級,自研存儲顯得尤為重要。
5家頭部廠商角逐AI存儲,國產(chǎn)能否拔得頭籌
相比于傳統(tǒng)AI的需求,大模型對存力需求場景具有數(shù)據(jù)量大、參數(shù)規(guī)模大、訓練周期長等特點。
為了提升大模型訓練速度,需要對大規(guī)模數(shù)據(jù)集進行快速加載,且一般采用數(shù)百甚至上萬張GPU構(gòu)成計算集群進行高效的并行計算,需要高并發(fā)輸入/輸出(I/O)處理,而訓練數(shù)據(jù)集呈現(xiàn)海量小文件的特點,文件量在幾億到幾十億量級,對應的帶寬需求可能每秒要達到上TB,這就要求存儲系統(tǒng)具備強大的數(shù)據(jù)管理能力,業(yè)界能達到該能力的僅寥寥幾家。
從國內(nèi)外優(yōu)秀的并行存儲產(chǎn)品具體能力對比來看,IBM作為老牌存儲品牌,其產(chǎn)品從HPC場景成功向AI場景演進。在全球AI場景得到廣泛應用的DDN,多個讀、寫帶寬等關(guān)鍵性能指標上表現(xiàn)突出,但DDN由于技術(shù)封閉性、專有化硬件等原因,導致用戶建設成本過高。
國產(chǎn)廠商DeepSeek 3FS雖然是開源的新產(chǎn)品,但相對老牌存儲也有不錯的表現(xiàn),在讀帶寬能力上表現(xiàn)優(yōu)異,單集群6.6TB/s,平均單節(jié)點36.7GB/s的讀帶寬。
另一家國產(chǎn)廠商京東云云海,在這個專業(yè)領(lǐng)域同樣表現(xiàn)出色,以單節(jié)點95GB/s的讀帶寬、60GB/s的寫帶寬,進一步拉低了國產(chǎn)存儲與國際老牌廠商的差距。相較于DeepSeek的3FS,京東云云海在提供高性能的同時適用性更廣,可以同時滿足DeepSeek、ChatGPT、LLaMA等20余種主流大模型的存力需求。
綜上來看,隨著大模型快速向縱深場景演進,對存儲的要求也越來越高,DeepSeek 3FS、京東云云海等國產(chǎn)存儲,顯示出在處理大規(guī)模數(shù)據(jù)集時的優(yōu)越性能。未來國產(chǎn)存儲能否拔得頭籌,讓我們拭目以待。
本文鏈接:http://jphkf.cn/news-2-1074-0.html當紅炸子雞DeepSeek,為何花心思自研存儲?
聲明:本網(wǎng)頁內(nèi)容由互聯(lián)網(wǎng)博主自發(fā)貢獻,不代表本站觀點,本站不承擔任何法律責任。天上不會到餡餅,請大家謹防詐騙!若有侵權(quán)等問題請及時與本網(wǎng)聯(lián)系,我們將在第一時間刪除處理。
上一篇:“七星連珠”為何并非“罕見奇觀”
點擊右上角微信好友
朋友圈
點擊瀏覽器下方“”分享微信好友Safari瀏覽器請點擊“
”按鈕
點擊右上角QQ
點擊瀏覽器下方“”分享QQ好友Safari瀏覽器請點擊“
”按鈕