破局,強強攜手激活CPU AI算力
近日,紫光股份旗下新華三集團攜手英特爾,推出基于第四代英特爾®至強®可擴展處理器的H3C UniServer R6900 G6大模型微調及推理解決方案,充分釋放CPU的AI算力,降低了AI訓練及推理場(chǎng)景所需的基礎設施總體擁有成本,使中小企業(yè)能夠迅速融入AGI的革新潮流。
該方案可滿(mǎn)足7B、13B、30B、34B等大模型微調和推理的不同參數量級,通過(guò)檢索增強生成技術(shù)(Retrieval-Augmented Generation,RAG),可達到與通用大模型接近的理想效果,從而快速實(shí)現面向特定領(lǐng)域的AI應用落地部署。
革新,四大技術(shù)開(kāi)辟AGI新天地
H3C UniServer R6900 G6服務(wù)器大模型微調及推理解決方案,成功展示了基于中等參數量級(34B及以下)大模型的微調和推理能力。其得益于四大重要技術(shù)突 破:
-
英特爾第四代至強平臺加速大模型的訓練和推理能力
第四代英特爾®至強®可擴展處理器內置的英特爾®AMX加速引擎是面向深度學(xué)習工作負載的新一代技術(shù)。該技術(shù)不僅延續了上一代英特爾至強可擴展處理器的內置AI加速技術(shù),還帶來(lái)性能提升,非常適合自然語(yǔ)言處理、推薦系統和圖像識別等工作負載。英特爾®AMX可提高平鋪乘法性能,提升吞吐量,使用PyTorch進(jìn)行實(shí)時(shí)推理和訓練,相比上一代處理器提升了3-10倍的推理和訓練性能。
-
新華三集團四路服務(wù)器突破單機算力瓶頸
在微調場(chǎng)景下,部署NVMe硬盤(pán)的數量決定了應用性能的高低。H3C UniServer R6900 G6四路服務(wù)器單機可部署32塊NVMe硬盤(pán),采用高帶寬低延遲的UPI互聯(lián)方案,能夠實(shí)現CPU算力的高速橫向倍增。這意味著(zhù)可在一個(gè)節點(diǎn)上完成所有的計算任務(wù),從而完全避免了分布式訓練帶來(lái)的各種問(wèn)題,助力客戶(hù)的微調應用。
-
微調場(chǎng)景下CPU突破顯存限制
以L(fǎng)lama-2 30B模型為例,在進(jìn)行16位浮點(diǎn)數訓練時(shí),如果訓練批量大小被設定為16并且使用Adam優(yōu)化器,估算需要600GB左右的顯存才能成功完成30B模型的LoRA微調。傳統GPU的方案無(wú)論是成本還是供應能力,都給中小企業(yè)帶來(lái)了挑戰。H3C UniServer R6900 G6服務(wù)器可提供高達16TB的內存容量,相比于GPU方案,能夠減少顯存壓縮和多卡間數據通信的消耗,從而完成微調訓練任務(wù),打破顯存限制。
-
突破現有生態(tài)的限制
此外,英特爾還提供了一系列基于PyTorch框架的軟件優(yōu)化措施。這些優(yōu)化被集成在英特爾的IPEX(Intel® Extension for PyTorch)開(kāi)源軟件庫中,旨在進(jìn)一步提升模型的性能和效率。生態(tài)體系層面,IPEX配合PyTorch,支持PyTorch框架下90%的主流模型,其中深度優(yōu)化模型有50個(gè)以上??蛻?hù)只要通過(guò)簡(jiǎn)單幾步即可完成BF16混合精度轉換,模型即可在保持精度的同時(shí)在CPU上部署。
得益于成功的生態(tài)合作和技術(shù)突破,H3C UniServer R6900 G6大模型微調及推理解決方案已在多種尺寸的模型中進(jìn)行了性能測試,充分驗證了性能實(shí)力。
數字定義世界,AI定義未來(lái)。隨著(zhù)數實(shí)融合趨勢的不斷加速,新華三集團將秉持“精耕務(wù)實(shí),為時(shí)代賦智慧”的理念,持續攜手包括英特爾在內的合作伙伴,為百行百業(yè)客戶(hù)提供多樣化的智算產(chǎn)品與方案,以“一體·兩中樞”的智慧計算體系,不斷推進(jìn)AI產(chǎn)業(yè)的變革升級。