鄭緯民:AI大模型基礎設施亟待優化
在12月13日召開的第二屆數據安全治理年會上,中國工程院院士鄭緯民表示,我國人工智能基礎設施亟待優化,應從軟硬件兩方面突破瓶頸。
我國人工智能產業面臨軟硬件兩方面瓶頸
在會上,鄭緯民提出了算力“三大定律”:人類已經進入以算力為核心生產力的數字經濟時代,算力就是生產力,這是“時代定律”;當下,算力每12個月就增長一倍,算力資源增速顯著,已經打破摩爾定律,這是“增長定律”;算力每投入1元,就帶動3~4元GDP經濟增長,這是“經濟定律”。
近年來,我國人工智能產業發展呈指數級增長。鄭緯民表示,預計到2025年,中國人工智能產業規模將超過4500億元,帶動產生間接經濟效益超1.6萬億元。
鄭緯民直言,我國人工智能產業正面臨著軟件、硬件兩方面的瓶頸。
從硬件角度看,一方面,我國國產芯片產量不足。鄭緯民表示,2021年,我國人工智能服務器芯片總用量100萬片,其中,美國英偉達市場份額高達95%左右。
從軟件角度看,我國在算法等技術方面發展仍然有所欠缺,當前,谷歌和Meta的人工智能算法開發框架占中國人工智能市場份額的90%以上。
鄭緯民坦言,要解決當下面臨的問題,一是營造完善的人工智能服務器硬件生態,二是優化人工智能大模型基礎設施架構。
“4個平衡”優化大模型基礎設施
鄭緯民強調,在設計大模型基礎設施時,要思考“4個平衡”的優化問題。
一是半精度運算性能與雙精度運算性能的平衡設計。在計算機系統的內存中,半精度、單精度和雙精度是決定數據計算精確度的度量標準,雙精度比半精度更精密,但同時要占據更多存儲空間。鄭緯民提出,大模型設計中不僅要考慮16位的半精度運算性能,還要考慮支持64位的雙精度運算。他表示,最優的雙精度與半精度運算性能比為1:100。
二是網絡平衡設計。鄭緯民指出,在網絡設計方面,高帶寬、低延遲的網絡是極大規模預訓練模型運行的必要條件。“在訓練過程中,我們采用數據并行、模型并行和專家并行三種不同的并行方式,但這三種方式對互聯有不同的要求。”鄭緯民表示,“只有把通信做好,大模型才能順暢跑通。”
三是體系結構感知的內存平衡設計。通俗而言,大模型在訓練過程中使用的大量數據會產生大量的內存訪問請求;對內存平衡的優化,目的是提升模型訪存性能,從而提高模型訓練效率。
四是輸入輸出子系統平衡設計。鄭緯民指出,機器在執行大規模訓練任務時,發生硬件、軟件錯誤在所難免。針對這樣的情況,容錯檢查點成為了大模型訓練中的一道“保險閘”。容錯檢查點設置不足,會導致模型訓練效率降低;檢查設置過于頻繁,則會浪費大量時間和存儲空間。因此,優化檢查點存儲在大模型訓練中的重要性不言而喻。
“以上四點平衡的問題得到解決,AI大模型將實現快速發展。”鄭緯民總結道。
(來源:中國電子報)