![]()
你以為同款GPU性能都差不多?事實并非如此。來自威廉與瑪麗學院、杰斐遜實驗室和Silicon Data的研究表明,相同型號的芯片在實際性能上存在令人意外的差異。這意味著從云服務商租用GPU時,能否物有所值,很大程度上取決于運氣。
"這就是所謂的'硅彩票'效應,"Silicon Data創始人兼CEO Carmen Li說道。Silicon Data專注于追蹤GPU租賃價格并對云計算性能進行基準測試。
硅彩票效應早在2022年就已被發現,當時威斯康星大學的研究人員將其與依賴GPU的超級計算機性能波動聯系起來。Li和她的同事認為,這一效應對AI云計算用戶的影響會更為顯著。
云端GPU性能因型號而異
為此,研究團隊在11家云計算服務商隨機抽取的3500塊GPU上,運行了6800次基準測試。這3500塊GPU涵蓋11種英偉達GPU型號,其中最先進的是英偉達H200 SXM。(研究團隊并非專門針對英偉達,只是因為英偉達在GPU租賃云市場占據主導地位。)
該基準測試名為SiliconMark,旨在評估GPU運行大語言模型的能力,測試指標包括以每秒萬億次運算為單位的16位浮點計算性能,以及以GB/s為單位的GPU內存帶寬。
測試結果顯示,所有型號的GPU計算性能均存在差異。其中,259塊H100 PCIe GPU的性能差異最高達34.5%,253塊H200 SXM GPU的內存帶寬差異最高達38%。
GPU的散熱方式、云服務商的服務器配置方式,以及芯片的使用時長,都可能導致同款芯片出現性能差異。但Silicon Data的分析表明,真正的根源在于芯片本身的制造差異。
這種隨機性帶來了實實在在的經濟影響。研究人員指出,價格更高、型號更新的GPU,其實際性能未必優于舊款芯片。
那么,GPU租用者該怎么辦?"最實際的做法是對實際租到的GPU進行基準測試,"Silicon Data基礎設施負責人Jason Cornick表示,"使用SiliconMark等基準測試工具,可以將具體實例的性能與更大范圍的數據進行橫向比較。"
Q&A
Q1:什么是"硅彩票"效應?它對GPU租用有什么影響?
A:硅彩票效應是指同款GPU芯片之間存在性能差異的現象,根源在于芯片制造過程中的細微差異。對于GPU租用者來說,這意味著即使租用相同型號的GPU,實際獲得的性能也可能相差懸殊。研究顯示,H100 PCIe GPU的性能差異最高達34.5%,H200 SXM的內存帶寬差異最高達38%,這直接影響到租用者能否物有所值。
Q2:SiliconMark基準測試具體測什么?
A:SiliconMark是由Silicon Data開發的基準測試工具,專門用于評估GPU運行大語言模型的能力。它主要測試兩項指標:一是16位浮點計算性能,以每秒萬億次運算為單位衡量;二是GPU內存帶寬,以GB/s為單位衡量。通過這兩項指標,用戶可以了解所租GPU的實際性能,并與同型號GPU的整體數據進行比較。
Q3:租用GPU時如何避免因硅彩票效應而吃虧?
A:Silicon Data基礎設施負責人Jason Cornick建議,最實際的做法是在拿到租用的GPU后,立即使用SiliconMark等基準測試工具進行性能測試。通過將測試結果與大量同型號GPU的數據進行對比,可以判斷所租GPU的性能是否達標,從而決定是否需要更換實例,避免為性能不達標的芯片支付高價。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.