導讀:據(jù)外媒報道,英偉達最新AI芯片Blackwell因機架過熱和連接異常故障,導致微軟、亞馬遜AWS、谷歌、Meta等客戶削減訂單,股價一度重挫近5%。
1/15/2025,光纖在線訊,美國時間 1 月 13 日,英偉達最新一代人工智能芯片 Blackwell 在部署至數(shù)據(jù)中心時遭遇嚴重技術(shù)問題,引發(fā)行業(yè)震動。其主要故障表現(xiàn)為服務器機架過熱及芯片連接異常,這對數(shù)據(jù)中心的部署進程形成了極大阻礙。
微軟、亞馬遜旗下 AWS、谷歌、Meta 等英偉達的重要客戶紛紛削減了部分 Blackwell GB200 機架的訂單。這些科技巨頭原本對 Blackwell 芯片寄予厚望,因其與上一代產(chǎn)品 Hopper 相比,能源效率大幅提高了四倍。此前每家公司都下達了價值超 100 億美元的訂單,但如今的技術(shù)問題使他們改變了計劃。
以微軟為例,作為 OpenAI 的服務器提供商,原計劃在鳳凰城的一個設施中安裝至少包含 5 萬枚 Blackwell 芯片的 GB200 機架。然而,由于 Blackwell 芯片自去年起便延遲交付,OpenAI 要求微軟盡早提供上一代英偉達 H200 芯片,致使鳳凰城數(shù)據(jù)中心如今已裝滿 H200 芯片。目前微軟計劃在今年 3 月于該設施中安裝約 12000 枚 Blackwell 芯片的 GB200 機架,僅約為最初計劃的四分之一,且還打算在今年晚些時候 GB300 Blackwell 機架上市時進行采購。
2024年11月時,英偉達首席執(zhí)行官黃仁勛曾表示,Blackwell芯片已全面投產(chǎn),預計未來幾個季度供不應求,且最新財季銷售有望超預期。但此前有報道稱,英偉達在裝有 72 個處理器的服務器中使用時,每個機架的功耗可能高達 120 千瓦,產(chǎn)生嚴重過熱現(xiàn)象,不僅限制了 GPU 性能,還增加了組件損壞風險,給數(shù)據(jù)中心的散熱和電力供應以及新數(shù)據(jù)中心啟用和運營帶來諸多挑戰(zhàn),盡管黃仁勛否認了這一報道,但英偉達的 Blackwell 芯片之后也經(jīng)歷了多次延遲交付,此次又因過熱和互聯(lián)故障等問題再次延遲交付。部分客戶在削減訂單后,開始尋求替代方案。一些客戶選擇等待可能在今年下半年推出的改進版本,另一些則計劃采購英偉達的舊款 AI 芯片。盡管英偉達推薦整機架方案,但部分客戶傾向于單獨購買 Blackwell 芯片自行組裝。
受此消息影響,英偉達股價在美股早盤一度跌超 4.7%,最終收跌 1.97%。目前尚不清楚客戶削減訂單是否會對英偉達銷售造成長期影響,畢竟可能存在其他買家購買問題 GB200 服務器機架。此外,美國政府于 1 月 13 日發(fā)布的人工智能相關(guān)出口管制措施,也可能對英偉達等美國主要芯片企業(yè)產(chǎn)生影響。英偉達公司已發(fā)表聲明,批評該管制措施會 “阻礙技術(shù)革新和經(jīng)濟增長”,其生產(chǎn)的尖端 AI 半導體預計將成為管制對象。
【編者短評】
此次英偉達AI芯片Blackwell的故障事件,不僅對英偉達自身的業(yè)務發(fā)展產(chǎn)生了重大影響,也引發(fā)了整個行業(yè)對AI芯片技術(shù)研發(fā)和供應鏈穩(wěn)定性的深入思考。一方面,這凸顯了在高性能計算領(lǐng)域,技術(shù)進步與產(chǎn)品穩(wěn)定性之間需要找到更好的平衡。英偉達作為行業(yè)領(lǐng)導者,在追求更高性能的同時,必須更加注重產(chǎn)品的可靠性和穩(wěn)定性,以避免類似事件的再次發(fā)生。
另一方面,這一事件也為英偉達的競爭對手提供了機遇。AMD和其他高性能計算解決方案提供商可能會吸引英偉達的客戶群體,尤其是在這些客戶面臨推遲交付的問題時,這也促使消費者在選擇硬件時更加關(guān)注產(chǎn)品的穩(wěn)定性與性價比,尤其是在AI和云計算逐漸成為市場主流的背景下。
光纖在線公眾號
更多猛料!歡迎掃描左方二維碼關(guān)注光纖在線官方微信