算力是人工智能的底座,而算力集群好比AI世界的“發(fā)電機(jī)”,其高效調(diào)度與穩(wěn)定運維,直接決定了大模型等產(chǎn)業(yè)的發(fā)展速度。在上海儀電,一支平均年齡僅32歲的智算科技萬卡集群青年突擊隊,從零起步、邊干邊學(xué),不僅建成了國內(nèi)第一批萬卡集群,更實現(xiàn)了集群99.99%的高可用性,在算力這一全新領(lǐng)域跑出了屬于自己的速度。
最近一段時間,萬卡集群團(tuán)隊一直在“養(yǎng)”一只“龍蝦”,這只“龍蝦”并非OpenClaw,而是他們自主開發(fā)、面向技術(shù)領(lǐng)域工業(yè)場景的智能體。這一智能體將服務(wù)于企業(yè)的智算運維平臺,使其能更高效地應(yīng)對故障。
上海智算科技系統(tǒng)平臺部負(fù)責(zé)人翟雨佳指解釋,芯片具有高附加值,一分鐘甚至一小時的故障都可能造成數(shù)百萬元的損失,這一成本對任何企業(yè)而言都難以承受,因此他們的任務(wù)就是確保有限的資源發(fā)揮出最大的效能。
走進(jìn)上海儀電智算中心的機(jī)房,數(shù)萬張GPU設(shè)備整齊排列,高速網(wǎng)線交織運行。每張芯片每秒執(zhí)行67萬億次運算,它們匯聚的能量相當(dāng)于三峽水電站一臺機(jī)組一小時的發(fā)電量。團(tuán)隊的主要任務(wù),就是調(diào)度這些芯片,讓一萬張不同架構(gòu)、不同代際、不同技術(shù)參數(shù)的GPU精確協(xié)同。其難度好比讓上萬架無人機(jī)在密集的空域中高速穿梭。更難的是,這一萬張卡組成的集群必須全天不間斷提供服務(wù),因為在大模型訓(xùn)練過程中,哪怕僅一分鐘的故障中斷,都可能導(dǎo)致數(shù)十小時的訓(xùn)練成果付諸東流。
上海智算科技系統(tǒng)工程中心總監(jiān)、萬卡集群攻堅團(tuán)隊負(fù)責(zé)人胡寶群表示,他們的客戶主要是上海知名的AI企業(yè)以及一些科研機(jī)構(gòu),而他們是這些客戶的基座,只有自己做好了,客戶才能在此基礎(chǔ)上進(jìn)行科研突破。為此,團(tuán)隊成員常常連續(xù)兩三個月泡在機(jī)房里不斷調(diào)試,不斷尋找最優(yōu)解。
在團(tuán)隊的努力下,目前萬卡集群已實現(xiàn)99.99%的高可用性,相當(dāng)于全年總故障時間縮短到1小時以內(nèi)。這有力支撐了多模態(tài)大模型保持全球領(lǐng)先的訓(xùn)練進(jìn)度,保障了自動駕駛模型每天100萬公里的虛擬路測數(shù)據(jù)進(jìn)化,以及氣象大模型提前7天預(yù)警極端降雨。
儀電集團(tuán)人工智能產(chǎn)業(yè)發(fā)展部副總經(jīng)理、智算科技董事長孫躍介紹,除了打造更高效率的基礎(chǔ)設(shè)施,他們還將構(gòu)建一個更加彈性、更加靈活的智算云平臺,從而更好地賦能千行百業(yè)。
作為一家平臺型鏈主企業(yè),團(tuán)隊還在生態(tài)建設(shè)上持續(xù)發(fā)力,希望牽引產(chǎn)業(yè)鏈上下游,共同構(gòu)建自主可控的算力生態(tài)。
| 編輯: | 張?zhí)N昆 |
| 責(zé)編: | 周緹 |

劍網(wǎng)行動舉報電話:12318(市文化執(zhí)法總隊)、021-64334547(市版權(quán)局)
Copyright ? 2016 Kankanews.com Inc. All Rights Reserved. 看東方(上海)傳媒有限公司 版權(quán)所有

全部評論
暫無評論,快來發(fā)表你的評論吧