<th id="hyge7"></th>

      1. <bdo id="hyge7"><tt id="hyge7"><dl id="hyge7"></dl></tt></bdo>

        關(guān)于我們 | English | 網(wǎng)站地圖

        杜坤:Al對數據中心的影響

        2024-09-19 14:05:30 中國能源網(wǎng)

        華為數字能源中國區產(chǎn)品總監 杜坤:AI的業(yè)務(wù)模式是變化的,與傳統數據中心的建設不一樣,單機柜功率密度提升,服務(wù)器在時(shí)刻變化,半年以后可能摩爾定律會(huì )極其迅速地帶來(lái)一個(gè)產(chǎn)品的迭代和更多的變化。

        我們如何在這種變化的環(huán)境下去適配,或者響應業(yè)務(wù)快速建設的特征,來(lái)靈活應對一個(gè)多元算力。未來(lái)數據中心的建設一定包含AI、包含通算、包含存儲一系列綜合業(yè)務(wù)的集合。產(chǎn)品的模塊化從供電設施到智能設施基礎的模塊化的搭建,一個(gè)最小的單元化積木式的快速響應是必需的?;诂F在制冷形式的不確定,我們可能要在機房空間內實(shí)現液冷和風(fēng)冷兼容的設計。對于我們來(lái)說(shuō),在沒(méi)有決定服務(wù)器具體用哪種模式,業(yè)務(wù)承載以什么形式去做的時(shí)候,我們可能會(huì )用一定空間上的犧牲,來(lái)滿(mǎn)足方案的靈活性。

        如果按照端到端的概念去做一個(gè)數據中心基礎設施的建設,我們從最開(kāi)始資源的獲取,現在A(yíng)I對電力的消耗可能是通算消耗的5~10倍甚至更多,我們如何去拿到更多快速的能評、更多的土地和更多其他的資源,這部分是我們在前置規劃建設時(shí)就需要考慮的問(wèn)題。

        在我們拿到相關(guān)設備的基礎條件以及整體項目的報批報建完成之后,如何快速協(xié)同去做交付?全部完成只是做到了能源的底層,到第三層我們才會(huì )做到機柜交付和業(yè)務(wù)部署的上線(xiàn)。目前從整體策略來(lái)看我們還是建議在業(yè)務(wù)部署前期應該有一個(gè)清晰的規劃,有彈性的方案架構的匹配,以及在業(yè)務(wù)部署的中后期,我們能夠實(shí)現業(yè)務(wù)整柜的快速交付以及業(yè)務(wù)的快速調試和上線(xiàn),這部分都需要根據現有的經(jīng)驗做合理的預估,控制相關(guān)的投資風(fēng)險。因為AI現在投資的風(fēng)險相對通算來(lái)說(shuō)會(huì )更加龐大。

        應對快速建設,我們通過(guò)標準化的架構,模塊化的設備,基線(xiàn)化的協(xié)同,這是我們目前交付的為數不多的幾十個(gè)項目中積累的一些經(jīng)驗。比如最開(kāi)始我們要做到業(yè)主側的聯(lián)合規劃設計落地,并且在后期基于L1和L2層相關(guān)的協(xié)同的交付實(shí)施,作出明確的方案?;诤笃诘倪\維,我們要綜合評估包括業(yè)主的能力以及相關(guān)運營(yíng)公司的能力,最終在運營(yíng)上做一定的協(xié)同優(yōu)化,這是我們四大階段要做的事情,具體細化上還有更多方式去解決。

        對于我們來(lái)說(shuō),設備安裝層面也是基于這四大設施情況下做一個(gè)全流程的協(xié)同,能做到高質(zhì)量完全的交付。在我們的TTM(即時(shí)通訊軟件)上,通過(guò)有效的工具,我們能夠節省30%以上的上線(xiàn)時(shí)間,以解決現有業(yè)務(wù)爆發(fā)和相關(guān)業(yè)務(wù)快速部署的要求。

        目前AI的電力消耗是巨大的,所以對我們來(lái)說(shuō),有可能出現一個(gè)問(wèn)題,原來(lái)輔助的配電用房的占地面積只有10%~15%,但是隨著(zhù)單機柜功率密度顯著(zhù)提高甚至部分液冷設備上線(xiàn),輔助空間設施將極致壓縮。這時(shí)集成化、高密化的方案也逐步成為主流。在主業(yè)務(wù)還沒(méi)有明確之前,相對穩定的市電申請下來(lái)之后就開(kāi)始提前部署,甚至提前做電力模塊交付的相關(guān)產(chǎn)品的采購和整個(gè)設備的部署。這樣有兩大好處,第一個(gè)是通過(guò)智能化的管理,能夠對供配電的可靠性做到極大提升。第二個(gè)是由于高密化部署的產(chǎn)品特點(diǎn),能夠讓可部署機柜的出柜率得到顯著(zhù)提升。

        供電架構的基礎設施,也是業(yè)界很多先行者會(huì )考慮的事情。既然AI這么耗電,我為什么還要做2N的架構(一種數據中心供配電系統架構),能不能做兩路市電,來(lái)避免甚至減緩這個(gè)特征帶來(lái)的影響。這里就有一個(gè)很明確的觀(guān)點(diǎn),第一,我們要考慮基于現在最新的AI服務(wù)器的定價(jià),如果按照訓練服務(wù)器定價(jià),8點(diǎn)節2.5P的算力服務(wù)器采購金額在150萬(wàn)甚至250萬(wàn)之間,相對于通算服務(wù)器,這是一個(gè)非常大的投資。L1這部分的占比,相對于總投資來(lái)說(shuō)有一個(gè)下降。第二個(gè)要素,對服務(wù)器來(lái)說(shuō),所有的設備我們如何去影響它的可靠性,由于高溫,由于供電不穩定,由于一系列其他的故障所帶來(lái)的問(wèn)題,因為現在的服務(wù)器很貴,服務(wù)器是一個(gè)很金貴的設備,所以對于我們來(lái)說(shuō)傳統的2N架構,供電質(zhì)量的可靠性以及相關(guān)特性的保障也變得更加重要。

        后續的供電是長(cháng)時(shí)間的并行計算,出現了市電中斷的閃斷可能沒(méi)有數據丟失的風(fēng)險,但是對于算力或者電力的消耗指標也是相當恐怖的,所以對于我們來(lái)說(shuō),一旦能夠有效地保證能源供應,避免因為電力的中斷帶來(lái)的服務(wù)器的并行重新計算,對我們來(lái)說(shuō)在能源包括成本上的控制也是相對有效的措施。所以2N架構的UPS(不間斷電源)的供配電方案,我們后續依然認為是AI供配電主流的配置。

        負載的突增突減,基于算力的業(yè)務(wù)來(lái)說(shuō)無(wú)法避免,而且負載的長(cháng)期大算力不并行計算也是特點(diǎn),架構上我們必須要關(guān)注一點(diǎn),就是高壓直流也好,UPS也好,具備短時(shí)間的過(guò)載特性,以滿(mǎn)足現有的業(yè)務(wù)特征?,F在有一個(gè)行之有效的辦法,比如在市電容量一定的情況,作為數據中心,有一部分儲能設備會(huì )用來(lái)作為數據中心能源供給的后備,在市電容量已經(jīng)滿(mǎn)負荷的情況下,可以通過(guò)儲能聯(lián)合供電來(lái)解決一部分負載突增突減的問(wèn)題。如果采用常規的鉛酸電池,由于它的放電次數和放電倍率的問(wèn)題,無(wú)法做到有效的、長(cháng)期的能源突增突減后備軍的力量,所以鋰電后續的常規化應用,后期是動(dòng)力電池甚至中壓側儲能電池的應用,也將逐步成為數據中心更換的主流,以解決我們提到的負載突增突減變化的特點(diǎn)。

        冷卻。AI最大的特點(diǎn)就是在冷卻部分到底是風(fēng)冷還是液冷。到目前為止,風(fēng)冷的服務(wù)器依然是業(yè)界發(fā)貨的主流,液冷服務(wù)器有各種各樣的模式。所有服務(wù)器的廠(chǎng)商現在基于A(yíng)I的場(chǎng)景都在不停地推出風(fēng)冷和液冷兼具的服務(wù)器的解決方案,我們目前明確在單機柜40千瓦左右,40千瓦以上我們推薦用液冷或者風(fēng)液融合的方案,40千瓦以下傳統的風(fēng)冷場(chǎng)景依然還是能夠解決現在建設的訴求。

        液冷和風(fēng)冷這兩個(gè)方案,未來(lái)誰(shuí)都不會(huì )有絕對化的優(yōu)勢做完全的取代。風(fēng)冷相對PUE(電源使用效率)或者整體的占地面積會(huì )有一定的提升,液冷的PUE會(huì )比風(fēng)冷至少高0.1甚至0.15以上,相應的出柜率及其功率密度能夠得到有效的提升,但從整體成本以及后期維護的簡(jiǎn)易度來(lái)看,它有一定的劣勢。未來(lái)隨著(zhù)液冷服務(wù)器批量開(kāi)放使用,以及由于發(fā)貨量帶來(lái)的成本下降,液冷后續將逐步在整體的服務(wù)器占比中有一定量的提升,后續有可能做到1:1甚至更高的比例。

        有一點(diǎn)必須要明確,未來(lái)液冷將占一定的比例,但目前我們做整個(gè)數據中心的部署,對我們的要求就是要做到可以風(fēng)也可以液,風(fēng)液可調,風(fēng)液融合,以適配更多的場(chǎng)景。

        冷卻問(wèn)題,在我們的訓練模型做了一定沉淀之后,模型最終的可用性、成熟度達到上線(xiàn),大家會(huì )聚焦到推理模式,冷電融合以及連續制冷的需求是未來(lái)的剛需。按照我們自己的測試來(lái)看,一個(gè)3千瓦的機柜如果出現溫度到40度的情況下只需要8分鐘,后續20千瓦到40千瓦非連續制冷模式,可能1分鐘之內機柜就會(huì )因為過(guò)熱帶來(lái)業(yè)務(wù)宕機。無(wú)論是以后AI層面的大中型數據中心還是中小型數據中心,連續制冷都是未來(lái)的剛需。目前來(lái)看在通算這個(gè)領(lǐng)域,單機柜功率密度沒(méi)有提升,客戶(hù)訴求和痛點(diǎn)并不明顯。華為公司在相應的架構上也做了一定的優(yōu)化,以保證這個(gè)功能的提升。

        基于我們目前AI的模式,在訓練模式、百柜千柜的大型IDC(互聯(lián)網(wǎng)數據中心)的情況下,我們有融合化的解決方案,有電力模塊,有間接蒸發(fā)冷卻系統,大型設備還是以部件為主,在中小型的模型場(chǎng)景,有預制模塊化和微模塊的解決方案,以適配業(yè)務(wù)的快速部署和快速上線(xiàn)。未來(lái)基于A(yíng)I層面相關(guān)的應用以及AI層面相關(guān)的業(yè)務(wù),華為公司將持續關(guān)注,與我們客戶(hù)、伙伴攜手打造更多的數據中心類(lèi)的AI管理,將更新的管理技術(shù)以及更好的模塊化的輔助產(chǎn)品提供給客戶(hù),創(chuàng )造更多的價(jià)值,滿(mǎn)足客戶(hù)的需求。




        責任編輯: 張磊

        久久99r66热这里有精品 99久久99久久久精品 久久久亚洲精品不卡 亚洲午夜久久久久精品
        <th id="hyge7"></th>

          1. <bdo id="hyge7"><tt id="hyge7"><dl id="hyge7"></dl></tt></bdo>