研發(fā)類GPU集群任務(wù)數(shù)據(jù)集的構(gòu)建及分析
計(jì)算機(jī)工程與科學(xué)
頁數(shù): 10 2024-12-15
摘要: 近年來,隨著深度學(xué)習(xí)模型訓(xùn)練需求增長,研究機(jī)構(gòu)和企業(yè)通過搭建共享GPU集群來降低成本和提高效率?,F(xiàn)有研究主要關(guān)注企業(yè)生產(chǎn)類GPU集群的任務(wù)調(diào)度和資源分配。針對研發(fā)類GPU集群鵬城云腦I,進(jìn)行任務(wù)運(yùn)行時(shí)關(guān)鍵指標(biāo)的監(jiān)控和數(shù)據(jù)采集,構(gòu)建含任務(wù)細(xì)粒度時(shí)序資源使用信息的深度學(xué)習(xí)訓(xùn)練任務(wù)數(shù)據(jù)集——鵬城云腦I任務(wù)數(shù)據(jù)集。該數(shù)據(jù)集是首個(gè)面向研發(fā)類GPU集群公開數(shù)據(jù)集,揭示了研發(fā)類GPU集群中資... (共10頁)