過去數(shù)年GPU資源一直被企業(yè)熱搶作AI開發(fā)。但購買GPU卡預(yù)算高昂,實(shí)際所需算能也難以憑空估算。AWS為此推出適用于機(jī)器學(xué)習(xí)(ML)的EC2容量區(qū)塊,讓客戶能夠租用GPU算力,以運(yùn)行其短期ML workload。借助EC2容量塊,可以使用二代UltraCluster 3,200G網(wǎng)絡(luò),結(jié)合EFA技術(shù),以獲得最佳網(wǎng)絡(luò)性能,更可預(yù)留高達(dá)512個NVIDIA GPU。
AWS的GPU實(shí)例預(yù)訂方式讓用戶可以選定未來日子所需保留的實(shí)例數(shù)。EC2容量區(qū)塊目前最新可用到NVIDIA H200 Tensor Core GPU提供支持的Amazon EC2 P5e實(shí)例,最多可提早8星期預(yù)留或預(yù)留28天使用時長。以下將介紹以不同方法預(yù)訂容量區(qū)塊。
在Amazon EC2 Console上選擇Capacity Reservation,可以看到兩個容量預(yù)留選項(xiàng)。選擇Purchase Capacity Block for ML,然后選擇Get started以開始尋找EC2容量區(qū)塊。
其次,選擇總?cè)萘坎⒅付ㄋ枰狤C2容量塊的時間??梢灶A(yù)留以下大小的EC2容量塊:1、2、4、8、16、32或64個實(shí)例。可預(yù)留EC2容量區(qū)塊的總天數(shù)為1到28天。EC2容量塊最多可提前8星期預(yù)訂。以下例子為p5.48xlarge。
EC2容量區(qū)塊的價格取決于購買EC2容量區(qū)塊時的總可用供需量,和預(yù)訂酒店邏輯相似。用戶可以調(diào)整大小、持續(xù)時間或日期范圍,以搜索其他EC2容量區(qū)塊選項(xiàng)。當(dāng)選擇Find Capacity blocks時,AWS將提供指定的日期范圍內(nèi)符合規(guī)范的最低價格產(chǎn)品以供選訂。
查看EC2容量區(qū)塊詳細(xì)資訊、標(biāo)簽和總價格資訊后,選擇Purchase。有關(guān)總價格是預(yù)先收取的,購買后價格不會改變。用戶需在確認(rèn)購買EC2容量區(qū)塊的12小時內(nèi)完成付款。
所有EC2容量區(qū)塊預(yù)留均從(UTC+8)19:30開始。EC2容量塊在購買后無法修改或取消。
AWS也提供API形式尋找可供預(yù)訂的容量區(qū)塊并進(jìn)行預(yù)訂。使用API提供集群要求并發(fā)現(xiàn)可供購買的EC2容量塊。首先,使用describe-capacity-block-offerings API提供集群要求并發(fā)現(xiàn)可供購買的EC2容量區(qū)塊。
使用上述指令找到可用的EC2容量區(qū)塊后,就可以使用以下API購買:CapacityBlockOfferingIdpurchase-capacity-block-reservation
最后,會看見EC2容量區(qū)塊現(xiàn)已成功預(yù)留。在到達(dá)擬訂的開始日期,EC2容量區(qū)塊將態(tài)將變成Active。要使用Active的EC2容量塊,可點(diǎn)擊EC2容量區(qū)塊的ID。
選擇Launch instances,便可以啟動EC2實(shí)例,并開始運(yùn)行ML workload。
請注意,當(dāng)EC2容量區(qū)塊臨近結(jié)束,EC2將通過Amazon EventBridge發(fā)出預(yù)留即將結(jié)束的通知,以便對工作負(fù)載進(jìn)行檢查點(diǎn)操作。在EC2容量區(qū)塊中運(yùn)行的任何實(shí)例都會在預(yù)留結(jié)束前30分鐘關(guān)閉。用戶不會為此時段支付金額。當(dāng)EC2容量區(qū)塊過期,任何仍在運(yùn)行的實(shí)例都將被終止。