作為國內(nèi)頭部短視頻應(yīng)用之一,直播是快手電商的重要業(yè)務(wù)場景。為應(yīng)對直播秒殺的極端流量峰值,快手容器云聯(lián)合阿里云打造了混合云彈性調(diào)度架構(gòu)。
日前,快手電商在2023年某大V大促直播活動中,首次采用混合云彈性調(diào)度架構(gòu),成功支撐了百萬級別秒殺峰值的計算資源需求。
“快手容器云+阿里云”的深度技術(shù)結(jié)合,在“快手電商直播秒殺”場景下,既解決了大V活動中短時間內(nèi)快速彈性擴(kuò)容、峰值結(jié)束后快速縮容的問題,又提高了系統(tǒng)應(yīng)對峰值的快速伸縮、系統(tǒng)穩(wěn)定性、高并發(fā)訴求,并能大大減少資源的持有成本。
快手APP是一款用戶量極大的短視頻應(yīng)用。目前平均日活躍用戶達(dá)3.76億,平均月活躍用戶達(dá)6.73億,累計互關(guān)用戶對數(shù)超過311億對,日均互動(包括點贊、評論和轉(zhuǎn)發(fā)等)總量達(dá)80億次。為了支撐如此龐大的用戶規(guī)模、業(yè)務(wù)量級,快手建立了多個龐大的數(shù)據(jù)中心,海量的服務(wù)器集群來承載每日數(shù)億用戶的訪問。
快手技術(shù)面臨的挑戰(zhàn),除了用戶規(guī)模龐大帶來的分布式架構(gòu)的復(fù)雜性,更大的挑戰(zhàn)來自于直播間秒殺場景,瞬時海量用戶的搶購并發(fā)極高。直播是快手技術(shù)挑戰(zhàn)最大的場景,而快手直播電商的秒殺活動為之最,具有并發(fā)量大、要求極高的特點。
在秒殺活動期間,大量用戶會同時訪問快手的電商平臺,對系統(tǒng)的并發(fā)處理能力提出了極高的要求。對于上億粉絲的大V直播間秒殺期間,單件秒殺商品可能達(dá)到數(shù)百萬件,單品最高秒殺請求達(dá)每秒百萬次,下單交易鏈路系統(tǒng)同時支撐每秒百萬次的并發(fā)。從下圖可以看出,大V直播期間的秒殺尖峰與日常相比,提交訂單接口的峰值流量是日常的90多倍。
為了應(yīng)對并發(fā)量極高的秒殺場景,快手采用了如下圖所示的分布式系統(tǒng)架構(gòu)、負(fù)載均衡技術(shù)、緩存技術(shù)、消息隊列、服務(wù)限流排隊、熱點緩存優(yōu)化等技術(shù)手段,以提高系統(tǒng)的并發(fā)處理能力和擴(kuò)展性;在數(shù)據(jù)中心能力上,提高服務(wù)器的處理能力和可靠性,以確保系統(tǒng)的穩(wěn)定性和可用性。
此外,還加強對系統(tǒng)的監(jiān)控和運維,及時發(fā)現(xiàn)和解決問題,確保系統(tǒng)的高可用性。同時,也不斷優(yōu)化系統(tǒng)的性能,提升用戶體驗和滿意度。
為了解決大促秒殺尖峰時刻的資源不足問題,快手建立了彈性容器云能力??焓值膹椥匀萜髟破脚_基于Docker建設(shè)的平臺,它能夠根據(jù)業(yè)務(wù)需求自動擴(kuò)展和收縮容器實例,以滿足高并發(fā)和大流量場景下的業(yè)務(wù)需求。
通過使用彈性容器云,快手可以在大促秒殺期間快速擴(kuò)展容器實例,以應(yīng)對突然增加的流量和請求。當(dāng)流量和請求減少時,彈性容器云又可以自動收縮容器實例,以節(jié)省資源成本。這種彈性伸縮能力可以幫助快手更好地應(yīng)對業(yè)務(wù)的突發(fā)變化,提高系統(tǒng)的可靠性和可用性。彈性容器云為快手解決大促秒殺期間的彈性伸縮問題提供了有力的支持。
全量使用自建IDC資源的電商業(yè)務(wù)架構(gòu)
為了應(yīng)對峰值,快手容器云平臺構(gòu)建了快手IDC+阿里云的混合云架構(gòu),通過專線打通雙方網(wǎng)絡(luò)互聯(lián)互通,利用阿里云豐富的產(chǎn)品能力和彈性優(yōu)勢進(jìn)行業(yè)務(wù)“削峰填谷”。阿里云計算資源具備快手彈性和庫存優(yōu)勢,為快手容器的彈性和擴(kuò)展提供了強有力的支持,從而更好地應(yīng)對峰值,滿足高并發(fā)和大流量場景下的業(yè)務(wù)需求。
在擴(kuò)展公有云資源的過程中,會基于時延和容災(zāi)域?qū)⑾鄳?yīng)公有云上不同可用區(qū)資源合入到快手內(nèi)部不同可用區(qū)內(nèi),并優(yōu)先將非高頻訪問緩存類的服務(wù)擴(kuò)容到公有云機(jī)房,以優(yōu)化業(yè)務(wù)性能。當(dāng)發(fā)生單可用區(qū)的故障時,可通過可用區(qū)級的快速切流來完成業(yè)務(wù)恢復(fù)。同時為了加速業(yè)務(wù)的啟動耗時,在公有云機(jī)房建立了鏡像倉庫緩存節(jié)點,結(jié)合p2p鏡像下載機(jī)制,顯著加速公有云上的容器實例的啟動速度。
啟用彈性混合云資源的電商業(yè)務(wù)架構(gòu)
其中的混合云調(diào)度平臺,通過打通預(yù)算管理、容器資源運營及資源交付等多平臺,實現(xiàn)了混合云彈性資源的快速交付,滿足業(yè)務(wù)突發(fā)流量的算力資源訴求。整體過程中實現(xiàn)了如下平臺能力:
彈性云服務(wù)器資源快速納入容器集群:可實現(xiàn)10萬核計算資源30分鐘內(nèi)接入快手容器云并達(dá)到業(yè)務(wù)可用狀態(tài);
快手自建機(jī)房與公有云機(jī)房資源通過容器集群統(tǒng)一納管:提供一致化的算力交付,業(yè)務(wù)側(cè)不感知底層資源差異;
智能化的資源調(diào)度策略:平臺統(tǒng)一托管資源分配策略,突發(fā)流量所需要的業(yè)務(wù)擴(kuò)容優(yōu)先使用云上資源,活動結(jié)束縮容優(yōu)先退還云上資源并自動下線主機(jī);
混合云彈性資源交付流程示意圖
阿里云已經(jīng)連續(xù)十來年保障了天貓雙11的平穩(wěn)運行,扛住了零點過后的流量峰值,阿里巴巴業(yè)務(wù)100%運行在阿里云上。如今,“快手容器云+阿里云”的組合模式,也承擔(dān)起另一個大促的考驗。
在2023年某大V大促活動中,快手電商為了應(yīng)對大V秒殺峰值的資源計算需求,快手的彈性容器云快速利用以上打通阿里云的系統(tǒng),進(jìn)行了峰值資源的擴(kuò)容,擴(kuò)充總量級達(dá)到數(shù)萬核CPU,將下單的峰值吞吐能力提高了1倍,秒殺期間實際峰值流量達(dá)到每秒百萬次請求,系統(tǒng)各項指標(biāo)穩(wěn)定,系統(tǒng)100%可用,阿里云順利通過了快手大促考驗,可以平穩(wěn)支撐快手頂流大V大促直播。
下圖中峰值的請求,即為通過阿里云彈性資源應(yīng)對的峰值計算資源,解決了短時間內(nèi)快速彈性擴(kuò)容、峰值結(jié)束后快速縮容的問題,既提高了系統(tǒng)應(yīng)對峰值的快速伸縮、系統(tǒng)穩(wěn)定性、高并發(fā)訴求,又能大大減少資源的持有成本。
通過“快手容器云+阿里云”的技術(shù)深度結(jié)合,在“快手電商直播秒殺”場景下的大規(guī)模首次應(yīng)用,也論證和驗證了快手彈性容器云能力在應(yīng)對高峰彈性上的實際效果,也為快手未來借助阿里云解決資源成本優(yōu)勢、快速擴(kuò)縮容提供了堅實的基礎(chǔ),為快手引領(lǐng)直播電商技術(shù)的趨勢提供了有力的支持。
快手在直播電商技術(shù)方面的不斷創(chuàng)新和引領(lǐng),為行業(yè)的發(fā)展和變革也帶來了重要的意義??焓蛛娚讨辈?,應(yīng)用彈性容器云+阿里云的混合云模式應(yīng)對秒殺,不僅對于快手自身具有重要意義,也為整個行業(yè)帶來了積極的影響。它引領(lǐng)了直播電商技術(shù)的發(fā)展趨勢,為其他企業(yè)提供了借鑒和啟示。未來,隨著技術(shù)的不斷進(jìn)步,快手將繼續(xù)發(fā)揮技術(shù)優(yōu)勢,為用戶帶來更好的購物體驗。