傲騰+NVMe如何讓VK節(jié)省數(shù)億美元?

來源: 高端存儲(chǔ)知識(shí)
作者:冬瓜哥
時(shí)間:2021-04-12
18504
Intel的Optane(傲騰)存儲(chǔ)器,從標(biāo)準(zhǔn)PCIE插卡、U.2 SFF8639的NVMe SSD,到M.2消費(fèi)類產(chǎn)品都有覆蓋。利用3D Xpoint這種超高速非易失性存儲(chǔ)介質(zhì),實(shí)現(xiàn)了接近SDRAM的速度以及大幅高于SDRAM的容量。在NAND Flash和SDRAM之間填補(bǔ)了空白區(qū)。

640.webp (2).jpg

Intel的Optane(傲騰)存儲(chǔ)器,從標(biāo)準(zhǔn)PCIE插卡、U.2 SFF8639的NVMe SSD,到M.2消費(fèi)類產(chǎn)品都有覆蓋。利用3D Xpoint這種超高速非易失性存儲(chǔ)介質(zhì),實(shí)現(xiàn)了接近SDRAM的速度以及大幅高于SDRAM的容量。在NAND Flash和SDRAM之間填補(bǔ)了空白區(qū)。

640.webp.jpg

640.webp (1).jpg

·冬瓜哥,你為什么不信線下的性能測試數(shù)據(jù)?難道這都能有假么?

這里面的門道,需要比較深的技術(shù)基礎(chǔ)才能參透。線下性能實(shí)測的時(shí)候人們往往采用高并發(fā)多線程方式來追求極高吞吐量。而往往忽略了I/O的延遲。要知道很多應(yīng)用對(duì)延遲敏感,也就是應(yīng)用發(fā)出更多比例的同步I/O,此時(shí)高吞吐量并沒有性能加成,而低延遲才能解決問題。傲騰的低延遲是個(gè)萬能藥,包治百病。在queue depth=1的時(shí)候就已經(jīng)可以達(dá)到較高吞吐量,所以標(biāo)本兼治。

·那么,傲騰這種存儲(chǔ)器的最典型使用場景是什么?

由于極低的延遲,天然適用于OLTP場景,一些經(jīng)過定制的業(yè)務(wù)可以直接使用基于傲騰DIMM存儲(chǔ)器的App Direct模式獲取最優(yōu)的延遲。另外,相比DDR RAM更大的容量,天然適合用作RAM與NAND Flash之間的緩存層,能夠更廣泛的提升性能。圖片

數(shù)據(jù)存儲(chǔ)占到了其一半以上的預(yù)算的俄羅斯最大的社交網(wǎng)絡(luò)平臺(tái)VK引入全新數(shù)據(jù)分層架構(gòu),以2:1的比例整合服務(wù)器,采用英特爾傲騰持久內(nèi)存、英特爾傲騰固態(tài)盤和英特爾非易失性存儲(chǔ)器(NVMe)固態(tài)盤對(duì)原有的分層存儲(chǔ)架構(gòu)進(jìn)行了現(xiàn)代化改造。最終,VK成功省下數(shù)百萬美元,預(yù)估將來整體上將節(jié)省數(shù)億美元。

VK是俄羅斯和獨(dú)聯(lián)體(CIS)地區(qū)最大的社交網(wǎng)絡(luò)平臺(tái),且仍在快速增長。在2018-2019年度,VK的月活用戶為9,700萬,遠(yuǎn)高于四年前的6,600萬1。每天,VK用戶查看的帖子高達(dá)90億條、觀看的視頻高達(dá)6.5億個(gè)、發(fā)送的消息高達(dá)100億條、點(diǎn)“贊”次數(shù)高達(dá)十億次。在一年的時(shí)間里,用戶上傳了約600 PB的新數(shù)據(jù),其中包括照片和視頻,而這些數(shù)據(jù)必須永久存儲(chǔ)。

由于所有數(shù)據(jù)都通過網(wǎng)絡(luò)進(jìn)行流傳輸,因此數(shù)據(jù)存儲(chǔ)基礎(chǔ)設(shè)施成為VK最大的成本支出也不足為奇。存儲(chǔ)成本已占到公司年度預(yù)算的60%至65%,因此優(yōu)化存儲(chǔ)總體擁有成本(TCO)成了VK的當(dāng)務(wù)之急。在整個(gè)存儲(chǔ)空間中,共分布了1.1 EB的數(shù)據(jù)。數(shù)據(jù)存儲(chǔ)在離上傳位置較近的地方。VK背后的IT基礎(chǔ)設(shè)施是19,000臺(tái)服務(wù)器。公司擁有三個(gè)主要的數(shù)據(jù)中心,并由30個(gè)內(nèi)容分發(fā)網(wǎng)絡(luò)(CDN)提供支持,以此加快最熱數(shù)據(jù)的訪問速度。

VK在其CDN服務(wù)器上采用的是三層數(shù)據(jù)緩存結(jié)構(gòu)。隨著數(shù)據(jù)熱度的下降,數(shù)據(jù)會(huì)向下層移動(dòng)。熱數(shù)據(jù)指的是最近上傳到網(wǎng)絡(luò)且仍被經(jīng)常訪問的數(shù)據(jù)。溫?cái)?shù)據(jù)則是已不再被頻繁訪問的數(shù)據(jù)。通常情況下,溫?cái)?shù)據(jù)是最長一個(gè)月前上傳的數(shù)據(jù)。而冷數(shù)據(jù)是指很少被訪問的數(shù)據(jù)。

在采用新技術(shù)之前,CDN中的冷數(shù)據(jù)存儲(chǔ)在遍布俄羅斯的分布式數(shù)據(jù)網(wǎng)絡(luò)中的硬盤上。溫?cái)?shù)據(jù)存儲(chǔ)在SATA固態(tài)盤中,而熱數(shù)據(jù)存儲(chǔ)在DRAM中。此外,基于Nginx Web服務(wù)器的數(shù)據(jù)庫服務(wù)器使用SATA固態(tài)盤和硬盤來存儲(chǔ)數(shù)據(jù),使用DRAM來存儲(chǔ)索引。

VK面臨的主要挑戰(zhàn)

·降低數(shù)據(jù)存儲(chǔ)(數(shù)據(jù)以每年600 PB的速度增長)的總體擁有成本(TCO)。

·讓VK用戶能夠快速訪問最新、最熱門的內(nèi)容。

·支持?jǐn)?shù)據(jù)分層,將訪問頻率較低的數(shù)據(jù)遷移到成本較低的存儲(chǔ)器中。

·無需再為滿足不同最終用戶設(shè)備需求而存儲(chǔ)同一圖像的多種格式。

針對(duì)上述挑戰(zhàn),基于Intel的全方位存儲(chǔ)加速方案,VK對(duì)其存儲(chǔ)架構(gòu)進(jìn)行了現(xiàn)代化改造。對(duì)于CDN服務(wù)器,熱數(shù)據(jù)已從昂貴的DRAM移至英特爾傲騰固態(tài)盤DC P4800X系列,并且通過引入英特爾傲騰持久內(nèi)存取代DRAM來處理相關(guān)工作負(fù)載,由此降低單位比特成本(見下圖)。如果工作負(fù)載支持英特爾傲騰持久內(nèi)存的App Direct模式,那么內(nèi)存就具備了持久性。英特爾傲騰固態(tài)盤P4800X系列可幫助消除數(shù)據(jù)中心存儲(chǔ)的瓶頸,方便處理更大、更具性價(jià)比的數(shù)據(jù)集。在全新的存儲(chǔ)方案中,溫?cái)?shù)據(jù)存儲(chǔ)在非易失性存儲(chǔ)器(NVMe)英特爾固態(tài)盤D5-P4320系列上。

640.webp (2).jpg

Podpriatov表示:“現(xiàn)在,我們可以將熱數(shù)據(jù)和溫?cái)?shù)據(jù)均存儲(chǔ)在固態(tài)盤上,從而減少了我們的DRAM用量。之前我們的固態(tài)盤不夠快,無法為熱數(shù)據(jù)提供良好的用戶體驗(yàn),因此我們只能將某些數(shù)據(jù)存儲(chǔ)在DRAM中。現(xiàn)在,我們可以將數(shù)據(jù)全部存儲(chǔ)在比內(nèi)存便宜得多的固態(tài)盤中?!?/p>

640.webp (3).jpg

對(duì)于數(shù)據(jù)庫服務(wù)器,VK引入了英特爾傲騰持久內(nèi)存來存儲(chǔ)數(shù)據(jù)庫索引(見上圖)。英特爾傲騰持久內(nèi)存具有更強(qiáng)的內(nèi)存尋址能力,可有效提升數(shù)據(jù)庫性能。將數(shù)據(jù)從DRAM遷移到英特爾傲騰持久內(nèi)存還可降低數(shù)據(jù)庫索引的存儲(chǔ)成本。數(shù)據(jù)庫本身已從硬盤或SATA固態(tài)盤遷移到非易失性存儲(chǔ)器(NVMe)英特爾固態(tài)盤D5-P4320系列,有效地提高了性能和存儲(chǔ)密度。

另外,為了進(jìn)一步優(yōu)化存儲(chǔ)并提高能效,VK正在部署采用英特爾Arria10 GX FPGA的英特爾可編程加速卡(英特爾PAC)(見圖3),并運(yùn)行CTAccel圖像處理器工作負(fù)載

該解決方案的技術(shù)組件

·英特爾傲騰固態(tài)盤DC P4800X系列。VK已將特定CDN服務(wù)器上的數(shù)據(jù)從DRAM遷移至英特爾傲騰固態(tài)盤,從而降低了DRAM成本。

·英特爾傲騰持久內(nèi)存。數(shù)據(jù)庫索引對(duì)于性能高度敏感,因此VK采用英特爾傲騰持久內(nèi)存,以低于DRAM的單位比特成本來存儲(chǔ)數(shù)據(jù)庫索引。

·英特爾固態(tài)盤D5-P4320系列。這類經(jīng)濟(jì)高效的固態(tài)盤為溫?cái)?shù)據(jù)提供所需的性能,并在VK的數(shù)據(jù)層級(jí)結(jié)構(gòu)中發(fā)揮著重要作用。而該數(shù)據(jù)層級(jí)結(jié)構(gòu)可將使用頻率較低的數(shù)據(jù)從快速存儲(chǔ)器遷移到速度較慢(但更便宜)的存儲(chǔ)器。

·采用英特爾Arria10 GX FPGA的英特爾可編程加速卡(英特爾PAC)。這款基于PCI Express*(PCIe*)的

數(shù)據(jù)中心級(jí)FPGA加速器卡支持內(nèi)嵌和旁路加速,具備FPGA加速的強(qiáng)大性能和多功能性,并且是獲得面向搭載FPGA的英特爾至強(qiáng)CPU的加速堆棧支持的幾個(gè)平臺(tái)之一。

VK估計(jì),通過引入全新的存儲(chǔ)解決方案,可以節(jié)省總計(jì)數(shù)億美元的成本。新的存儲(chǔ)解決方案讓VK能夠在1U服務(wù)器中存儲(chǔ)高達(dá)0.4 PB的數(shù)據(jù),只需更少的機(jī)架就能存儲(chǔ)相同數(shù)量的數(shù)據(jù),因此在空間、供電和散熱方面將不斷實(shí)現(xiàn)成本節(jié)約。

立即登錄,閱讀全文
版權(quán)說明:
本文內(nèi)容來自于高端存儲(chǔ)知識(shí),本站不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。文章內(nèi)容系作者個(gè)人觀點(diǎn),不代表快出海對(duì)觀點(diǎn)贊同或支持。如有侵權(quán),請(qǐng)聯(lián)系管理員(zzx@kchuhai.com)刪除!
優(yōu)質(zhì)服務(wù)商推薦
更多
掃碼登錄
打開掃一掃, 關(guān)注公眾號(hào)后即可登錄/注冊
加載中
二維碼已失效 請(qǐng)重試
刷新
賬號(hào)登錄/注冊
小程序
快出海小程序
公眾號(hào)
快出海公眾號(hào)
商務(wù)合作
商務(wù)合作
投稿采訪
投稿采訪
出海管家
出海管家