用大數(shù)據(jù)建模給硬盤做實(shí)時(shí)體檢,希捷與騰訊云是這樣操作的

來源: 雷鋒網(wǎng)
作者:張棟
時(shí)間:2020-10-21
17228
FARM的結(jié)構(gòu)簡單、數(shù)據(jù)量小,在抓取參數(shù)時(shí),不會影響到系統(tǒng)本身在運(yùn)轉(zhuǎn)的業(yè)務(wù)。

5f89d08c5efa0.jpg

隨著數(shù)據(jù)中心規(guī)模的擴(kuò)張,用于存儲數(shù)據(jù)的硬盤數(shù)量不斷增長。云計(jì)算平臺中要使用數(shù)以百萬級的硬盤作為數(shù)據(jù)存儲載體,高效、可靠又穩(wěn)定的硬盤存儲系統(tǒng)對于云服務(wù)的重要性不言而喻。

正因?yàn)橛脖P是云計(jì)算系統(tǒng)中最為重要的存儲載體,硬盤的健康管理是云服務(wù)穩(wěn)健可靠的根本。

為此,希捷與騰訊云服務(wù)器運(yùn)營團(tuán)隊(duì)在2018年開始在騰訊云的數(shù)據(jù)中心中部署了FARM技術(shù),從而對云平臺和數(shù)據(jù)中心的每一塊硬盤進(jìn)行實(shí)時(shí)的“體檢”與健康管理。

為什么FARM能夠做到硬盤的健康狀況預(yù)知?這項(xiàng)技術(shù)又是怎樣被應(yīng)用的?今天我們就來系統(tǒng)地為大家追根溯源,看看FARM究竟是一項(xiàng)什么神秘的黑科技?

FARM是什么?

一看見FARM這個(gè)詞,大家很容易聯(lián)想到風(fēng)吹草低見牛羊。但真相是,F(xiàn)ARM的全稱為Field Accessibility Reliability Metrics,最早于2018年OCP峰會上提出。

它的字面意思是“終端客戶可方便獲取的硬盤可靠性指標(biāo)”,是一種讓用戶以極其簡單的方法獲取硬盤全方面參數(shù)的日志。

FARM的目的在于讓云計(jì)算用戶以此建立基于機(jī)器學(xué)習(xí)的健康監(jiān)控或者預(yù)測模型,以及實(shí)時(shí)直觀地獲取數(shù)據(jù)中心中每一塊硬盤的健康狀況。

在目前的硬盤運(yùn)維實(shí)踐中,硬盤的數(shù)據(jù)采集主要基于SMART體系(Self-Monitoring Analysis and Reporting Technology,即自動檢測分析及報(bào)告技術(shù))。

它能分析并預(yù)警硬盤可能發(fā)生的問題。SMART體系自投入使用已有25年時(shí)間,可涵蓋10多項(xiàng)的參數(shù)。

FARM是對SMART體系的重大改良。FARM本身獲取方便,參數(shù)覆蓋廣,可以說是超級加強(qiáng)版的SMART。

FARM的120多項(xiàng)參數(shù)包含了硬盤更加底層的傳感器和磁頭級別的相關(guān)參數(shù),以及飛行高度、工作負(fù)載、環(huán)境等使用狀況的參數(shù),并且已經(jīng)在多個(gè)希捷產(chǎn)品上實(shí)施,給硬盤做詳細(xì)的“全身體檢”。

FARM的結(jié)構(gòu)簡單、數(shù)據(jù)量小,在抓取參數(shù)時(shí),不會影響到系統(tǒng)本身在運(yùn)轉(zhuǎn)的業(yè)務(wù)。客戶可以通過非常細(xì)的粒度按需抓取數(shù)據(jù),以自己所需的頻次獲取硬盤健康日志及大量數(shù)據(jù),并通過大數(shù)據(jù)建模,進(jìn)行監(jiān)控和分析。

通過定期的FARM數(shù)據(jù)抓取,希捷與騰訊云基于云業(yè)務(wù)模型,利用定制機(jī)器學(xué)習(xí)算法,將硬盤健康度進(jìn)行打分評估,提前識別高風(fēng)險(xiǎn)硬盤,盡快采取措施,做業(yè)務(wù)遷移、風(fēng)險(xiǎn)規(guī)劃等,避免極低概率下硬盤批量失效而導(dǎo)致業(yè)務(wù)中斷和數(shù)據(jù)丟失。

FARM都記錄些什么?

讓我們舉些例子:

硬盤信息:SN序列號、WWN全球唯一名字、容量等基本信息,以及磁頭數(shù)量、馬達(dá)等零部件的運(yùn)行時(shí)間、最近一次的硬盤狀態(tài)等。

讀寫數(shù)據(jù)量:除讀寫LBA(邏輯區(qū)塊地址)數(shù)量之外,還包含按類別統(tǒng)計(jì)的讀寫命令數(shù)量(總數(shù),隨機(jī)命令數(shù),非讀寫命令數(shù)),以及最近幾個(gè)小時(shí)內(nèi)在磁碟不同區(qū)域的讀寫命令數(shù)量等。

錯(cuò)誤統(tǒng)計(jì):除記錄SMART已經(jīng)包含的錯(cuò)誤處理數(shù)據(jù)之外,還包含固件內(nèi)部異常事件、讀寫重試、機(jī)構(gòu)部件重試等。同時(shí)對于不可恢復(fù)的錯(cuò)誤,按照讀寫分別統(tǒng)計(jì)。

環(huán)境參數(shù):記錄外界環(huán)境相關(guān)參數(shù),除溫度之外,還包含濕度、5V/12V輸入電壓、馬達(dá)電壓等。

可靠性參數(shù):包含周期性及空閑時(shí)的后臺評估、IDD(In Drive Diagnostic)、偏心率、以及磁頭級別的底層參數(shù)——誤碼率、信道補(bǔ)償、尋道錯(cuò)誤率、磁阻、飛行高度等。

騰訊云是國內(nèi)首家部署FARM的企業(yè)。

通過此項(xiàng)目,希捷聯(lián)合騰訊云對其數(shù)據(jù)中心的硬盤運(yùn)行數(shù)據(jù)進(jìn)行實(shí)時(shí)檢測,應(yīng)用大數(shù)據(jù)建模分析存在失效風(fēng)險(xiǎn)的硬盤。

作為國內(nèi)領(lǐng)先的云服務(wù)提供商,騰訊云對系統(tǒng)的穩(wěn)定性和可靠性要求嚴(yán)苛。騰訊云與希捷合作,通過FARM定期對硬盤的健康數(shù)據(jù)抓取,實(shí)時(shí)監(jiān)控硬盤的健康狀態(tài)。

一旦發(fā)現(xiàn)有任何異常,便會及時(shí)采取措施,提醒客戶重新設(shè)計(jì)工作負(fù)載,未雨綢繆,保護(hù)關(guān)鍵業(yè)務(wù)的延續(xù)性。

本文轉(zhuǎn)自雷鋒網(wǎng),如需轉(zhuǎn)載請至雷鋒網(wǎng)官網(wǎng)申請授權(quán)。

立即登錄,閱讀全文
版權(quán)說明:
本文內(nèi)容來自于雷鋒網(wǎng),本站不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。文章內(nèi)容系作者個(gè)人觀點(diǎn),不代表快出海對觀點(diǎn)贊同或支持。如有侵權(quán),請聯(lián)系管理員(zzx@kchuhai.com)刪除!
優(yōu)質(zhì)服務(wù)商推薦
更多
個(gè)人VIP