隨著數(shù)據(jù)中心規(guī)模的擴(kuò)張,用于存儲(chǔ)數(shù)據(jù)的硬盤數(shù)量不斷增長(zhǎng)。云計(jì)算平臺(tái)中要使用數(shù)以百萬(wàn)級(jí)的硬盤作為數(shù)據(jù)存儲(chǔ)載體,高效、可靠又穩(wěn)定的硬盤存儲(chǔ)系統(tǒng)對(duì)于云服務(wù)的重要性不言而喻。
正因?yàn)橛脖P是云計(jì)算系統(tǒng)中最為重要的存儲(chǔ)載體,硬盤的健康管理是云服務(wù)穩(wěn)健可靠的根本。
為此,希捷與騰訊云服務(wù)器運(yùn)營(yíng)團(tuán)隊(duì)在2018年開(kāi)始在騰訊云的數(shù)據(jù)中心中部署了FARM技術(shù),從而對(duì)云平臺(tái)和數(shù)據(jù)中心的每一塊硬盤進(jìn)行實(shí)時(shí)的“體檢”與健康管理。
為什么FARM能夠做到硬盤的健康狀況預(yù)知?這項(xiàng)技術(shù)又是怎樣被應(yīng)用的?今天我們就來(lái)系統(tǒng)地為大家追根溯源,看看FARM究竟是一項(xiàng)什么神秘的黑科技?
FARM是什么?
一看見(jiàn)FARM這個(gè)詞,大家很容易聯(lián)想到風(fēng)吹草低見(jiàn)牛羊。但真相是,F(xiàn)ARM的全稱為Field Accessibility Reliability Metrics,最早于2018年OCP峰會(huì)上提出。
它的字面意思是“終端客戶可方便獲取的硬盤可靠性指標(biāo)”,是一種讓用戶以極其簡(jiǎn)單的方法獲取硬盤全方面參數(shù)的日志。
FARM的目的在于讓云計(jì)算用戶以此建立基于機(jī)器學(xué)習(xí)的健康監(jiān)控或者預(yù)測(cè)模型,以及實(shí)時(shí)直觀地獲取數(shù)據(jù)中心中每一塊硬盤的健康狀況。
在目前的硬盤運(yùn)維實(shí)踐中,硬盤的數(shù)據(jù)采集主要基于SMART體系(Self-Monitoring Analysis and Reporting Technology,即自動(dòng)檢測(cè)分析及報(bào)告技術(shù))。
它能分析并預(yù)警硬盤可能發(fā)生的問(wèn)題。SMART體系自投入使用已有25年時(shí)間,可涵蓋10多項(xiàng)的參數(shù)。
FARM是對(duì)SMART體系的重大改良。FARM本身獲取方便,參數(shù)覆蓋廣,可以說(shuō)是超級(jí)加強(qiáng)版的SMART。
FARM的120多項(xiàng)參數(shù)包含了硬盤更加底層的傳感器和磁頭級(jí)別的相關(guān)參數(shù),以及飛行高度、工作負(fù)載、環(huán)境等使用狀況的參數(shù),并且已經(jīng)在多個(gè)希捷產(chǎn)品上實(shí)施,給硬盤做詳細(xì)的“全身體檢”。
FARM的結(jié)構(gòu)簡(jiǎn)單、數(shù)據(jù)量小,在抓取參數(shù)時(shí),不會(huì)影響到系統(tǒng)本身在運(yùn)轉(zhuǎn)的業(yè)務(wù)。客戶可以通過(guò)非常細(xì)的粒度按需抓取數(shù)據(jù),以自己所需的頻次獲取硬盤健康日志及大量數(shù)據(jù),并通過(guò)大數(shù)據(jù)建模,進(jìn)行監(jiān)控和分析。
通過(guò)定期的FARM數(shù)據(jù)抓取,希捷與騰訊云基于云業(yè)務(wù)模型,利用定制機(jī)器學(xué)習(xí)算法,將硬盤健康度進(jìn)行打分評(píng)估,提前識(shí)別高風(fēng)險(xiǎn)硬盤,盡快采取措施,做業(yè)務(wù)遷移、風(fēng)險(xiǎn)規(guī)劃等,避免極低概率下硬盤批量失效而導(dǎo)致業(yè)務(wù)中斷和數(shù)據(jù)丟失。
FARM都記錄些什么?
讓我們舉些例子:
硬盤信息:SN序列號(hào)、WWN全球唯一名字、容量等基本信息,以及磁頭數(shù)量、馬達(dá)等零部件的運(yùn)行時(shí)間、最近一次的硬盤狀態(tài)等。
讀寫數(shù)據(jù)量:除讀寫LBA(邏輯區(qū)塊地址)數(shù)量之外,還包含按類別統(tǒng)計(jì)的讀寫命令數(shù)量(總數(shù),隨機(jī)命令數(shù),非讀寫命令數(shù)),以及最近幾個(gè)小時(shí)內(nèi)在磁碟不同區(qū)域的讀寫命令數(shù)量等。
錯(cuò)誤統(tǒng)計(jì):除記錄SMART已經(jīng)包含的錯(cuò)誤處理數(shù)據(jù)之外,還包含固件內(nèi)部異常事件、讀寫重試、機(jī)構(gòu)部件重試等。同時(shí)對(duì)于不可恢復(fù)的錯(cuò)誤,按照讀寫分別統(tǒng)計(jì)。
環(huán)境參數(shù):記錄外界環(huán)境相關(guān)參數(shù),除溫度之外,還包含濕度、5V/12V輸入電壓、馬達(dá)電壓等。
可靠性參數(shù):包含周期性及空閑時(shí)的后臺(tái)評(píng)估、IDD(In Drive Diagnostic)、偏心率、以及磁頭級(jí)別的底層參數(shù)——誤碼率、信道補(bǔ)償、尋道錯(cuò)誤率、磁阻、飛行高度等。
騰訊云是國(guó)內(nèi)首家部署FARM的企業(yè)。
通過(guò)此項(xiàng)目,希捷聯(lián)合騰訊云對(duì)其數(shù)據(jù)中心的硬盤運(yùn)行數(shù)據(jù)進(jìn)行實(shí)時(shí)檢測(cè),應(yīng)用大數(shù)據(jù)建模分析存在失效風(fēng)險(xiǎn)的硬盤。
作為國(guó)內(nèi)領(lǐng)先的云服務(wù)提供商,騰訊云對(duì)系統(tǒng)的穩(wěn)定性和可靠性要求嚴(yán)苛。騰訊云與希捷合作,通過(guò)FARM定期對(duì)硬盤的健康數(shù)據(jù)抓取,實(shí)時(shí)監(jiān)控硬盤的健康狀態(tài)。
一旦發(fā)現(xiàn)有任何異常,便會(huì)及時(shí)采取措施,提醒客戶重新設(shè)計(jì)工作負(fù)載,未雨綢繆,保護(hù)關(guān)鍵業(yè)務(wù)的延續(xù)性。
本文轉(zhuǎn)自雷鋒網(wǎng),如需轉(zhuǎn)載請(qǐng)至雷鋒網(wǎng)官網(wǎng)申請(qǐng)授權(quán)。