云部署和SaaS產(chǎn)品已將許多工作負(fù)載部署遷移出數(shù)據(jù)中心。但是,內(nèi)部部署數(shù)據(jù)中心仍然托管過于重要、過于敏感的工作負(fù)載和數(shù)據(jù),因此,數(shù)據(jù)中心的成功升級有很多好處。
升級仍然是提升數(shù)據(jù)中心IT容量的主要手段。他們通過更換老化或性能不佳的IT資產(chǎn)來建立彈性、提高性能、降低運營成本、增強安全性,并降低停機時間。但升級總是帶有風(fēng)險因素:疏忽和錯誤可能導(dǎo)致意外停機、工作負(fù)載可用性問題、中斷以及不可接受的管理或安全漏洞。重要的是在第一次升級時就成功完成,或者至少在出現(xiàn)問題時有效地回退。
成功和具有意義的數(shù)據(jù)中心升級的關(guān)鍵是做好準(zhǔn)備。了解目標(biāo)和實現(xiàn)每個目標(biāo)的途徑,并克服前進(jìn)道路上的障礙,為升級過程帶來巨大的好處。
1.了解企業(yè)的業(yè)務(wù)需求
當(dāng)業(yè)務(wù)領(lǐng)導(dǎo)者選擇不必要的技術(shù)投資或缺乏明確的投資回報率標(biāo)準(zhǔn)時,就會出現(xiàn)一些成本最高和風(fēng)險最高的錯誤。升級不應(yīng)作為新技術(shù)的展示,而應(yīng)有助于企業(yè)更有效地運營和更具競爭力。他們應(yīng)該專注于以下方面:
·擴展重要資源,例如存儲或計算;
·為更多、新的或更新的應(yīng)用程序啟用新的工作負(fù)載;
·支持額外的員工、用戶或交易;
·降低每用戶或每筆交易的成本;
·構(gòu)建IT能力,例如工作負(fù)載彈性、業(yè)務(wù)連續(xù)性和災(zāi)難恢復(fù)。
例如,服務(wù)器升級可能支持將多個工作負(fù)載整合到一個系統(tǒng)上,從而降低電力、空間和系統(tǒng)維護等成本。向基礎(chǔ)設(shè)施添加存儲設(shè)備就像向現(xiàn)有服務(wù)器添加新硬盤一樣簡單。其中包括一個冗余的負(fù)載平衡服務(wù)器,以提高關(guān)鍵工作負(fù)載的可用性。
2.確定升級目標(biāo)
在明確定義業(yè)務(wù)需求的情況下,確定升級項目的范圍,并確定受升級影響的硬件、軟件、服務(wù)、策略、流程和工作流。
升級從來都不是一個全有或全無的決定。升級范圍可能非常狹窄和具體,因此需要提前明確確定范圍以防止?jié)撛诘臑?zāi)難性疏忽,例如意外的硬件或軟件版本不兼容的情況。
考慮到原有工作負(fù)載和依賴于工作負(fù)載的硬件的老化,企業(yè)可以將重要的工作負(fù)載重新設(shè)計為更新的軟件產(chǎn)品,在功能強大的新服務(wù)器硬件上部署更新的軟件,并淘汰老化的硬件。在這種情況下,主要升級目標(biāo)將涉及原有服務(wù)器及其原有應(yīng)用程序。
此外,需要考慮次要范圍,例如依賴項。例如,如果老化的應(yīng)用程序依賴于較舊的數(shù)據(jù)庫,企業(yè)是否必須升級該數(shù)據(jù)庫及其硬件?應(yīng)用程序或系統(tǒng)管理等實踐被視為依賴項,應(yīng)該將它們包括在范圍內(nèi)。
3.創(chuàng)建升級路線圖
一個升級項目或目標(biāo)通常涉及多個分散的升級任務(wù)。例如,升級可能涉及向數(shù)據(jù)中心基礎(chǔ)設(shè)施添加兩個服務(wù)器機架,但這可能還需要增加電源和冷卻能力升級或增強WAN訪問。
即使是像服務(wù)器升級這樣簡單的事情也可能涉及支持工作。例如,要將2U服務(wù)器添加到完整機架,企業(yè)可能需要先重新安置一臺或多臺其他服務(wù)器以騰出空間。這些考慮可能看起來很瑣碎,但即使是很小的細(xì)節(jié)也可能會延遲升級。
企業(yè)需要檢查預(yù)期目標(biāo)及其依賴關(guān)系,這可能只是簡單地重新定位硬件以獲得適當(dāng)?shù)臋C架空間,或者在升級之前升級支持平臺,例如數(shù)據(jù)庫及其服務(wù)器。
4.確定升級技術(shù)
確定要升級的新產(chǎn)品可能很簡單,比如為存儲升級選擇新磁盤,或者為新服務(wù)器選擇品牌、型號和負(fù)載。更大的升級需要更多的考慮。例如,如果需要更新一組相關(guān)服務(wù)器,需要評估先進(jìn)技術(shù)平臺的潛力,例如超融合基礎(chǔ)設(shè)施。
使用不熟悉的硬件和軟件進(jìn)行升級會帶來災(zāi)難,所以盡可能在提交產(chǎn)品之前進(jìn)行測試。使用實踐評估和原則來驗證新的硬件和軟件產(chǎn)品,并了解它們的部署、設(shè)置、配置和互操作性注意事項。
5.清理或增強現(xiàn)有基礎(chǔ)設(shè)施
數(shù)據(jù)中心中的一切都有一個生命周期,而老化的基礎(chǔ)設(shè)施可能會對業(yè)務(wù)構(gòu)成障礙。當(dāng)企業(yè)檢查基礎(chǔ)設(shè)施以確定升級的范圍和要求時,需要花費更多時間來考慮可能不直接影響預(yù)期升級的任務(wù)或項目,但在更廣泛的意義上仍然可以受益于業(yè)務(wù)和基礎(chǔ)設(shè)施,包括以下內(nèi)容:
·為關(guān)鍵應(yīng)用程序增加冗余;
·從不再需要的應(yīng)用程序中刪除冗余;
·更新老化的布線以促進(jìn)更大的網(wǎng)絡(luò)帶寬;
·更新配電和備用電源,例如PDU和不間斷電源系統(tǒng);
·重新定位機架并關(guān)閉開放的硬件間隙以增強冷卻氣流;
·審查系統(tǒng)管理工具和功能。
這種切換或二次升級可以提高數(shù)據(jù)中心的性能、可靠性和效率。
6.準(zhǔn)備文件
大多數(shù)數(shù)據(jù)中心硬件和軟件都需要各種各樣的部署細(xì)節(jié)。其詳細(xì)信息包括默認(rèn)網(wǎng)絡(luò)地址、許可數(shù)據(jù)(例如激活碼)以及設(shè)置和配置的詳細(xì)說明(例如產(chǎn)品手冊和用戶指南)。
組織這些數(shù)據(jù),并在啟動升級任務(wù)之前確保一切可用。否則,由于缺少詳細(xì)信息,業(yè)務(wù)將面臨無法接受的延誤和不必要的取消風(fēng)險。例如,新的軟件產(chǎn)品可能需要許可證號或激活碼。IT人員并不希望凌晨執(zhí)行升級時來獲取這一信息,因為供應(yīng)商的銷售和支持人員可能無法及時響應(yīng)。
7.備份并準(zhǔn)備恢復(fù)
當(dāng)今的虛擬化數(shù)據(jù)中心環(huán)境使得將工作負(fù)載轉(zhuǎn)移到其他服務(wù)器變得相對容易,這使企業(yè)能夠更換和配置服務(wù)器。同時,企業(yè)可以使用復(fù)制或快照技術(shù)復(fù)制在虛擬機內(nèi)運行的工作負(fù)載。盡管如此,還是會發(fā)生錯誤和意想不到的后果,即使是看似簡單的升級也可能會匆忙中偏離方向。在升級之前和升級期間,使用簡單的指導(dǎo)方針為最壞的情況做好準(zhǔn)備,例如:
·對升級過程中涉及的任何服務(wù)器應(yīng)用程序或存儲系統(tǒng)執(zhí)行完整備份;
·測試修復(fù)過程并確保修復(fù)工作順利進(jìn)行;
·確保參與升級任務(wù)的IT人員都能成功執(zhí)行恢復(fù)或回滾;
·記錄現(xiàn)有硬件和軟件的當(dāng)前配置(即使企業(yè)計劃淘汰這些產(chǎn)品),以便在必要時將它們恢復(fù)到已知的工作狀態(tài);
·記錄升級期間發(fā)生的所有更改,例如更改IP地址或?qū)⑻摂M機移動到不同的物理服務(wù)器,并確保這些更改反映在系統(tǒng)或更改管理工具中。
·準(zhǔn)備好在多個地方備份和恢復(fù)數(shù)據(jù)。
8.讓利益相關(guān)者了解情況
升級可能會中斷常規(guī)業(yè)務(wù)并使重要的工作負(fù)載長時間不可用。這會影響員工、業(yè)務(wù)合作伙伴、客戶和業(yè)務(wù)領(lǐng)導(dǎo)者。數(shù)據(jù)中心升級應(yīng)始終將利益相關(guān)者納入流程。
升級項目通常涉及許多任務(wù)。因此,單獨處理每項任務(wù),并將其傳達(dá)給利益相關(guān)者。常見的通信包括以下內(nèi)容:
·告訴利益相關(guān)者計劃進(jìn)行哪些升級、為什么需要進(jìn)行這項工作、應(yīng)該提供哪些更改或新功能以及工作何時進(jìn)行;
·提醒利益相關(guān)者升級計劃,通常包括導(dǎo)致實際升級任務(wù)的一些提醒;
·如果遇到問題或延遲,向利益相關(guān)者發(fā)送更新;
·一旦升級任務(wù)完成并恢復(fù)正常功能,就向利益相關(guān)者發(fā)送提醒通知。
此外,如果出現(xiàn)問題,需要提供準(zhǔn)確的聯(lián)系信息以供支持或幫助臺訪問。例如,如果軟件升級帶來了新的特性和功能,需要提前對支持人員進(jìn)行這些更改的培訓(xùn),以便他們能夠有效地解決用戶的疑問和問題。
9.驗證部署
在完成升級任務(wù)之后,測試并驗證硬件或軟件部署是否正常工作。例如,新的服務(wù)器應(yīng)該運行良好并具有安全配置。當(dāng)企業(yè)重新安裝或?qū)⒐ぷ髫?fù)載遷移回服務(wù)器時,這些工作負(fù)載應(yīng)該可以通過內(nèi)部部署數(shù)據(jù)中心網(wǎng)絡(luò)訪問。在這個階段,IT人員必須對性能進(jìn)行基準(zhǔn)測試和衡量,對升級問題進(jìn)行故障排除和修復(fù),或者在需要時執(zhí)行回滾。只有當(dāng)知道一切都按預(yù)期工作時,才應(yīng)該在企業(yè)LAN或互聯(lián)網(wǎng)上打開資源以供一般使用。
升級可能會破壞系統(tǒng)或應(yīng)用程序管理工具。捕獲所有數(shù)據(jù)中心系統(tǒng)和安全管理工具中升級任務(wù)所涉及的任何更改,或準(zhǔn)備使用收集的文檔人工輸入更改。一些管理平臺需要額外安裝代理或驅(qū)動程序,然后管理工具才能正確監(jiān)督新資產(chǎn)。
10.在必要時系統(tǒng)地展開部署
分階段推出涉及高度不確定性或風(fēng)險的升級項目。例如,更新任務(wù)關(guān)鍵型遺留應(yīng)用程序及其相關(guān)硬件涉及同時部署新資產(chǎn)(與當(dāng)前資產(chǎn)并行),并打開環(huán)境部分進(jìn)行測試,而不是簡單地在升級中替換應(yīng)用程序和硬件。由于原始硬件和軟件仍然可用且可運行,因此這將在升級上線后將意外問題的影響降至最低。
如果新資產(chǎn)按預(yù)期運行,企業(yè)可以系統(tǒng)地將其他用戶組遷移到新資產(chǎn)。當(dāng)成功遷移所有用戶并徹底驗證新資產(chǎn)之后,就可以退出并刪除舊資產(chǎn),這是一項較小的清理升級任務(wù)。
11.遵守數(shù)據(jù)中心標(biāo)準(zhǔn)
對數(shù)據(jù)中心的設(shè)計、實施、性能或可用性沒有既定要求。然而,政府、利益相關(guān)者、合作伙伴和客戶已經(jīng)開始期望在一定程度上遵守某些標(biāo)準(zhǔn)。升級項目是檢查數(shù)據(jù)中心標(biāo)準(zhǔn)并考慮采用現(xiàn)有標(biāo)準(zhǔn)的絕佳機會。
眾多代碼和最佳實踐標(biāo)準(zhǔn)可以對數(shù)據(jù)中心進(jìn)行驗證,包括Uptime Institute、電信行業(yè)協(xié)會942、美國國家標(biāo)準(zhǔn)協(xié)會/BICSI002-2014、EN50600和一系列可選標(biāo)準(zhǔn),例如能源和環(huán)境設(shè)計領(lǐng)導(dǎo)力、綠色地球儀和能源之星。企業(yè)了解每個標(biāo)準(zhǔn)的作用,評估其重要性或?qū)ζ髽I(yè)的業(yè)務(wù)的好處,并計劃實施所需的標(biāo)準(zhǔn)作為正在進(jìn)行升級的數(shù)據(jù)中心項目的一部分。