在大流行中,由于數(shù)據(jù)中心的現(xiàn)場人員縮減,遠(yuǎn)程監(jiān)控已變得越來越重要。
COVID-19的爆發(fā)促進(jìn)了數(shù)據(jù)中心的運(yùn)營變化,幾乎所有行業(yè)都是如此。隨著州和聯(lián)邦當(dāng)局繼續(xù)要求保持物理距離,將現(xiàn)場IT支持保持在最低限度是一個(gè)更重要的優(yōu)先事項(xiàng)。這使得數(shù)據(jù)中心更加依賴于對(duì)IT基礎(chǔ)設(shè)施的遠(yuǎn)程管理和監(jiān)視,同時(shí)尋求在集中式和邊緣應(yīng)用程序中自動(dòng)化更關(guān)鍵的過程的方法。即使一些州的當(dāng)局開始放松限制,經(jīng)濟(jì)在新的感染浪潮中應(yīng)對(duì)重新開放的不確定性,對(duì)偏遠(yuǎn)工作環(huán)境的需求也不太可能很快改變。
以前做單片機(jī)和其他SOC時(shí)處理器上電很簡單,給糧給電芯片就能跑起來。初次給龍芯2K1000上電時(shí)序 足足調(diào)試1星期,甚至3個(gè)月后才稍微摸透它的細(xì)節(jié)。為什么這么底氣,還不是寫手冊的人太抬舉開發(fā)者, 省略幾萬字,能否初次調(diào)通全靠運(yùn)氣。
在本文中,我們將探討COVID-19時(shí)代遠(yuǎn)程電源監(jiān)控的優(yōu)勢,并為那些預(yù)計(jì)在適應(yīng)新常態(tài)時(shí)對(duì)遠(yuǎn)程監(jiān)控有更大需求的數(shù)據(jù)中心提供注意事項(xiàng)。
動(dòng)態(tài)變化
盡管當(dāng)前的大流行可能會(huì)加速邊緣基礎(chǔ)架構(gòu)的采用,但隨著許多數(shù)據(jù)中心開始超越傳統(tǒng)的集中式IT框架,需求已經(jīng)在增加。這種向邊緣基礎(chǔ)設(shè)施的轉(zhuǎn)變創(chuàng)造了一種環(huán)境,在這種環(huán)境中,大量基礎(chǔ)設(shè)施必須在沒有專職的現(xiàn)場支持人員的情況下運(yùn)行。因此,識(shí)別潛在問題和提供維護(hù)的能力也得到了提高,以確保這些系統(tǒng)能夠繼續(xù)運(yùn)行。根據(jù)Gartner的分析,在這個(gè)新的IT世界中,基礎(chǔ)設(shè)施需要成為“支持工具,而不是服務(wù)交付的控制點(diǎn)”。“信息技術(shù)的作用應(yīng)該轉(zhuǎn)變?yōu)橐哉_的速度、從正確的供應(yīng)商那里以正確的價(jià)格提供正確的服務(wù)——本質(zhì)上成為服務(wù)的中介和管理者!
為什么有復(fù)雜的上電時(shí)序,那是因?yàn)辇埿緝?nèi)部有個(gè)叫ACPI的電源管理單元。
擁抱數(shù)字模型的決定很容易,但是實(shí)現(xiàn)需要仔細(xì)考慮。隨著數(shù)據(jù)中心和IT經(jīng)理開始考慮他們的電源管理基礎(chǔ)架構(gòu)在COVID-19時(shí)代的樣子,值得牢記一些因素。以下是遠(yuǎn)程電源監(jiān)視服務(wù)的一些主要注意事項(xiàng),因?yàn)樗鼈冊谶@種動(dòng)態(tài)環(huán)境中變得越來越重要。
讀書少,起初龍芯手冊上幾個(gè)名稱簡寫S3、S4、S5不知道什么意思,它們體現(xiàn)著ACPI所處的狀態(tài)。在啟用ACPI功能時(shí),上電后首先啟動(dòng)的是ACPI單元,CPU運(yùn)行與否受ACPI控制,起到低功耗的作用。
通過實(shí)時(shí)數(shù)據(jù)主動(dòng)降低風(fēng)險(xiǎn):數(shù)據(jù)中心可能有大量的信息可供使用,但這并不意味著他們可以處理的所有數(shù)據(jù)都是可操作的。其中一些可能是歷史數(shù)據(jù),可以很好地了解產(chǎn)品歷史,但可能不會(huì)提醒用戶更多緊迫的問題。先進(jìn)的遠(yuǎn)程監(jiān)控服務(wù)使IT人員能夠?qū)崟r(shí)訪問系統(tǒng)數(shù)據(jù),從而超越了手動(dòng)/被動(dòng)策略。實(shí)時(shí)遠(yuǎn)程監(jiān)控服務(wù)可以幫助數(shù)據(jù)中心減輕與電力設(shè)備組件相關(guān)的停機(jī)風(fēng)險(xiǎn),并在故障發(fā)生前主動(dòng)更換它們,從而延長投資壽命并在潛在問題發(fā)生之前解決它們。對(duì)于經(jīng)營多個(gè)數(shù)據(jù)中心或邊緣位置的企業(yè),實(shí)時(shí)遠(yuǎn)程監(jiān)視工具提供了一個(gè)中心樞紐,以幫助獲得可見性并控制整個(gè)基礎(chǔ)架構(gòu)。技術(shù)人員可以使用這些解決方案來有效地解決問題,并在整個(gè)網(wǎng)絡(luò)中保持業(yè)務(wù)連續(xù)性,即使現(xiàn)場人員非常多或面臨潛在的旅行限制。
1. ACPI 工作模式
ACPI(Advanced Configuration and Power Interface)定義了7種系統(tǒng)級(jí)狀態(tài)。S0屬于正常工作狀態(tài);S0ix、S1、S2、S3、S4屬于休眠狀態(tài);S5屬于軟掉電狀態(tài)。
數(shù)字越大功耗越低,恢復(fù)到工作狀態(tài)耗時(shí)越久, 處理器不一定完整的ACPI支持。龍芯實(shí)現(xiàn)S0、S3、S4、S5。
易于訪問的洞察力,可以快速做出決策:電源監(jiān)控軟件和服務(wù)的能力不斷發(fā)展,提供了易于消化,一目了然的報(bào)告,可提供對(duì)產(chǎn)品歷史的洞察力并突出了潛在的即將發(fā)生的問題。這可以通過儀表板來實(shí)現(xiàn),該儀表板可以提供對(duì)系統(tǒng)狀態(tài)的重要見解,并可以輕松訪問設(shè)備級(jí)別的詳細(xì)信息。應(yīng)該可以從移動(dòng)或平板設(shè)備上輕松訪問實(shí)時(shí)數(shù)據(jù)、趨勢、事件、服務(wù)歷史記錄和警報(bào)的見解,并具有快速傳達(dá)設(shè)備或位置執(zhí)行情況的能力。如此細(xì)致的細(xì)節(jié)使?jié)撛诘碾娫磫栴}在協(xié)助決策過程中更容易檢查、報(bào)告和修復(fù)。例如,當(dāng)管理員可以跟蹤電池日期代碼和服務(wù)歷史記錄等數(shù)據(jù)時(shí),他們可以更好地計(jì)劃未來的維護(hù)需求。
1.1. S0(Full On)
正常工作狀態(tài)。處理器和所有外設(shè)全打開。功耗管理取決于外設(shè)各自的電源管理。
1.2. S0ix
低功耗的S0模式,最初叫Connected Standby,現(xiàn)更名叫InstantGo或Modern Standby。最初在Windows 8是Microsoft和Intel聯(lián)合制定的規(guī)范,將智能手機(jī)的電源管理引入PC平臺(tái),實(shí)現(xiàn)500ms 以內(nèi)的待機(jī)響應(yīng)。
1.3. S1(Power On suspend)
帶電待機(jī),最淺的睡眠狀態(tài),處理器所有寄存器、Cache被刷新,非0號(hào)CPU被 關(guān)閉,0號(hào)CPU不再執(zhí)行指令,處于空閑等待狀態(tài)。何為CPU號(hào),CPU有幾個(gè)核心就給CPU編幾個(gè)號(hào),各個(gè)核心 有自己的寄存器。CPU和內(nèi)存的電源維持著,S1是最淺的睡眠狀態(tài),恢復(fù)到S0狀態(tài)約1-3秒。
用于主動(dòng)功率監(jiān)控的預(yù)測功能:隨著預(yù)測分析的出現(xiàn),功率監(jiān)控開始從被動(dòng)模型轉(zhuǎn)變?yōu)楦又鲃?dòng)的模型。預(yù)測功能使數(shù)據(jù)中心可以更好地預(yù)測電力設(shè)備中的組件故障(發(fā)生前幾天甚至幾周),從而有助于避免停機(jī)。由于與計(jì)劃外停機(jī)有關(guān)的高昂成本,這對(duì)數(shù)據(jù)中心而言是一項(xiàng)重要優(yōu)勢。這也有助于減少除非絕對(duì)必要的情況,否則無需派遣技術(shù)人員到現(xiàn)場,從而通過減少數(shù)據(jù)中心人員與外部人員互動(dòng)的需要來提高安全性。隨著預(yù)測技術(shù)的不斷發(fā)展,診斷數(shù)據(jù)、捕獲和分析、工作流以及領(lǐng)域?qū)I(yè)知識(shí)將繼續(xù)變得更加先進(jìn),從而為將來的維護(hù)和維修過程提供可擴(kuò)展的平臺(tái)。
1.4. S2(Deeper Suspend)
再S1的基礎(chǔ)上關(guān)閉CPU供電。
忘記這個(gè)狀態(tài)吧,基本沒哪個(gè)架構(gòu)支持它。
1.5. S3(STR,Suspend to RAM)
通常稱為掛起到內(nèi)存(Suspend to RAM),在Windows/Linux中稱為“待機(jī)(Standby)”。除了內(nèi)存保持刷新模式 外,CPU在休眠前把所有操作系統(tǒng)、應(yīng)用程序打開的文件等狀態(tài)都保存在內(nèi)存,其余CPU、Cache、芯片組內(nèi)容均丟失。
CPU喚醒后,直接從內(nèi)存中恢復(fù)之前的工作狀態(tài)。其優(yōu)點(diǎn)是恢復(fù)速度特別快,而且保留上下文工作狀態(tài)。此時(shí)系統(tǒng)的 耗電量大約是S0的1%,恢復(fù)時(shí)間約5-8秒。
1.6. S4(STD,Suspend to Disk)
Windows/Linux中叫“休眠(Hibernation)”,內(nèi)存的數(shù)據(jù)保存在非易失存儲(chǔ)器上,如硬盤,內(nèi)存可以掉電。STD和STR原理類似,CPU喚醒后從硬盤恢復(fù)狀態(tài),由于硬盤速度沒有內(nèi)存快,恢復(fù)時(shí)間約20秒以上。好處是不用恢復(fù) 上下文存儲(chǔ)在硬盤,不用擔(dān)心停電。
1.7. S5(Soft Off)
關(guān)機(jī),所有設(shè)備全部關(guān)閉,操作系統(tǒng)也不維護(hù)任何內(nèi)容,需要一個(gè)完整的啟動(dòng)過程來“喚醒”系統(tǒng)。喚醒過程即“按下開機(jī)鍵”。開機(jī)鍵對(duì)應(yīng)龍芯的ACPI_PWRBTN。
SaaS與本地投資:有機(jī)會(huì)通過訂閱軟件即服務(wù)(SaaS)平臺(tái),將資本支出轉(zhuǎn)換為運(yùn)營支出并利用即付即用模型。這種方法消除了與授權(quán)、安裝和布線內(nèi)部監(jiān)視基礎(chǔ)結(jié)構(gòu)或與第三方進(jìn)行此過程相關(guān)的成本和精力,從而使他們可以通過在線支持自助安裝。
有了合適的遠(yuǎn)程電源監(jiān)控服務(wù),即使在不確定的時(shí)期,數(shù)據(jù)中心和IT經(jīng)理也可以更安全地前進(jìn)。隨著數(shù)據(jù)中心網(wǎng)絡(luò)的不斷發(fā)展和互聯(lián)程度的提高,對(duì)這類系統(tǒng)的需求只會(huì)不斷增長,同時(shí)更加重視支撐電力基礎(chǔ)設(shè)施,以支持IT系統(tǒng)的發(fā)展并保持運(yùn)營平穩(wěn)運(yùn)行。在任何情況下,將正確的監(jiān)控功能定位為集成電源管理系統(tǒng)的一部分可以幫助提供正常運(yùn)行時(shí)間,并為任務(wù)關(guān)鍵型基礎(chǔ)設(shè)施提供更高的安全性。 |