データセンターの温度制御:なぜそれが可能かつ高温になるのか

今日はデータセンターの冷却についてお話します。 トロント大学の科学者グループが、データセンターの冷却方法に関する研究を発表しました。この方法では、温度が特別に上昇します。 この作品の本質を理解し、状況を分析することにしました。



/写真エミリオ・キュッファー CC



最近、消費電力と二酸化炭素排出量の大部分がデータセンターによって占められています。 冷却には膨大な能力が費やされ、これが温度制御の分野で研究を行う主な動機となりました。 興味深い事実は、データセンターの温度を維持する必要があるレベルが完全に明確ではないことです。



ほとんどの企業は、使用する機器のサプライヤーが推奨する温度を設定していますが、その上昇がシステムのパフォーマンスにどのように影響するかは明確ではありません。 同時に、研究の結果によると、温度を1度だけ上げると、エネルギー消費を2〜5%削減できます。



このため、調査を実施し、データセンターの温度を管理する方法の質問に答えることが決定されました。 このために、生産設備に関する広範なデータセットが収集され、データストレージサブシステム、RAMサブシステム、およびサーバー全体の信頼性など、設備のパフォーマンスに対する温度の影響を調査することが可能になりました。



まえがき



データセンターの温度を上げることが電力を節約し、二酸化炭素排出量を削減する最も簡単な方法のようですが、ここでいくつかの問題が発生します。それらの1つはシステムの信頼性の低下の可能性です。 残念ながら、サーバーのパフォーマンスに対する高温の影響に関する詳細な情報はほとんどありません;さらに、それは非常に矛盾しています。



いくつかの研究によると、21°Cの後の10°Cごとに電子機器の故障の可能性が50%増加することがわかりました。 他の研究では、15°Cごとにハードドライブの故障率が2倍になると述べており、最近の調査では、Googleは低温がストレージデバイスに悪影響を与えることを発見しました。



データセンターの温度が上昇すると、サーバーのパフォーマンスの低下に関連する別の問題が発生します。 実際には、温度が臨界点に達すると、プロセッサーはクロックスロットルモード(スロットル)に入り、クーラーは高速で回転し始めます。これはすべて、追加の電力リークとエネルギー消費の増加につながります。



温度と信頼性



まず、ハードウェアの2つの特別なコンポーネントに注目しましょう。これらはハードディスクとDRAMです。これは、現代のデータセンターでは最も頻繁に交換されるためです。



ハードディスクの隠れたセクターの温度とエラー(LSE)


LSEは、個々のディスクセクターにアクセスできなくなり、そこに保存されているデータが失われる(システムに冗長性がなく、復元できない場合)最も一般的なタイプのエラーの1つです。 すべてのドライブの3〜4%がLSEに遭遇し、これらの数は利用可能な容量が増加するまで増加しません。



機器の信頼性は膨大な数の要因(負荷、湿度、電圧降下、デバイスのメンテナンス)の影響を受けます。各モデルで得られた結果をデータセンターに分割しました。 温度が上昇すると、LSEの可能性も高くなることは明らかです。 ただし、標準的な推定モデル(たとえば、 アレニウス方程式に基づくモデル)が示唆するよりも、増加は非常に遅いです。 温度とエラー数の間には指数関数的な関係があると考えられており、追加の10〜15°Cごとに故障率が2倍になります。



科学者は統計分析を実施し、ディスクがすでにLSEにさらされている場合、温度が高くてもLSEの数が増加しないことを発見しました。これは、非表示セクターのエラーの原因がコールドドライブとホットドライブで同じであることを示しています。 同時に、1つのディスクモデルのLSEの発生頻度は、データセンターによって異なる場合があります。



既知の範囲、つまり0〜36か月では、古いドライブは新しいドライブと同じLSEと衝突する可能性があります。 科学者は読み取り負荷の度合いを月ごとに実行される操作の数で測定し、[操作の数]が提示されたデータセットの中央値よりも小さいことが判明した場合(そうでない場合は、負荷の高いグループ)にディスクを割り当てました。 データの分析に基づいて、彼らはディスク使用率が温度の上昇に伴って発生するLSEの可能性に影響を及ぼさないと述べました。



温度とディスクの障害



このセクションの目的は、温度がディスク障害率に与える影響を検討することです。 この質問に対する最も完全な回答を得るために、ワークロードの影響、およびディスクモデルとデータセンターの違いが考慮されました。 2007年1月から2009年5月までに収集され、19の異なるGoogleデータセンターによって提供されたストレージデバイスの5つの異なるモデルのデータに基づいています。



温度が50°C未満の場合、ディスクの故障率は従来のモデルが示唆するよりもはるかに遅く成長しています。 温度の上昇に伴う故障数の増加はわずかです。 LSEの場合と同じ方法に従って、ディスクグループは負荷の程度と経過時間で分割されました。判明したように、ディスク障害の頻度に大きく影響する要因はありません。



パフォーマンスに対する温度の影響



サーバーのパフォーマンスに対する周囲温度の影響を調べるために、科学者はサーマルチャンバーを備えたテストベンチを構築しました。 サーマルチャンバーは、サーバー全体を内部に収めるのに十分な大きさであり、温度を-10°C〜60°Cの範囲で0.1°Cの精度で制御できました。



この実験では、最も人気のあるサーバーの1つであるDell PowerEdge R710が選択されました。 周波数が2.26 GHzのクアッドコアIntel Xeon 5520プロセッサー、8 MB L3キャッシュ、16 GB DDR3 ECCを搭載し、Linuxカーネル2.6.32-28-サーバーを備えたUbuntu 10.04サーバーで実行されます。 さまざまなサプライヤのハードドライブ(SASおよびSATA)が接続されていました。



作業の過程で、実際のアプリケーションが作成するワークロードをシミュレートするために設計されたマイクロベンチマークとマクロベンチマークを使用して、一連の負荷テストが実行されました。 使用されるベンチマークと手法:STREAM、GUPS、Dhrystone、Whetstone、ランダム書き込み/ランダム読み取り、シーケンシャル書き込み/シーケンシャル読み取り、OLTP-Mem、OLTP-Disk、DSS-Mem、DSS-Disk、PostMark、BLAST。



すべてのSASドライブと1つのSATAドライブ(Hitachi Deskstar)は、高温でのパフォーマンスの低下を5〜10%から30%示します。 すべてのモデルで同じ温度範囲で(任意の瞬間ではなく)低下が発生し、ディスクがエラーを報告しなかったという事実を考慮すると、パフォーマンスの低下の原因は保護記録メカニズムの包含であると想定できますデバイス。



サーバーの電力消費を増やす



電子機器に流入する空気の温度が上昇すると、消費されるエネルギーの量に影響を与える可能性があります。 多くのIT企業は、周囲の温度が特定のしきい値に達すると、クーラーの回転速度を上げ始めます。



さまざまな負荷の下で消費されるエネルギー量は大きく異なりますが、周囲温度が30°Cに達すると増加し始め、40°Cまで増加します。 エネルギー消費の成長は50%です-これはたくさんあります。



ここで、エネルギー消費の違いはファンに関連していると自信を持って言えます。回転速度の増加は、エネルギー消費が増加する同じ温度値で発生します。 したがって、周囲温度が上昇すると、消費されるエネルギーの量が増加します。これは、ほとんどクーラーの回転速度の増加に関連しています。 エネルギー漏れはごくわずかです。



結論



データセンターの温度が上昇すると、潜在的に膨大なエネルギーを節約し、二酸化炭素排出量を削減できます。 残念ながら、これがどんな困難に関連するのかは完全には明らかではないため、多くのデータセンターは室温を低く保つようにしています。 温度は、予想よりも機器の信頼性に与える影響がはるかに小さくなります。DRAMに関連するエラーとサーバーノードの障害は、高温に弱く関連しています。



これらの有望な結果により、温度に関連する他のポイントに注意を払うことができます。たとえば、入ってくる空気の温度が上昇すると、個々のサーバーの電力消費が増加します。 調査中に、これは冷却システムのファンの回転速度の増加によることがわかりました。 この場合の電力リークは完全に無視できます。 このエネルギーのほとんどは、クーラーの回転速度を制御するための設計が不十分なアルゴリズムのために無駄になります。



ただし、ここではすべてがそれほど単純ではないため、データセンターの温度と、節約できるエネルギー量に関する一般的な推奨事項や予測を提供することは可能です。 これらの質問に対する答えは、データセンターの場所とその目的に関連する多くの要因に依存しています。 ただし、ほとんどの組織では、システムのパフォーマンスと信頼性を犠牲にすることなく、機器を少し「ウォームアップ」できることがわかります。



All Articles