Googleは機械学習を使用してデータセンターの効率を高めます

インターネットの巨人は、機械学習と人工知能を使用して、データセンターの効率を高めています。 Googleのデータセンターの副社長であるJoe Cavaによると、同社はニューラルネットワークを使用して、サーバーで収集された膨大な量のデータを分析し、作業を改善するための推奨事項を提供し始めました。



実際、Googleは、エンジニア自身よりもデータセンターについてさらに詳しいコンピューターを構築しました。 人的資源は引き落とされませんが、Cavaは、ニューラルネットワークを使用すると、エンジニアが確認および分析できる範囲を超えて、サーバーファームの効率の新たな地平に到達する機会をGoogleに与えると考えています。







Googleはすでに地球上で最もエネルギー効率の高いデータセンターをいくつか持っています。 人工知能を使用することで、Googleは将来を調査し、データセンターの何千ものスキームをシミュレートする機会を得ることができます。



使用の初期段階では、ニューラルネットワークにより、Googleは99.6%の精度でPUE係数を予測できました。 これらの推奨事項は、一見重要ではないように見えますが、大幅なコスト削減につながりました。 数千のサーバーに適用されています。



なぜGoogleは機械学習とニューラルネットワークに頼ったのですか? 主な理由は、データセンターが絶えず拡大しているという事実にあります。これは、センサーを使用してインフラストラクチャとエネルギー消費に関する数百万のデータを収集するGoogleにとっての課題となります。



「データセンターのような動的な環境では、人がシステム変数のすべての相互接続を確認するのが難しい場合があります」とKava氏は言います。 -「データセンターの最適化に長い間取り組んできました。 確かにすべての最良の方法はすでに実装されていますが、やめるべきではありません!」



画像



天才少年に会う



Googleのニューラルネットワークは、ジムガオによって作成されました。ジムガオは、大量のデータを分析できるため、同僚が「天才少年」と呼んだGoogleのエンジニアです。 Gaoは、流体力学とモニタリングデータの原理を使用して、サーバールーム内の気流の3Dモデルを作成し、冷却システムの分析に従事しました。



Gaoは、IT機器の使用率、気象条件、冷却塔、水ポンプ、Googleサーバーの通常の温度を維持する熱交換器など、さらに大きな変数セットを監視するモデルを作成できると考えました。



「コンピューターは、データに隠されたストーリー全体を見ることができるので優れています。 ジムは毎日収集する情報を取得し、複雑な相互作用の連鎖を理解し、労働者が単なる人間ではないことに気付かないかもしれないという意味を理解するために、モデルを通してそれを実行しました。 「一連の試行錯誤のおかげで、ジムのモデルはPUE計算で99.6%の精度を提供するようになりました。 これは、私たちの行動の有効性を高めるための新しい方法を求めてモデルを適用できるようになったことを意味します。」 以下の画像は、予測された(黒い曲線)と実際の(黄色の曲線)PUEの変化との相関関係を示しています。







仕組み



Gaoは「20%プロジェクト」として機械学習に取り組み始めました。 Googleの伝統により、Googleは従業員が中核的な責任に加えて、技術革新に時間を費やすことを許可しています。 Gaoは人工知能の専門家ではありませんでした。 機械学習の重要なポイントを学ぶため、Gaoはスタンフォード大学でAndrew Eun教授と一緒にコースを受講しました



ニューラルネットワークは人間の脳の働きを模倣し、コンピューターが明示的なプログラミングを必要とせずにタスクを理解し、「学習」できるようにします。 Googleの検索エンジンは、この種のトレーニングの例としてよく引用されます。これは、会社の主要な研究分野の1つでもあります。 「このモデルは、微分方程式の計算セットにすぎません」とカバは説明しました。 「しかし、あなたは数学を理解しなければなりません。」 モデルは、変数の相互作用を調べることから始まります。



はじめに、GaoはGoogleのデータセンターでエネルギー効率に影響を与える重要な要因を特定する必要がありました。 彼はこれらの指標の数を19に絞り、ニューラルネットワーク、大きなデータセットのパターンを認識できる機械学習システムを設計しました。



「機器と設定の組み合わせの数が非常に多いため、最適なパフォーマンスを見つけることは困難です」と、Gao氏はレポートに書いています。 「稼働中のデータセンターでは、さまざまな機器(機械的および電気的)とソフトウェア(制御および設置戦略)の組み合わせでタスクを実装できます。 効率を高めるために各組み合わせを検証することはほとんど不可能です。時間制限、IT機器の運用における頻繁な負荷変動、気象条件、データセンターの安定した運用を維持する必要性があります。







単一サーバーで実行



Kava氏によると、機器に関しては、このシステムは信じられないほどのコンピューティングパワーを必要とせず、1台のサーバーで動作し、1台のハイエンドデスクトップコンピューターでも動作する可能性があります。



このシステムは、いくつかのGoogleデータセンターで開始されました。 機械学習ツールは、インフラストラクチャ容量の増加による負荷分散の改善や、水冷システムの温度のわずかな変化など、PUEを徐々に改善するいくつかの変更を提案することができました。



「Googleのデータセンターでの最近のテストでは、機械学習が既存のセンサー読み取り値を使用してデータセンターのエネルギー分布をモデル化する効果的な方法であり、大幅なコスト削減につながることが示されました。」



車は優位に立たない



Kavaは、このツールが今後Googleが他のプロジェクトをモデル化し、改善するのに役立つと考えています。 しかし、心配しないでください、Googleデータセンターはすぐに自己認識を獲得しません。 現在、同社は自動化に関心があり、最近ではロボット開発会社を買収しましたが、これまでのところ、Googleのデータセンターのいずれも自動制御のみに取り組んでいません。」



「このすべてについて正しい結論を下すために、人々がいまだに必要です」とCava氏は言います。 「そして、私たちのエンジニアがこれらの推奨事項に慣れ親しんでほしい。」



ニューラルネットワークを使用することの最大のボーナスは、新しいGoogleサーバープラットフォームの構築中に、今後数年間に登場します。 「データセンターの設計にこの原則を使用することを予見しています」とカバは言います。 「この高度な技術は、設計と将来の改善の両方で使用できます。 他の使用方法を見つけると思います。」



Googleは、Gaoの記事で機械学習へのアプローチを共有し、強力なデータセンターも運営している人々がこれを実践できることを期待しています。 「このメカニズムは、GoogleまたはJim Gaoだけが使用できる特別なものではありません」とKava氏は言います。 「この技術のより広い応用を本当に見たいです。 業界全体がこの恩恵を受けると思います。 可能な限り効果的であることは素晴らしいツールです。」



All Articles