データドッグ ほとんどのチームが認めたくない問題を指摘しただけです。AIが高価になっているのは、GPUが希少だからではなく、GPUがどのように使われているのか誰も知らないからです。.
同社の新しいGPUモニタリング製品は、基本的に可視化についてです。表面的なメトリクスではなく、どのワークロードがどのGPUを使用しているのか、誰がGPUを所有しているのか、そしてGPUが何か有用なことを行っているのかを明確にします。一画面でフルスタック表示。シンプルに聞こえますが、これはまさに今日ほとんどのチームが苦労しているところです。.
現在、企業はセーフティネットとしてGPUを過剰に割り当てています。彼らは、2つの異なる非アクティブ状態と2つの異なる機器故障状態を区別する能力を欠いています。彼らは問題を解決するために追加のハードウェアを使用しており、それをスケーリングの方法として説明しています。そこにお金が燃えているのです。.
こちらもお読みください: 三菱電機DIとNutanixがプライベートクラウドで提携
これはその方程式を変えます。パフォーマンスの問題をより速くトレースし、十分に活用されていないリソースを見つけ、実際にGPUがもっと必要なのか、より良い割り当てが必要なのかを判断することができます。また、プラットフォームチームとMLチームを同じページに引き込むことができます。.
大きな視点で見れば、この開発は確立されたパターンに当てはまることがわかります。人工知能システムの製造には、運用上の規律とコスト管理の両方が必要です。必要なのはモデルの精度だけではありません。.


