準富裕層の窓際族、ガジェットの山に埋もれる~評価ダウンからのFIRE計画~

50代・独身。増える資産と脂肪、減る年収と居場所。

【衝撃】AWSとCerebrasが組んだ「分業型AI推論」がGPUを時代遅れにするかもしれない話

すーだらです。

「AWSとCerebrasが組んで、GPUより桁違いに速いAI推論を作る」というニュースになっていたので、自分なりにかみ砕いて書いてみたいと思います。

そもそも「AI推論」って何?という人へ

難しい話の前に、まず基本から。

ChatGPTやClaudeに質問を打ち込んだとき、画面に文字がじわじわ表示されますよね。あの「AIが答えを生成するプロセス」全体を「推論(Inference)」と呼びます。

そしてこの推論、実は2つのフェーズに分かれています。

  • Prefill(プレフィル): 「あなたの質問を読み込む」段階。並列処理が得意。

  • Decode(デコード): 「答えの文字を一字ずつ出す」段階。逐次処理が必要。

この2つ、実はまったく性質が違う処理なんです。なのに今まではGPUが両方を頑張っていた。「全部俺がやる!」と言い張る昭和のサラリーマンみたいに(笑)

AWSとCerebrasが考えた「令和の働き方改革」

そこで登場したのが、AWSとCerebrasの新しいアプローチです。

  • Prefillは「AWS Trainium3」が担当

  • Decodeは「Cerebras CS-3」が担当

完全な分業制です。それぞれが得意な処理だけに集中することで、「GPUシステムを大幅に超える速度」を実現するというのです。

Cerebras CS-3というのは、Cerebrasというスタートアップが作ったWSE(Wafer Scale Engine)という化け物チップで、1枚のシリコンウエハー丸ごとをチップにしたという、設計思想からして常軌を逸した代物です。Decode処理に必要な「大量のメモリ帯域」を確保するのに最適な構造らしい。

ウチの会社に例えるなら、「資料作成が得意な人(Trainium3)」と「プレゼンが得意な人(CS-3)」を適材適所で配置する、という話です。窓際族の私には縁のない概念ですが……(´;ω;`)

「桁違いに速い」ってどのくらい?

発表では「GPUシステムを大幅に超える速度」とされていますが、具体的な数字はまだ明かされていません。

ただし、Cerebras単体のデータで見ると、既存のGPUクラスタと比較して推論速度が10〜20倍という実績があります。それにAWSのTrainium3が組み合わさったら……と考えると、「桁違い」という表現も誇張ではないかもしれません。

しかも「数か月以内にAmazon Bedrock経由でOSSモデルとAmazon Novaが利用可能になる」とのこと。つまり、私のような一般ユーザーも近いうちに恩恵を受けられる可能性があります。

「AnthropicとOpenAIもTrainium採用」の意味

さらっと書かれていましたが、これが地味に重要な情報です。

「AnthropicとOpenAIはいずれもTrainium採用を表明済み」

AIの世界でしのぎを削るライバル同士が、ともにAWSのTrainiumを選んでいる。これはAWSにとって非常に強いポジションを意味します。

NvidiaのGPUへの依存度を下げたい企業が増えている中、「Trainium+Cerebras」という組み合わせは、AIインフラの新たな選択肢として本格的に台頭してきそうです。

結局、これって株的にはどうなの?(本音)

技術の話はここまでにして、投資家としての本音を言います。

今回の発表で私が気になったのは、CerebrasがIPOを目指しているという噂です(まだ非上場)。もし上場したら……と考えると、ワクワクしてしまいます。

一方、AWSを抱えるAmazonの株は現在FANG+に入っており、この提携はAmazonにもプラスに働くはず。NvidiaのGPUに依存しない推論インフラを構築できれば、コスト競争力が上がりますから。

要するに、Nvidia(GPU陣営)とAmazon(AWS陣営)が推論インフラの覇権を巡って血みどろの戦争を始めているわけですが、私は「FANG+」を通じて両方の株を持っています。つまり、どっちが勝っても私の資産は増えます。どっちも頑張ってくれ!

「GPU一強時代」に亀裂が入りつつあります。そのことをもっとも証明しているニュースが、この発表だったかもしれません。

出典元


最後まで読んでいただきありがとうございます。面白かったらクリックしてもらえると励みになります👇

にほんブログ村 サラリーマン日記ブログ 50代サラリーマンへ
面白かったらクリックしてね!