【衝撃】AWSとCerebrasが組んだ「分業型AI推論」がGPUを時代遅れにするかもしれない話 - 準富裕層の窓際族、ガジェットの山に埋もれる～評価ダウンからのFIRE計画～

すーだらです。

「AWSとCerebrasが組んで、GPUより桁違いに速いAI推論を作る」というニュースになっていたので、自分なりにかみ砕いて書いてみたいと思います。

そもそも「AI推論」って何？という人へ
AWSとCerebrasが考えた「令和の働き方改革」
「桁違いに速い」ってどのくらい？
「AnthropicとOpenAIもTrainium採用」の意味
結局、これって株的にはどうなの？（本音）
出典元

そもそも「AI推論」って何？という人へ

難しい話の前に、まず基本から。

ChatGPTやClaudeに質問を打ち込んだとき、画面に文字がじわじわ表示されますよね。あの「AIが答えを生成するプロセス」全体を「推論（Inference）」と呼びます。

そしてこの推論、実は2つのフェーズに分かれています。

Prefill（プレフィル）： 「あなたの質問を読み込む」段階。並列処理が得意。
Decode（デコード）： 「答えの文字を一字ずつ出す」段階。逐次処理が必要。

この2つ、実はまったく性質が違う処理なんです。なのに今まではGPUが両方を頑張っていた。「全部俺がやる！」と言い張る昭和のサラリーマンみたいに(笑)

AWSとCerebrasが考えた「令和の働き方改革」

そこで登場したのが、AWSとCerebrasの新しいアプローチです。

Prefillは「AWS Trainium3」が担当
Decodeは「Cerebras CS-3」が担当

完全な分業制です。それぞれが得意な処理だけに集中することで、「GPUシステムを大幅に超える速度」を実現するというのです。

Cerebras CS-3というのは、Cerebrasというスタートアップが作ったWSE（Wafer Scale Engine）という化け物チップで、1枚のシリコンウエハー丸ごとをチップにしたという、設計思想からして常軌を逸した代物です。Decode処理に必要な「大量のメモリ帯域」を確保するのに最適な構造らしい。

ウチの会社に例えるなら、「資料作成が得意な人（Trainium3）」と「プレゼンが得意な人（CS-3）」を適材適所で配置する、という話です。窓際族の私には縁のない概念ですが……(´;ω;｀)