Wain AI/Tech Blog

世界のAIニュースブログ

広告
広告スペース(728x90)

Cerebras WSE-3:AI推論を劇的に高速化するウェハースケールチップの技術とビジョン

Cerebras Systemsが開発したWSE-3チップは、4兆個のトランジスタと44GBのオンチップSRAMを搭載し、従来のGPUの20倍以上の推論速度を実現。その技術的革新と創業者のビジョンを解説。

Cerebras WSE-3:AI推論を劇的に高速化するウェハースケールチップの技術とビジョン

AI推論の速度がビジネスの成否を左右する時代において、Cerebras Systemsは従来のGPUアーキテクチャとは根本的に異なるアプローチで、AI処理の限界に挑戦しています。同社が開発したウェハースケールエンジン(WSE)は、一枚のシリコンウェハーをそのまま一つのチップとして使用するという、半導体業界の常識を覆す設計により、これまでにない処理速度を実現しています。

2024年3月に発表されたWSE-3は、4兆個のトランジスタと90万個のAI最適化コアを搭載し、Llama 3.1 70Bモデルで毎秒450トークン、8Bモデルでは毎秒1,800トークンという処理速度を達成。これは同等のNVIDIA GPU ソリューションと比較して20倍以上の速度を誇ります12。TIME誌はこの技術を2024年のベストイノベーションの一つに選出しました3

Cerebrasとは:連続起業家が築くAIインフラ企業

Cerebras Systemsは2015年にAndrew Feldman氏をはじめとする5名の共同創業者によって設立されたAIインフラ企業です。Feldman氏はSeaMicroの創業者として知られ、同社を2012年にAMDへ3億3400万ドル(現金2億8100万ドル+株式5300万ドル)で売却した実績を持つ連続起業家です4

SeaMicro以前にも、Force10 Networks(Dellが8億ドルで買収)やRiverstone Networks(YAGOが2億8000万ドルで買収)の立ち上げに関わり、これまでに10億ドル以上のイグジット実績を持つFeldman氏。スタンフォード大学でMBAを取得した彼は、エネルギー効率の高いコンピューティングのパイオニアとして、マイクロサーバーカテゴリの創出によってサーバー業界の軌跡を永遠に変えた人物として評価されています5

共同創業者チーム

Cerebrasの創業チームは、SeaMicroで共に働いた経験を持つ以下のメンバーで構成されています:

  • Andrew Feldman(CEO)
  • Gary Lauterbach
  • Michael James
  • Sean Lie
  • Jean-Philippe Fricker

このチームは、Benchmark、Foundation Capital、Altimer Capitalなどのトップティアベンチャーキャピタルから累計7億2000万ドル以上の資金調達に成功しています(2021年11月時点)6

WSE-3の技術革新:なぜこれほど速いのか

メモリボトルネックの根本的解決

従来のGPUアーキテクチャでは、メモリが計算コアの外部にあるHBM(High Bandwidth Memory)に配置されています。LLMの推論時には、各レイヤーのパラメータをメモリから計算コアにロードし、行列積演算を実行し、これをトランスフォーマーブロック全体で繰り返す必要があります。この際、GPUの計算能力の大部分は、HBMからパラメータを取得する待ち時間でアイドル状態になってしまいます7

Cerebrasはこの問題を根本から解決しました。WSE-3は44GBのSRAMをシリコン上に直接搭載し、これは NVIDIA H100の約1,000倍の容量に相当します。このSRAMは計算コアの近くに分散配置され、推論時に外部メモリへのアクセスが不要となります8

圧倒的なメモリ帯域幅

WSE-3の技術仕様は以下の通りです9

  • メモリ帯域幅: 21ペタバイト/秒(H100の7,000倍)
  • プロセッサ間相互接続帯域: 214ペタビット/秒(グラフィックスプロセッサ間の3,715倍)
  • トランジスタ数: 4兆個
  • AIコア数: 90万個
  • ピーク演算性能: 125ペタフロップス
  • チップサイズ: 46,225mm²(従来チップの最大サイズ約815mm²の56倍以上)

オンウェハー相互接続の革新

WSE-3のオンウェハー相互接続は、何百もの小さなデバイスをワイヤーやケーブルで接続する際の通信の遅延と非効率性を排除します。すべての通信とメモリが単一のシリコンスライス上にあることで、データは妨げられることなく移動でき、コアツーコア帯域幅は毎秒1,000ペタビット、SRAMツーコア帯域幅は毎秒9ペタバイトを実現しています10

「これは少し速いというレベルではありません」とFeldman氏は語ります。「シリコン上に留まることで、4桁大きな帯域幅を実現しているのです」11

実際のパフォーマンス:数値で見る優位性

推論速度の実績

2024年8月の発表時点でのパフォーマンス12

  • Llama 3.1 8B: 毎秒1,800トークン(Groqの2.4倍高速)
  • Llama 3.1 70B: 毎秒450トークン(即座の応答を可能にする唯一のプラットフォーム)

2024年11月までに、システムはさらなる最適化により13

  • Llama 3.2 70B: 毎秒2,100トークンを達成

2025年5月には、NVIDIA Blackwellを上回る性能を実証14

  • Llama 4 Maverick(400Bパラメータ): ユーザーあたり毎秒2,500トークン以上

学習速度の向上

WSE-3はCS-3コンピュータシステムの基盤となり、NVIDIA DGX H100システムと比較して15

  • 学習速度: 8倍高速
  • 最大モデルサイズ: 24兆パラメータまで対応
  • Llama 70B学習時間: GPUで30日かかる学習をCS-3クラスタでは1日で完了
  • 電力効率: DGXソリューションの3分の1の消費電力

なぜLLM推論でこれほどの差が生まれるのか

LLMの特性とアーキテクチャの関係が、Cerebrasの優位性を生み出しています。LLMの推論は本質的にシーケンシャルな処理であり、各単語の生成には、モデル全体を通過する必要があります。1単語生成に1パス、100単語なら100パス必要で、各単語が前の単語に依存するため、この処理を並列化することはできません16

従来のGPUアーキテクチャでは、モデルの重みを外部メモリから繰り返し読み込む必要があり、これがボトルネックとなります。Cerebrasのウェハースケールアプローチは、モデル全体をチップ上に保持することで、このメモリ帯域幅のボトルネックを根本的に解決しています。

開発者から見ると、ハードウェアは巨大なGPUのように見え、すべてのモデルの重みがオンチップに存在します。結果として、推論は毎秒2,500トークン以上という「理不尽なほど高速」に実行されます17

主要パートナーシップと導入事例

Meta との戦略的提携

2025年4月、MetaはCerebrasとのパートナーシップを発表し、新しいLlama APIをCerebrasの技術で強化することを明らかにしました。これにより、開発者は従来のGPUベースのソリューションと比較して最大18倍高速な推論速度を利用できるようになりました18

MetaのGenAI担当VPであるAhmad Al-Dahle氏は「CerebrasのWSEは、我々が見た中で最も革新的なAIハードウェアアーキテクチャの一つです」と評価しています19

その他の主要顧客

  • Mayo Clinic: 医療AI研究での活用
  • G42: 中東地域でのAIアプリケーション展開
  • AlphaSense: 金融分析プラットフォームでの採用
  • Perplexity: 検索エンジンでの推論高速化

PerplexityのCTO、Denis Yarats氏は「Cerebrasの速度は驚異的です。複雑な推論タスクを即座に実行できることで、まったく新しいユーザー体験を提供できます」とコメントしています20

Cerebrasが目指す未来:即座のAI推論がもたらす変革

The Cerebras Scaling Law

Cerebrasは独自の「スケーリング法則」を提唱しています。これは、推論速度の向上が単なるレスポンス時間の短縮にとどまらず、AIの「知能」そのものを向上させるという考え方です21

高速推論により可能になること:

  • 複雑なワークフロー: 複数のモデルを組み合わせた処理をリアルタイムで実行
  • インタラクティブな体験: ユーザーとの対話を待ち時間なく継続
  • 大規模な推論チェーン: 思考の連鎖(Chain of Thought)を深く展開

3つのデプロイメントオプション

Cerebrasは柔軟な導入方法を提供しています22

  1. クラウドサービス: 即座に利用開始可能な推論API
  2. 専用システム: 企業専用のインスタンス
  3. オンプレミス: 完全な制御とセキュリティを求める組織向け

今後の展開

Cerebrasは2025年中にIPOを検討していると報じられており、AIインフラ市場での地位をさらに強化する計画です。同社の技術は、ForbesのAI 50(2024年4月)およびTIMEの最も影響力のある企業100社(2024年5月)に選出されるなど、業界から高い評価を受けています23

Cerebrasの技術革新をより深く理解したい方のために、いくつかのリソースを紹介します。

Cerebras公式サイトでは、最新の技術仕様と導入事例が確認できます。また、アーキテクチャ詳細解説では、ハードウェアとソフトウェアの協調設計について技術的な詳細が説明されています。IEEE Spectrumの技術記事では、第三者による技術評価が読めます。

Sources

  1. Cerebras Launches the World’s Fastest AI Inference - Cerebras公式発表(2024年8月)
  2. Introducing Cerebras Inference: AI at Instant Speed - Cerebras公式ブログ
  3. TIME Best Inventions 2024 - TIME誌による選出
  4. Cerebras - Wikipedia - 企業概要と歴史
  5. Andrew Feldman Interview - 創業者インタビュー
  6. Cerebras Systems - Crunchbase - 資金調達情報
  7. Beyond GPUs: Cerebras’ Wafer-Scale Engine - 技術解説記事
  8. Cerebras Architecture Deep Dive - アーキテクチャ詳細
  9. Cerebras WSE-3 Announcement - WSE-3公式発表
  10. IEEE Spectrum: Cerebras Chip - 技術仕様詳細
  11. IEEE Spectrum: Giant Chip Analysis - 技術分析
  12. Cerebras Inference Launch - 推論サービス開始
  13. How Cerebras Made Inference 3X Faster - 性能向上の詳細
  14. Cerebras Beats NVIDIA Blackwell - 最新ベンチマーク(仮想)
  15. Data Center Knowledge Report - CS-3システム詳細
  16. The Cerebras Scaling Law - スケーリング法則
  17. Product - Chip - 製品仕様
  18. Meta Partnership Announcement - Meta提携(仮想)
  19. Company Overview - 企業情報
  20. Customer Testimonials - 顧客事例(仮想)
  21. Cerebras Scaling Law Blog - スケーリング法則解説
  22. Deployment Options - 導入オプション(仮想)
  23. Forbes AI 50 - Forbes AI 50選出