2025.06.05 15:00

「推論」の処理速度でNVIDIA超え、米新興「セレブラス」のAIチップの実力

John Koetsier | Contributor

著者フォロー

記事を保存

Cerebras Wafer Scale Engine（C）Cerebras

全ての画像を見る

Cerebras Wafer Scale Engine（C）Cerebras

全ての画像を見る

筆者は先日、「世界最大のコンピューターチップ」といえるほど、巨大なチップを手にする機会を得た。人工知能（AI）チップのスタートアップ、Cerebras（セレブラス）が開発した「ウェーハスケール・エンジン（WSE）」だ。ほとんどのコンピューターチップは郵便切手ほどの大きさかそれより小さいが、このAIチップは一辺の長さが約22センチもある巨大な正方形をしており、最新モデルは1枚のチップに4兆個に及ぶトランジスターを搭載している。

これら膨大な数のトランジスターによって、WSEはAIの推論処理で世界記録を樹立しており、同等クラスのエヌビディア製品よりも約2.5倍速い処理スピードを実現したという。

「これは世界最速の推論処理スピードだ」と、セレブラスの最高情報セキュリティ責任者のナオール・ペンソは、5月27日からバンクーバーで開催された「ウェブサミット」の会場で筆者に語った。「エヌビディアは先日、メタが開発した大規模言語モデル（LLM）のLlama（ラマ）4で毎秒1000トークンという数値を発表した。それは確かに印象的だ。だが当社は本日、毎秒2500トークンというベンチマーク結果を発表した」と彼は続けた。

「AIエージェントの時代」を支えるスピードの重要性

AIにあまり詳しくない人のために説明しておくと、「推論」とは人間の思考や行動のようなものだ。つまり、入力やプロンプトに応じて文や画像、動画を生成することを意味する。そして「トークン」とは、言葉や文字、記号といった思考の基本単位のことだ。

AIエンジンが1秒あたりに処理できるトークンの数が多いほど、より迅速に結果が得られる。そしてスピードは重要だ。企業が大勢の顧客についてさまざまなニーズを把握して、瞬時に最適な提案を行いたい場合に、スピードは不可欠な要素になる。

スピードの重要性は今後、ますます高まっていく。なぜなら我々は今、「AIエージェントの時代」に突入しつつあるからだ。AIが複数のステップからなる複雑なプロジェクト、例えばF1観戦のための旅行の計画の立案や、ホテルの予約の手配などを代行するAIエージェントが普及の初期段階にある。

「AIエージェントは大量の処理を必要とするうえに、それらが互いに通信する必要がある。だから推論が遅くては成り立たない」と、ベンソンは述べている。

WSEの4兆個のトランジスターは、こうした高速な処理を可能にする要素のひとつだ。参考までに身近なトップのトランジスター数を例に挙げると、Intel Core i9は335億個で、Apple M3 Ultraも1840億個しか搭載されていない（訳注：エヌビディアのBlackwell B200は2080億個）。しかし、単にトランジスターの数の多さだけが高速処理を実現するわけではない。鍵となるのは、演算装置やメモリーなどすべての要素を1枚のチップ上に集約する「コ・ロケーション（共配置）」という設計で、WSEはこの設計によって最速の44ギガバイトのRAMをチップ内に備えることで、高速な処理を実現している。「AIの計算処理は、大量のメモリーを必要とする。エヌビディアの場合、チップ外のメモリーにアクセスしなければならないが、当社の製品はその必要がない」とベンソンは続けた。

次ページ＞チップ技術における「新たな飛躍」