本文へ移動

クラウドを超えて:オンデバイス生成AIの深掘り

  • 共有

大規模な生成AIモデル、特に大規模言語モデル(LLM)やテキストから画像を生成するモデルは、従来クラウドサーバー環境に限定されていた。しかし、プライバシー保護の強化、遅延の低減、コストおよびエネルギー効率の向上に対する需要の高まりにより、SoCベースのオンデバイス生成AIへの関心が高まっている。このようなエッジコンピューティングへの移行には多くの利点があるが、実現するためには以下の三つの物理的制約を克服する必要がある。

[1] 計算リソースの制限

クラウドサーバーとは異なり、エッジデバイスのSoCは限られた計算資源を有しているため、生成AIモデルが要求する毎秒数兆回の演算(TOPS)を処理するのは困難である。並列計算ユニットの数が限られており、動作周波数も低く抑える必要があるため、高性能なオンデバイス推論を実現するには、構造的に計算負荷を削減することが不可欠である。

[2] メモリ容量および帯域幅の制限

高性能な生成AIモデルは数百メガバイトから数ギガバイトに及ぶパラメータや中間活性化データを扱う必要がある。しかし、サーバーと比較してエッジデバイスはDRAM容量が小さく、外部メモリアクセス速度も大幅に低いため、モデル実行中の頻繁なメモリアクセスが大きなボトルネックとなり、システム全体の性能低下や消費電力の増加を引き起こす可能性がある。

[3] バッテリー電力および熱設計の限界

バッテリー駆動のモバイルデバイスは、利用可能な電力が制限されており、過剰な電力消費は発熱増加を引き起こし、サーマルスロットリングによりシステム性能が自動的に低下する。このような制約のため、高性能モデルを搭載しても持続的な推論は困難であり、省エネルギーを重視した計算プロセスの再設計が求められる。

これらの課題に対処するため、サムスンはハードウェアレベルの最適化に加え、モデル構造、計算パターン、アルゴリズム設計など、アーキテクチャ全体にわたる改善に注力してきた。これらの要因が、Exynos SoC上で大規模生成AIモデルが卓越した性能を実現する基盤となった。


低ビット量子化:SoC上の動作のためのモデル軽量化技術

ビット量子化は、深層学習モデルの重みや活性化値を32ビット浮動小数点ではなく、8ビット、4ビット、さらにはそれ以下の整数で表現する技術であり、モデルの全体サイズと計算複雑性を大幅に削減する。この手法により、計算速度が向上し、メモリ使用量が削減され、電力効率の高い整数演算が可能になるため、計算リソースが限られたSoCやエッジデバイスに非常に効果的である。

近年、精度を損なうことなくモデルを4ビット以下に量子化できる新しいアルゴリズムが登場し、低ビット量子化はLLMや生成モデルをオンデバイスで動作させるための重要な技術として位置付けられている。この手法により、サムスンは浮動小数点モデルと比較して高い電力効率(TOPS/W基準)を実現し、メモリ帯域幅のボトルネックも緩和した。これらの成果を基盤に、LlamaやStable Diffusion XLなどの生成モデルをExynos SoC上でスムーズに実行できるレベルの性能を確保した。

低ビット量子化の実装の利点
低ビット量子化の実装の利点

重みスパース性:メモリI/O削減のためのモデル最適化技術

重みスパース性とは、深層学習モデルにおいて重要度が低い、またはゼロに近い値を持つ重みを削除または無視することで、必要な計算のみを実行可能にする技術である。このスパース性を活用することで、総演算回数が削減され、不必要なメモリアクセスを回避できるため、メモリI/Oの大幅な削減につながる。

過去には、チャネルやフィルター全体を削除する構造的プルーニング(剪定)がモデル構造の簡素化に主に用いられてきたが、チャネルやフィルター単位でのスパース性が低いため、実際の計算削減効果は限定的である。一方で、個々の重み接続を選択的に削除する非構造的プルーニングが注目を集めており、業界ではこの技術を実際の性能向上に結びつけるため、スパース対応のカスタムアクセラレータの開発が進んでいる。

Exynosプラットフォームはハードウェアレベルで非構造的重みスパース性をサポートしており、メモリI/O削減のソリューションを提供している。これにより、特にメモリI/Oが主要な性能ボトルネックとなっているモデルにおいても、最適化された性能と低消費電力が実現可能となっている。

さらに、重みスパース性に加え、サムスンは活性化スパース性(アクティベーションスパース性)の研究も進めている。活性化スパース性は、レイヤーへの入力値の多くがゼロとなることで計算をスキップできる状態を指し、重みスパース性がニューラルネットワークの計算において固定された定数と関連する技術であるのに対し、活性化スパース性はデータに応じて変化する変数と関連しており、これを処理するために別途のハードウェアサポートが必要であるという特徴がある。¹


アルゴリズムレベルの最適化:推論速度を構造的に改善する新たなアプローチ

固定されたモデルアーキテクチャの圧縮や計算の省略といった従来の方法を超え、サムスンはアルゴリズムレベルでの構造的最適化の研究と適用を進めている。これは、推論の高速化においてますます重要なアプローチとなっている。

[1] LLM向けのスペキュレーティブデコーディング(推測的復号)

スペキュレーティブデコーディングは、まず軽量化された小さなモデルを活用して複数の候補トークンを高速生成し、その後に大規模モデルで一括検証することで、LLMの推論速度を劇的に向上させる技術である。この方法により、従来のように大規模モデルをトークンごとに呼び出す方式と比べて、はるかに少ない計算量で複数のトークンを予測でき、全体の推論レイテンシを大幅に削減する。特に、出力品質を損なうことなく最大3~4倍の高速応答を実現できるため、限られた計算資源のモバイルやエッジデバイス上でLLMを動作させるための重要な技術となっている。

自己回帰デコードと推測デコードの比較
自己回帰デコードと推測デコードの比較

[2] LLM向けスライディングウィンドウアテンション(SWA)

LLMが長い入力シーケンスを処理する際に発生する莫大な計算量とメモリ使用量の問題に対処するため、サムスンはスライディングウィンドウアテンション(SWA)のような最適化アルゴリズムを実装している。この技術は、Self-Attention演算をシーケンス全体に行うのではなく、各トークンが固定長の隣接したウィンドウ内のトークンとのみ相互作用するように制限する。

これにより、LLMのトランスフォーマーブロックの計算複雑度を O(N²) から O(N) に削減できる。このようなアーキテクチャは特に要約などの長文コンテキスト処理に適しており、長いシーケンスの効率的な処理を可能にする。スペキュレーティブデコーディングが将来の推論パスを予測して計算量を削減する方式ならば、SWAはコンテキスト構造そのものを簡素化することで計算負荷を構造的に軽減する方式である。

[3] 画像生成用拡散モデルのステップディスティレーション

拡散モデルにおけるステップディスティレーションは、高品質な画像生成に必要な反復的なノイズ除去ステップ数を削減するための高度な最適化技術である。従来の拡散モデルはU-Netアーキテクチャを用い、数十から数百ステップにわたり画像を段階的にデノイズする。しかし、このプロセスは計算負荷が高く、頻繁なメモリアクセスを必要とするため、SoCやエッジデバイス環境での実装は困難であった。

この課題に対し、ステップディスティレーションは推論ステップ数を数十~数百から10未満に削減しつつ、同等の画像品質を維持することを可能にする。モデルのアーキテクチャやパラメータに大きな変更を加えずに適用できるため、Stable Diffusionのような大規模画像生成モデルにも適している。特に、電力効率と推論時間の最適化が重要なSoCやエッジ環境で有利である。

さらに、ステップディスティレーションは限られた計算資源とメモリ帯域幅内で高品質な生成AIを実現する重要な技術である。加えて、U-Netアーキテクチャの特性に基づいて、ステップごとに大きな変化があるレイヤーはより頻繁に実行し、変化の少ないレイヤーは断続的に実行するなどの最適化も可能である。


よりスマートなオンデバイスAI体験に向けて

生成型AI時代に対応し、サムスンはExynos SoCのAI機能を持続的なアーキテクチャおよびアルゴリズムの最適化を通じて強化し、オンデバイスでのイノベーションを推進している。エージェント型AIの時代を見据え、今後も低ビット量子化や重み・活性化スパース性といったモデル軽量化技術の研究を継続し、それらを統合ツールチェーンであるExynos AI Studioを通じて実装していく予定である。

アルゴリズムレベルでは、スペキュレーティブデコーディングをさらに進化させるとともに、MoE²、Mamba³、MM-DiT⁴など、エッジデバイス環境に最適化された最先端モデルアーキテクチャの効率的な実装の研究・開発を行っている。

これらのソフトウェアイノベーションは、生成型モデルがオンデバイス環境で動作する方法において重要な転換点を示している。サムスンは引き続きハードウェアの進化とソフトウェアの革新をリードし、オンデバイスAIの性能向上を図っていく。このような統合的アプローチにより、リアルタイムのオンデバイス生成型AIは単に実用可能な水準に留まることなく、一層優れた性能を実現できるようになるだろう。

* 掲載されているすべての画像はイメージであり、実際の製品とは異なる場合があります。画像はデジタル処理、修正、または加工されています。

* すべての製品仕様は社内テスト結果に基づくものであり、ユーザーのシステム構成により変動する可能性があります。実際の性能は使用条件や環境によって異なる場合があります。


1) ニューラルネットワークにおける基本的な演算は y = w × x である。ここで、重みスパース性は w = 0 の場合に発生し、活性化スパース性は x = 0 の場合に発生する。いずれの場合も計算をスキップして、y を直接ゼロに設定することが可能である。ただし、w は定数であり、x は変数であるため、それぞれ異なるハードウェア実装が求められる。
2) MoE(Mixture of Experts)は、専門家モデルの一部のみを選択的に活性化するニューラルネットワークアーキテクチャであり、計算効率を向上させるとともに、モデル容量の効果的なスケーリングを可能にする。
3) Mambaは、トランスフォーマーの制約を克服するために設計されたシーケンスモデルであり、長いシーケンスを線形時間で処理できる。
4) MM-DiT(Multimodal Diffusion Transformer)は、拡散モデルにおけるU-Netアーキテクチャをトランスフォーマーベースの構造に置き換えたものである。画像をパッチに分割し、それぞれのパッチをトークンとして扱い、テキスト入力と共に処理することで、マルチモーダルな理解に基づく高品質な画像生成を実現する。