本文へ移動

サムスンが切り拓くオンデバイス生成AIの転換期

  • 共有

2025年、生成AIは私たちの手の届くところにある。サムスンのExynos SoCに搭載されたオンデバイスAI機能のおかげで、この力をより速く、より安全に活用できるようになった。これまで大規模なサーバーと常時インターネット接続が必要だった処理が、今ではスマートフォンのような個人デバイス上で直接実行できるようになったのだ。このような観点から、オンデバイスAIは単なる技術的マイルストーンではなく、AIの使い方そのものを根本から変える存在となっている。

オンデバイスAIは、クラウドベースのモデルと比較して、いくつかの重要な利点を提供する。動作が速く、インターネット接続がなくてもAIサービスにアクセスできる。すべての処理をローカルで行うことで個人データのプライバシーと安全性が保たれる。そしてインターネット通信費用やクラウドサービスのコスト削減にもつながる。しかし、スマートフォンという限られたフォームファクタ上で大規模生成AIを円滑に動作させることは簡単ではなく、限られた計算資源とメモリ容量の中で効率的な推論技術とモデル最適化技術(モデル圧縮や量子化など)が求められる。また、高性能モデルをリアルタイムで動作させるには、モデル変換ツールやランタイムソフトウェア技術、異種コアアーキテクチャに基づく高性能・低消費電力のニューラルネットワークアクセラレータの設計技術も必要となる。
 

異種コアアーキテクチャに基づく高性能・低消費電力NPU

大規模生成AIの中核となるのがTransformerアーキテクチャであり、マルチヘッドアテンション機構とフィードフォワードネットワークの組み合わせで構成されている。これら2つの構造内では、行列積などの線形演算やsoftmax1関数などの非線形演算が用いられる。これらの演算比率は生成AIモデルの適用シナリオによって変わる場合がある。

このため、生成AIモデルをオンデバイスで効果的に動作させるには、線形・非線形演算の両方への対応が必要となる。また、これらの演算比率の変化に柔軟に対応し、多様なワークロードにおいて最適な性能を発揮するためには、異種コアアーキテクチャに基づくニューラルネットワークアクセラレータが重要な役割を果たす。 

圧縮、制御、メモリ、3つのテンソルエンジン、1つのベクトルエンジンで構成されるニューラルネットワークアクセラレーターのヘテロジニアスコアアーキテクチャの図。
圧縮、制御、メモリ、3つのテンソルエンジン、1つのベクトルエンジンで構成されるニューラルネットワークアクセラレーターのヘテロジニアスコアアーキテクチャの図。

この種のアプリケーション向けに高性能・低消費電力のニューラルネットワークアクセラレータを構築するためには、次の3つの主要な要素が必要となる。

[1] オンデバイス環境向けの高性能・低消費電力計算アーキテクチャ

オンデバイスでのモデル実行におけるリアルタイム処理要件を満たすため、数十TOPS以上の計算性能および16ビット未満の低精度フォーマットのサポートが求められるようになっている。オンデバイスシステムはクラウドベースのプラットフォームと比べると絶対的な計算性能は低い場合があるが、4ビットや8ビット処理といった低精度演算をサポートすることで、より高いエネルギー効率を達成できる。

[2] 多様な異種コアベースアーキテクチャ

生成AIモデルを構成する線形演算および非線形演算を効率的に処理するために、このアクセラレータはTensor EngineとVector Engineの両方を統合しており、それぞれ異なる種類の計算処理に特化している。Tensor Engineは高速な線形演算を行うための複数のMAC2アレイを搭載し、Vector Engineは多様な非線形演算向けに最適化されたSIMD3ユニットを備えている。

[3] 複数の計算ユニット間での共有メモリおよびコントローラアーキテクチャ

異種計算ユニット間でのデータ転送オーバーヘッドを最小化するため、すべての演算エンジンは計算結果を交換するためのScratchpad SRAMなどの内部共有メモリを備えている。さらに、各コアの実行効率を最大化するための専用のコントローラアーキテクチャを有している。
 

高効率推論のための計算およびメモリ最適化ソフトウェア技術

オンデバイス環境で大規模AIモデルを実行するためには、限られたハードウェアリソースで計算処理およびデータ保存を行うための最適化ソフトウェア技術による効率的な推論が必要となる。その代表例として、LoRA4適用技術やニューラルネットワークの計算・メモリ最適化のためのコンパイラ技術が挙げられる。

[1] LoRA適用技術

LoRA技術は、固定されたモデルパラメータに最小限の変更を加えることで多様な適応を可能にし、モデル全体のサイズを大幅に削減できるという利点がある。一般的な活用例としては、特定ドメイン向けの言語モデルの構築、特定スタイルでの画像生成、特定タスク向けのチャットボットおよびAIエージェントの開発などがある。オンデバイス環境でLoRAの利点を活かすためには、LoRA適用技術が不可欠である。

オンデバイス環境においてLoRA技術を活用することで、ターゲットモデルの固定パラメータと更新可能なLoRAパラメータを明確に分離でき、メモリ使用量を最小限に抑えつつ多様なタスクへの柔軟な適応が可能となる。 

LoRA技術の適用を示す図で、基本重み (W_base) は固定されており、複数のタスクのために学習可能な低ランク適応行列 (A_i および B_i) が使用されます。
LoRA技術の適用を示す図で、基本重み (W_base) は固定されており、複数のタスクのために学習可能な低ランク適応行列 (A_i および B_i) が使用されます。

[2] ニューラルネットワーク計算およびメモリ最適化のためのコンパイラ技術

オンデバイス環境における生成AIモデルの高速化を目的としたコンパイラ技術には、主に異種アクセラレータを用いた並列処理技術やサブモデル間の重み共有技術が含まれる。

並列処理技術は、生成AIモデルを構成する線形演算と非線形演算が異なる種類の処理ユニットで扱われるという特性を活かし、これらの異なるユニットの実行を並列にスケジューリングすることで、全体の実行時間を最小化する技法である。 

データ依存関係除去後のスケジューリング手法を示す図で、逐次処理と並列処理の過程を比較しています。
データ依存関係除去後のスケジューリング手法を示す図で、逐次処理と並列処理の過程を比較しています。

さらに、データ依存を排除するためのニューラルネットワークパーティショニング技術とこれらの技術を組み合わせることで、メモリトラフィックの削減および計算時間の並列化が可能となり、推論速度が大幅に向上する。 

ニューラルネットワークタイリングおよびヘテロジニアスアクセラレーターを使用した並列処理に基づく推論高速化の図で、直列および並列実行のタイムラインを比較しています。
ニューラルネットワークタイリングおよびヘテロジニアスアクセラレーターを使用した並列処理に基づく推論高速化の図で、直列および並列実行のタイムラインを比較しています。

また、サブモデル間での重み共有技術は、生成AIモデルのストレージ制約を克服するためのコンパイラ最適化技術の一つである。全体モデル内のサブモデル間でパラメータを共有することで、システム全体で必要となるストレージ容量を大幅に削減することができる。 

下位モデル間の重み共有技術を示す図で、複数の下位モデルの個別重みを共有重みに統合する過程を表しています。
下位モデル間の重み共有技術を示す図で、複数の下位モデルの個別重みを共有重みに統合する過程を表しています。

AIモデルの軽量化および量子化技術

モデルの軽量化と量子化技術は、オンデバイス環境で大規模な生成AIモデルを動作させるために不可欠であり、限られたハードウェアリソース内で効率的かつリアルタイムでの動作を可能にする。これらの技術はメモリおよび計算の制約を克服する上で重要な役割を果たし、モデルサイズの削減、計算速度の向上、エネルギー消費の最小化を実現する。

特に、プルーニング(枝刈り)と知識蒸留は、モデル圧縮を通じて大規模生成AIモデルのオンデバイス実行を可能にする主要な技術である。プルーニングは、モデル内の不要または重要度の低いニューロンや接続を削除することで、モデルサイズと計算負荷を削減し、処理速度とエネルギー効率を大幅に向上させる。一方、知識蒸留は、大規模な教師モデルの予測知識を小規模な生徒モデルに転送する技術であり、パラメータ数を大幅に削減しながらも高い性能を維持できる。この両技術はオンデバイス環境でリアルタイムAI推論を実現するために不可欠であり、併用することで最適な結果を得ることができる。

モデル軽量化適用概念図で、元の大きなニューラルネットワークが枝刈り/知識蒸留を通じてより小さなモデルに変換される過程を示しています。
モデル軽量化適用概念図で、元の大きなニューラルネットワークが枝刈り/知識蒸留を通じてより小さなモデルに変換される過程を示しています。

量子化技術は、ニューラルネットワークの重みおよび活性化値を8ビット以下の整数などの低精度フォーマットに変換する技術である。これにより、計算およびストレージに必要なリソースが大幅に削減され、限られたハードウェアリソースで大規模生成AIモデルを効率的に処理することが可能になる。その結果、量子化はオンデバイス環境でリアルタイム推論を実現するための重要な技術となっている。

近年では、生成AIモデルにおいて低精度フォーマットの採用が進み、重みに対しては4ビット以下、活性化値に対しては8ビット以下の量子化が適用されるようになっている。それに伴い、4ビット未満の精度をサポートするモデルの開発および実装が進んでおり、オンデバイスAIの実行環境に急速な変化をもたらしている。

モデル量子化適用概念図で、元の32ビットニューラルネットワークが量子化された2~16ビット混合精度モデルに変換される過程を示しています。
モデル量子化適用概念図で、元の32ビットニューラルネットワークが量子化された2~16ビット混合精度モデルに変換される過程を示しています。

オンデバイス生成AIの未来を切り拓く

サムスン電子は、異種演算を支えるハードウェアから計算負荷を軽減するアルゴリズム、動作効率を高めるソフトウェアに至るまで、オンデバイス生成AIのコア技術を高いレベルで統合し、継続的に発展させてきた。こうした技術的進展を基に、サムスンは世界で初めてAIスマートフォンの商用化に貢献した。今後もサムスンはオンデバイスAI技術の限界を絶えず拡張し、世界中のユーザーによりスマートで安全なAI体験を提供していく。
 

*掲載されているすべての画像はイメージであり、実際の製品とは異なる場合があります。画像はデジタル処理、修正、または加工されています。

*すべての製品仕様は社内テスト結果に基づくものであり、ユーザーのシステム構成により変動する可能性があります。実際の性能は使用条件や環境によって異なる場合があります。 


1) Softmaxは、実数のベクトルを確率分布に変換する数学的関数です。NPUにおいて、SoftmaxはTransformerのアテンション機構における相関を強調するために重要な役割を果たします。また、分類タスクで確率を計算する際にも不可欠な要素となっています。
2) Multiply-Accumulate, 積和演算
3) Single Instruction Multiple Data, 単一命令・複数データ
4) Low-Rank Adaptation, 低ランク適応