本文へ移動

サムスンの包括的なオンデバイスAI SDKツールチェーン戦略を紐解く

スムーズなオンデバイスAI体験の背後には、サーバーで学習した巨大なモデルをスマートフォンのチップ上でシームレスに動作させるための隠れたプロセスが存在する。サムスンのオンデバイスAI SDKツールチェーンは、その変革を可能にする舞台裏のシステムであり、複雑なAIを実用的かつ携帯可能で、日常的に使える形へと転換している。

  • 共有

一般的に、クラウドやサーバー上で学習された顧客のAIモデルはサイズが非常に大きく、GPU動作向けに最適化されている。このようなAIモデルをExynos NPU上で実行するには、グラフ最適化、量子化、コンパイルなどのプロセスを通じて、オンデバイスAIモデルに変換することが不可欠である。
オンデバイスAI SDKツールチェーンは、Loweringプロセスを通して顧客の元のAIモデルをオンデバイスNPU環境で動作可能なモデルへと変換する。最終的に、AI SDKツールチェーンは顧客のAIモデルをサポートするために欠かせない存在である。しかし、これを実現するためには、いくつかの技術的課題を克服する必要がある。

[1] 多様なAIモデルのIRをサポート
対応するAIモデルの数と複雑性が年々急速に増加するにつれ、オンデバイスAI SDKツールチェーンは多様なシナリオに対応する必要がある。PyTorch¹⁾、ONNX²⁾、TensorFlow³⁾、TFLite⁴⁾ など幅広いAIモデルのIR⁵⁾ をサポートすることで、開発者はより素早く反復し、柔軟に適応できるようになる。これこそが、真にアジャイルなAI開発を実現する鍵である。

[2] 各ツールチェーン段階の検証方法
AIモデルのLoweringプロセスでは、元のモデルはグラフ最適化と量子化を経て、徐々にハードウェア実行可能なモデルへと変換されていく。元のAIモデルの精度と性能を可能な限り維持するためには、各段階での検証を強化することが重要である。

[3] グラフ最適化と量子化アルゴリズムの高度化
オンデバイスAIモデルの性能を最大限に引き出すには、とくにLLMのような高度に複雑なモデルに特化したグラフ最適化技術と量子化アルゴリズムを継続的に進化させる必要がある。

この目的のため、サムスンのオンデバイスAI SDKであるExynos AI Studioは、これらの主要な技術課題に取り組み、顧客へ強力なソリューションを提供している。


ExynosのオンデバイスSDK、Exynos AI Studioの高度化戦略
サムスンはオンデバイスAI分野のグローバルリーダーとなるべく、Exynos AI Studio SDKを開発し顧客に提供しており、未来へ向けた多様な高度化戦略を準備している。

PyTorch、ONNX、TFLite の AI モデルが、PyTorch 開発環境 SDK と IR Converter を通じて、Exynos AI 向けに最適化された内部中間表現(IR)へ変換される流れを示す図。
図 1. Exynos AI Studio SDKの構成
PyTorch、ONNX、TFLite の AI モデルが、PyTorch 開発環境 SDK と IR Converter を通じて、Exynos AI 向けに最適化された内部中間表現(IR)へ変換される流れを示す図。
図 1. Exynos AI Studio SDKの構成


Exynos AI Studioは、主にExynos AI Studio High Level Toolchain(EHT)とExynos AI Studio Low Level Toolchain(ELT)で構成される。両者はそれぞれ、モデルレベルでの高度なグラフ最適化と量子化、ならびにSoC特化アルゴリズムおよびコンパイルを担当する。
EHTはONNXやTFLiteなどのオープンソースフレームワークIRを入力とし、IRコンバータを通じて内部IRに変換した後、グラフ最適化を通じてモデル構造を変更し、NPU上での実行に適した形へと調整する。さらに量子化によって、端末上で効率的に動作できるレベルまでモデルサイズを縮小する。
ELTは各世代のNPUに最適化されたLowering処理を実行し、モデルをハードウェア上で実行可能な形式へと変換する。最終的に、モデルはコンパイラを通過し、NPU上で動作するオンデバイスAIモデルが生成される。


多様なAIモデルのIRに対応するSDK機能の設計
SDKの拡張性を向上させるには、複数のAIモデルIR形式をサポートすることが不可欠である。現在、サムスンのSDKはONNXやTFLiteなどのオープンソースフレームワークIRに対応しており、PyTorchサポート強化に向けた戦略を策定中である。 特に生成AIモデルにおいては、PyTorchの開発環境内でグラフ最適化と量子化を行うことで、Loweringの過程における不要な変換を最小化でき、より安定かつ効率的な SDKの提供が可能になる。

PyTorch、ONNX、TFLite などのディープラーニングフレームワークに対応する Exynos AI Studio SDK の構成図で、CNNX・SNC 変換、量子化、グラフ/低レベル最適化、コンパイルおよびオンデバイス AI のデバッグ・解析ツールの流れを示した図。
図 2. 多様なAI入力モデルにおけるIR処理
PyTorch、ONNX、TFLite などのディープラーニングフレームワークに対応する Exynos AI Studio SDK の構成図で、CNNX・SNC 変換、量子化、グラフ/低レベル最適化、コンパイルおよびオンデバイス AI のデバッグ・解析ツールの流れを示した図。
図 2. 多様なAI入力モデルにおけるIR処理


さまざまなAIモデルの入力IRがSDK内のIRコンバータを通過すると、ExynosのオンデバイスAI開発に最適化された内部 IRに変換される。すべてのSDKモジュールがこの内部IRをインターフェースとして情報交換を行うため、ソフトウェアアーキテクチャは高い拡張性と柔軟性を備えた設計となっている。


シミュレータとエミュレータによる段階的検証
SDKツールチェーンによるLoweringが進むにつれ、モデルサイズは縮小し、それに伴い元モデルの精度も低下する可能性がある。この段階において、各SDK モジュールの機能検証を強化し、精度性能の低下を最小限に抑えるためには、ツールチェーン各フェーズでの検証能力が不可欠である。

元のモデル、フェイク量子化およびデクオンタイズを適用した CNNX シミュレーションモデル、NPU エミュレーションを用いた SNC エミュレーションモデル間で演算子出力を比較し、SNR ベースの検証プロセスを示した図。
図 3. シミュレータとエミュレータを用いた段階的検証プロセス
元のモデル、フェイク量子化およびデクオンタイズを適用した CNNX シミュレーションモデル、NPU エミュレーションを用いた SNC エミュレーションモデル間で演算子出力を比較し、SNR ベースの検証プロセスを示した図。
図 3. シミュレータとエミュレータを用いた段階的検証プロセス


Exynos AI StudioのEHTモジュールの出力は、シミュレーション機能を通じてSNR(Signal-to-Noise Ratio)指標を用い、元のモデルとオペレーター単位で比較できる。
シミュレータでは量子化情報を処理するため、推論前後で特定のオペレーターに対して逆量子化および量子化処理が行われ、Fake Quantizationによる計算が可能になる。
ELTモジュールの結果は、EHTと同様の方法でエミュレーション機能により精度検証が行われる。エミュレータは NPUハードウェアを模倣したエミュレーションコードを用いて計算を実施するため、より精密な検証が可能である。


高度なグラフ最適化と量子化アルゴリズムの戦略
AIモデルがより複雑かつ巨大化するにつれ、SDKがサポートするグラフ最適化および量子化アルゴリズムの進化はますます重要になっている。

Exynos AI Studio の最適化および量子化機能を示した比較表で、ハードウェア非依存およびハードウェア特化のグラフ最適化、対応データ型、PTQ ベースの量子化手法を示す。
図 4. Exynos AI Studioのグラフ最適化および量子化に関する仕様
Exynos AI Studio の最適化および量子化機能を示した比較表で、ハードウェア非依存およびハードウェア特化のグラフ最適化、対応データ型、PTQ ベースの量子化手法を示す。
図 4. Exynos AI Studioのグラフ最適化および量子化に関する仕様


グラフ最適化段階では、処理はハードウェア非依存型とハードウェア依存型に分類される。一般的な計算デバイスに適した最適化を適用した後、NPU ハードウェアアクセラレータの特性に合わせた専用アルゴリズムを実行する。
量子化アルゴリズムは、fp32ビット幅でサーバー学習されたAIモデルを、NPUデバイスで動作可能なint8、int16、fp16などの形式へ縮小する。
高度なグラフ最適化および量子化アルゴリズムにより、元モデルの精度性能を可能な限り維持しながら NPU 最適化を実現できる。


オンデバイスインテリジェンスの未来を推進する
オンデバイスAIはもはや技術的障壁ではなく、実用的な現実となった。Exynos AI Studio SDKにより、サムスンは未来のAIが求める速度、精度、拡張性を提供している。これにより、知能は人々が最も必要とする場所、つまり手元に確実に届くようになる。 技術的観点では、サムスンのExynos AI Studio SDKはオンデバイスSDKツールチェーン構造を採用し、最適化、量子化、コンパイルを通じて顧客のAIモデルが NPUハードウェア上で効果的に動作するよう設計されている。
今後、包括的な設計および開発戦略の実行を通じて、サムスンはオンデバイスAI技術分野におけるグローバルリーダーとしての地位を引き続き確立していく。



* 表示されているすべての画像は説明のためのものであり、実際の製品とは異なる場合があります。


1) Metaが開発したオープンソースの深層学習フレームワークで、柔軟かつ直感的なAIモデル開発に最適化されている。
2) Open Neural Network Exchange(ONNX)は、機械学習および深層学習モデルを表現するためのオープンソース形式。
3) Googleによるオープンソースの深層学習フレームワークで、大規模なAIのトレーニングとデプロイメント向けに設計されている。
4) モバイルおよびエッジデバイスでのAIモデル実行向けに最適化された軽量版のTensorFlow。
5) 中間表現(IR)は、ハードウェアに依存しない形式であり、異なる深層学習フレームワークのモデルを統一し、最適化、量子化、コンパイルなどの後処理を可能にする。