大幅な容量削減と高い再構成品質を両立
Turing株式会社のプレスリリース
Turing株式会社(東京都品川区、代表取締役:山本 一成、以下「チューリング」)は、動画や画像の大規模データを効率的に圧縮しながら、AIに適した形式で高精度に保持できる技術を開発しました(特許出願中)。本技術では、局所的に重要情報を集約する学習時の工夫と、重要度に応じたデータの割り当てを組み合わせることで、自動運転AIやマルチモーダルAIなどにおける高速かつ高精度なデータ活用を可能にします。
背景
近年、画像やテキストなど複数種類のデータを同時に扱うマルチモーダル大規模言語モデル(MLLMs)が注目を集めており、大量のデータを入力する高度な開発ニーズがますます高まっています。しかし、従来の画像データ埋め込み技術では、AI向けに最適化された形で効率良く情報を受け渡すことが難しいという課題がありました。
技術の概要
このたびチューリングが開発した技術は、膨大なデータを効率良く圧縮しながら必要な情報を高精度で保持できる仕組みを提供します。テキストや画像など多様な情報を、トークン(AIが処理するための最小単位)の列に変換し、それらを必要に応じて増減できる仕組み(可変長圧縮)を導入しています。これにより、必要な画質や解析精度を維持しながら、データ容量を大幅に削減することが可能になりました。
その中で、学習の段階でトークン列の末尾をランダムに削除し、その差異を比較してモデルを最適化する手法「Tail Token Drop」を導入することで、重要情報がデータ列の先頭に集約されるようになっています。これにより、圧縮率を高めても肝心な部分を損ないにくい設計を実現しています。
また、本技術ではトークン列から画像を再構成でき、従来のJPEGやWebPなどの画像フォーマットと比較して小さいバイト数で視覚的に自然な画像を再構成することが可能です。今後は、リアルタイム性や通信コストが特に重要とされる自動運転やクラウド連携システムへの応用が期待できます。
なお、本技術については論文「One-D-Piece: Image Tokenizer Meets Quality-Controllable Compression」で公開しており、当社のテックブログでも詳しく解説しています。モデルファイルおよびソースコードは商用利用可能です。(Apache License 2.0)
本技術の応用例
1. 自動運転
車載カメラからの映像を少ないトークンに圧縮することで、自動運転基盤モデルに視覚データを効率的に入力することが可能になります。大きなデータを入力した際の計算時間の増大を防ぐことで、大規模AIモデルがリアルタイムで高速に周囲の情報を認識・判断することが可能になります。
2. マルチモーダルモデル・世界モデル
本技術でトークン化した画像・映像については、言語トークンと同様にMLLMsや世界モデルにそのまま入出力できることが期待されます。文脈や情報量に応じてトークンサイズを調整することで、マルチモーダルモデル・世界モデルの学習・推論の負荷を軽減しながら、全体的な精度を維持することが可能です。
チューリング 会社概要
会社名:Turing株式会社
所在地:東京都品川区大崎1丁目11−2 ゲートシティ大崎 イーストタワー4階
代表者:代表取締役 山本一成
設立:2021年8月
事業内容:完全自動運転技術の開発
URL:https://tur.ing/
採⽤情報
チューリングは、日本発の完全自動運転実現により世界を変える仲間を積極的に募集しています。ぜひ採用ページをご覧ください。また、オープンオフィスやテックトーク等のイベントも定期的に開催しています。詳しくはConnpassページをご覧ください。