AI使った合成メディア、70社参入 仮想タレント自在
作成者:
ソース: https://www.nikkei.com/article/DGXZQOUC063BM0W1A900C2000000/
保存日: 2021/09/13 7:48

人工知能(AI)を使って生成・編集した画像や音声を使った「シンセティック(合成)メディア」の開発が相次でいる。新型コロナウイルスを背景にデジタル化が一気に進む中、タレントなど実際の人を使わず簡単に動画をつくりだせる。一方で新技術の活用には倫理的な問題もはらむ。スタートアップ70社の参入動向をまとめた。
ブランド会社や小売企業は認知度を高め、電子商取引(EC)の買い物客の購入率やロイヤルティー(愛着)を高めるために、ECの商品の画像やバーチャル試着、オンライン動画などのデジタルコンテンツをますます活用するようになっている。
日本経済新聞社は、スタートアップ企業やそれに投資するベンチャーキャピタルなどの動向を調査・分析する米CBインサイツ(ニューヨーク)と業務提携しています。同社の発行するスタートアップ企業やテクノロジーに関するリポートを日本語に翻訳し、日経電子版に週2回掲載しています。
特に勢いを増しつつあるのが動画コンテンツだ。2021年4~6月期に実施された決算会見で企業幹部がこの言葉に言及した回数は急増した。
もっとも、新型コロナウイルスの感染拡大を受けてデジタルコンテンツの需要が一段と高まっていることを考えると、ブランドや小売りがそうしたニーズに対応して魅力あるコンテンツを広く提供するには、従来の方法では追いつかない可能性がある。
そこで、各社はAIを使って生成・編集した画像や映像、音声などあらゆる形態のコンテンツ「合成メディア」を導入している。
この新しいテクノロジーを使えば、拡張性が高いデジタルコンテンツを低コストで素早く作成できる。合成メディアはデジタルコンテンツの作成や、ブランドや小売りによる消費者への関わり方に大きなインパクトを及ぼす可能性がある。
ブランドや小売りが消費者により魅力的なデジタル体験を提供できるよう、AIを活用して映像、音声、文章を自動で作成、修正する企業約70社をCBインサイツのデータから抜き出した。
この市場マップは20年1月以降に資金を調達した調達総額100万ドル以上の未上場の存続企業からなる。複数のカテゴリーを手掛ける企業もあるが、主な用途によって分類した。マップはこの分野を網羅するのが狙いではない。

カテゴリーの内訳

アバター(分身)、合成人間:人間そっくりまたはアニメ風のアバターや、オンラインで人間のように振る舞い、会話するAIバーチャル人間「合成人間」(バーチャルインフルエンサーなど)を手掛ける企業。
米ジーニーズ(Genies)はこのカテゴリーで最も調達額が多く、米ニュー・エンタープライズ・アソシエーツ(NEA)や米レアラー・ヒプー・ベンチャーズ(両社はCBインサイツが選んだ消費者分野の有力VC「消費者スマートマネーVC」に入っている)などから計1億1600万ドルを調達している。ユーザーはジーニーズのモバイルアプリやアバターのソフトウエア開発キット(SDK)、API(アプリケーション・プログラミング・インターフェース=システム同士が相互に連携するための技術仕様)を使い、カスタマイズしたアニメ風アバターを作成できる。同社は高級ブランドのグッチと提携し、アバターをさらにカスタマイズするバーチャルブランド品を販売したことで話題になった。
ニュージーランドのソウルマシーンズ(Soul Machines)や米AIファンデーション(AI Foundation)なども、ブランドや小売りがオンラインでさらに人間に近いやり取りができる合成人間を開発している。例えば、食品世界最大手ネスレ(スイス)のクッキーブランド「トールハウス」は最近、ソウルマシーンズと共同でバーチャル人間講師「ルース」を作成した。ルースは同社のクッキーや、消費者の好みに応じてカスタマイズしたクッキーのレシピを教えてくれる。
合成音声、会話:AIを使って人間のような声や会話を生成する企業。(アクセントや話す速さ、感情を重視した)より自然な会話ができる「人間味ある」音声ボットなどに使われる。米モデュレート(Modulate)やスペインのボイスモッド(Voicemod)が提供する「ボイススキン」を使えば、自分の声を瞬時に変換し、様々な声を模倣したり(ダース・ベイダーやドナルドダックとして話している様子を想像してほしい)、声のクローンをつくったりできる。
ボイスモッドは実際の声の「デジタルツイン」をつくり、その声の持ち主に人工的にしゃべらせることができる。例えば18年に死去した米国人シェフ、アンソニー・ボーディン氏を題材にした最近のドキュメンタリーでは、この技術を使ってまるでボーディン氏のような吹き替え音声を作成した。英アフロリズミック(Aflorithmic)は2月、文章を音声に変換する技術と音声クローン技術の開発をさらに進めて商用化するため、シードラウンドで130万ドルを調達した。
合成動画:動画コンテンツを自動で作成・変更する動画合成サービスを提供する企業。AIが生成するアニメや、実際の映像と区別できない超写実的な表現などが含まれる。
韓国のマネーブレイン(MoneyBrain、別名ディープブレイン)と英シンセシア(Synthesia)は動画コンテンツの作成に必要なコストと時間を減らせるサービスを提供している。例えば、シンセシアはカメラや俳優、マイクを使わずにテンプレートに基づいて動画を生成できるAIを搭載した動画生成プラットフォームを開発している。
ドイツのセグメンティブ(Segmentive)は映像の中の自分自身を自動で分離し、好きなシーンに挿入できる技術の開発に取り組んでいる。同社のサイトでは、公園でジャンプしている人物をクレーンから高層ビルの屋上に飛び移っているように修正した例を示している。
合成文章:米オープンAI(Open AI)の言語AI「GPT-3」など、自然言語生成(NLG)アルゴリズムを使ってデータセットなどから文章を生成する企業。
英アリア(Arria)の調達総額はこのカテゴリーで最も多く、5200万ドルに上る。同社はNLGを搭載したビジネスインテリジェンス(BI)サービスを使い、BIツールやエクセルシートなどの生データを分かりやすい洞察に変換する。
この技術は広告文の作成など広告分野や、ECの商品説明の下書き、報道記事の執筆支援などにも活用できる。例えば、シンガポールのペンシル(Pencil)はSNS(交流サイト)向け広告文を数分以内に自動生成し、 A/Bテスト(複数の案を同じ条件で実際に運用し、効果を測定すること)の迅速化や広告費のリターン向上を可能にしている。食品・日用品世界大手の英ユニリーバや化粧品チェーン「セフォラ」などが既に顧客に名を連ねている。
現時点では、こうしたサービスはどれも文章のつじつまが合っているかを確認するため、人間がある程度監督しなくてはならない。
合成画像:AIを使って写真や自撮り写真、商品画像など静止画像コンテンツを作成、編集する企業。顔の入れ替え、ポーズの反復、画像補正などが人気の使い方だ。
カナダのウォンボ(Wombo)はこのほど、シードラウンドで600万ドルを調達した。自撮り写真を歌詞に合わせて歌う動画に変換するAI搭載アプリの開発費に充てる。
インドのフリックスストック(Flixstock)はAIで生成した写真のようにリアルなモデルを使い、従来の撮影プロセスよりも迅速にブランドや小売り向けのECコンテンツを作成する。先に撮影した人間のモデルの服をAIモデルにバーチャルで着用させたり、写真を撮り直さなくても新たなポーズを自動で生成したりできる。
ホログラム、3次元(3D)コンテンツ:対応ソフトウエアやハードウエアを使ってホログラムや3Dのコンテンツを作成し、表示する企業。複合現実(MR)や仮想現実(VR)体験の作成を容易にする。
米ニューヨークに拠点を置くルッキング・グラス・ファクトリー(Looking Glass Factory)は、自社ディスプレーに対応した3Dコンテンツを作成するホログラフィックディスプレーや一連のソフトウエアを手掛ける。
イスラエルのテタビ(Tetavi)や英コンデンス・リアリティー(Condense Reality)は人物をすぐに3Dデータとして記録し、コンピューターで作成した映画のシーンやVRなどの3D環境に挿入する「ボリュメトリック映像」に力を入れている。
合成サウンド:AIで生成した音楽や曲、サウンドに力を入れている企業。AIが生成したサウンドは高度にカスタマイズしたデジタル体験を提供し、ユーザーの気分や好きなジャンル、閲覧している商品のタイプに基づいた新たな音の組み合わせ(ミックス)を作り出すことで、ECの購入率をさらに高める。
例えば、ドイツのエンデル(Endel)は20年9月、デバイス(端末)やセンサーから収集したユーザーの情報や、天気など関連情報に基づいてカスタマイズした環境音を生成し、集中やリラックス、睡眠を促すサービスを提供するため、シリーズAで500万ドルを調達した。これは既に全日本空輸(ANA)の機内娯楽サービスの一環として使われている。一方、ECのオーディオブランド戦略をリアルタイムでカスタマイズすることも可能だ。例えば、ECの買い物客が住む地域ではやっている曲のタイプに基づき、水着を閲覧しているその客に合わせた夏のムードの音楽を流すことができる。
バーチャル試着、3Dボディースキャン:映像解析技術(コンピュータービジョン)を使ってユーザーが身体を正確に計測したり、衣類やアクセサリー、メーキャップをバーチャルで試したりできるようにする企業。ブランドや小売りはこれを使うことでECの購入率を上げたり、返品を減らしたりできる。
台湾の玩美移動(Perfect Corp)は1月のシリーズCで5000万ドルを調達し、調達総額は7500万ドルになった。同社のバーチャル・メーキャップはネット通販や実店舗に加え、スナップチャットやフェイスブックなどのSNSでも使える。同社は仏ロレアルや米エスティ・ローダーなどの化粧品大手と提携しており、ユーザーは口紅やファンデーションの濃さなどを購入前にバーチャルで試せる。
米3Dルック(3DLOOK)はAIを使って人物の2Dの写真をカスタマイズされた3Dのアバターに変換する。これはバーチャル試着やサイズのおススメに使われる。
合成ゲームコンテンツ:AIを使って双方向型ゲームのコンテンツを自動で生成する企業。プレーヤーのゲーム内での行動に基づき、文章や音声などシナリオやキャラクターとのやり取りをリアルタイムで生成するのが主な用途だ。
例えば、中国のrctはゲーム開発者向けに、カスタマイズした双方向型コンテンツを作成できるクラウドサービス・AIプラットフォーム「Morpheus Cloud(モルフェウス・クラウド)」を提供している。これを使えばゲームコンテンツ(ゲーム内のキャラクターとのやり取りやモノ、環境)をリアルタイムで生成し、はるかに多くのシナリオを可能にし、双方向性を一段と高めることができる。
この技術は現実のような仮想空間や現実を超えた仮想世界「メタバース」を実現するカギになる。
合成メディアの検出、プライバシー保護:実際の映像を改変した「ディープフェイク」などAIが生成・編集したメディアを検出する企業。合成メディアの台頭に伴うリスクの削減を目指す。例えば広告に手を加えてブランドが無礼で攻撃的に思えるようにするなど、既存コンテンツを偽造するリスクが高まっている。
米プライマー(Primer)の調達総額はこのカテゴリーで最も多く、1億6400万ドルに上る。同社は文章を書いたのが人間か機械かを見分ける合成文書の検知を手掛ける。
一方、米トゥルーピック(Truepic)や米アテスティブ(Attestiv)はコンテンツが作成された瞬間にそのコンテンツのデジタルフィンガープリント(指紋)やメタデータ(データに関するデータ)を保存し、画像などのコンテンツの真正性を保証する。保証してもらうには、ユーザーは特別なアプリやAPIを使ってコンテンツを作成しなくてはならない。
消費者のプライバシー保護もこのカテゴリーに含まれる。例えば、イスラエルのディーアイディー(D-ID)は個人を識別できる情報を排除して規制を守るため、映像の人物の顔を自動でぼかす動画匿名化サービスを提供している。