低コスト、高速、文化対応——AvataarのビデオAIはインドのスケールに対応

5秒間の720p動画クリップを45秒で生成、1秒あたり$0.005。これはAvataar AIの新しいVaryaモデルの実績です。低コスト、高速、文化対応——AvataarのビデオAIはアジアが自らの市場に合わせたAIインフラを開発していることの証です。

Share
Editorial illustration: A film camera or video production rig positioned against a map or architectural blueprint of India,  — MonstarX

低コスト、高速、文化対応——AvataarのビデオAIはインドのスケールに対応

5秒間の720p動画クリップを45秒で生成、1秒あたり$0.005。これは丸め誤差ではなく、Avataar AIの新しいVaryaモデルの実績です。アジアで開発を行うすべての開発者とファウンダーにとって、この数字は立ち止まって再考する価値があります。低コスト、高速、文化対応——AvataarのビデオAIは単なるプロダクト発表以上の意味を持っています。アジアが自らの市場に合わせたAIインフラを、自らの条件で開発していることの証です。

何が起きたのか

Peak XVの支援を受けるAvataar AI——eコマース向けビデオツールに特化——がVarya 1.0をローンチしました。同社はこれをインド初の蒸留型ビデオモデルと呼んでいます。ゼロから構築したわけではなく、Alibabaの公開ビデオ生成モデルWan 2.2から始めて、モデル蒸留と呼ばれるテクニックを適用しました。これはモデルの学習能力をより軽量で高速なバージョンに圧縮し、Avataarの特定のユースケースに最適化するものです。

蒸留の結果は驚くべきものです。Wan 2.2がビデオ生成に50ステップの推論を必要とするのに対し、Varyaはわずか4ステップで実行されます。NVIDIA H200 GPUでは、5秒間の720p クリップを45秒で生成でき、ベースモデルの1,230秒と比較して——10倍の高速化を実現しています。TechCrunchの報道によると、Avataarはホストサービスで1秒あたり₹0.48(約$0.005)の料金を予定しています。Veo、Kling、Luma、Runwayなどのモデルは通常1秒あたり$0.10以上の料金を設定しており、Varyaは約20倍の価格優位性を持っています。

Avataarはインド政府が支援するIndia AI Missionに選定された12のスタートアップの1つです。この約12億ドルのイニシアティブは、適格なスタートアップに対して、モデルを公開することと引き換えに、補助されたGPUコンピュートへのアクセスを提供しています。この補助金は重要な要素です。計算コストが従来から野心の上限となっていた国で、ファンデーションレベルのAIを構築・リリースするための障壁を低くしています。

しかし、技術と価格の話は半分に過ぎません。Varyaはローカルコンテキストを理解するために明示的に訓練されています——インドの祭り、地域の衣装スタイル、地元の食べ物を認識します。これはマーケティングの注釈ではありません。生成ビデオモデルにおける文化的基盤は、インドのeコマースユースケースの出力品質を、一般的な西洋訓練モデルでは単に複製できない方法で変えます。

アジアにとって重要な理由

インドのAIモデル出力は米国、ヨーロッパ、中国に遅れをとっています。ほとんどの国産リリースは大規模言語モデルまたは音声モデルであり、ビデオ生成は西洋と中国のプレイヤーに支配されたままです。Varyaはこのバランスを変え、その影響はインドの国境をはるかに超えています。

アジアは単一の市場ではありません。それぞれが異なる視覚言語、祭り、ファッションシステム、消費者行動を持つ高文脈文化の集合体であり、価格に敏感でモバイルファーストの経済の上に層状に積み重ねられています。1秒あたり$0.10を請求するビデオAIモデルはサンフランシスコでは合理的なプロダクトです。ムンバイ、ジャカルタ、ホーチミンシティ、またはマニラでは、スケールでAI生成ビデオから実際に利益を得るであろう大多数のビジネスにとって、それは選択肢ではありません。

Varyaの1秒あたり$0.005の価格設定は、膨大なユースケースのユニット経済を変えます。D2Cブランドの製品デモビデオ、地域の祭りのためのローカライズされた広告クリエイティブ、ソーシャルコマースプラットフォーム向けのショートフォームコンテンツです。これらはニッチなアプリケーションではなく、アジアの数億人の消費者がオンラインで製品を発見し購入する方法の中核を表しています。

Avataarが使用した蒸留アプローチは、戦略的テンプレートとしても注目する価値があります。ゼロからファンデーションモデルを訓練するのに何年もの時間と数億ドルを費やす代わりに、Avataarは強力なオープンウェイトベース(AlibabaのWan 2.2)から始めて、ドメイン固有の蒸留を適用しました。これは再現可能なプレイブックです。東南アジア、南アジア、東アジア全域の開発者とスタートアップは同じアプローチを適用できます——有能なオープンウェイトモデルを取得し、特定の文化的または商業的コンテキストのために蒸留し、その使用ケースに対して一般的な代替案よりも優れたパフォーマンスを発揮するものをリリースする、すべてコストの一部で。

India AI Missionのモデル——公開モデルリリースと引き換えに補助されたコンピュート——も注視する価値のあるポリシー実験です。ローカルモデル開発のペースを加速させるなら、他のアジア政府も同様のプログラムに従うかもしれません。地域の開発者にとって、それは今後数年間でAIネイティブプロダクトを構築するためのより利用しやすいインフラを意味する可能性があります。

開発者にとって何を意味するか

ビデオを含むアジアでプロダクトを構築している場合、またはコストが合理的であれば動画を含む可能性がある場合、Varyaのアーキテクチャと価格モデルは真摯な検討に値します。実際にどう考えるかをここに示します。

蒸留プレイブックは今やアクセス可能です。 Avataarのアプローチ——Wan 2.2を取得し、蒸留を適用し、特定のドメインに最適化する——は専有の魔法ではありません。基礎となるテクニック(一貫性蒸留、ステップ削減)は研究文献で十分に文書化されています。Avataarが行ったことは、彼らの市場にとって重要な問題に対して、エンジニアリング規律とドメイン知識を適用することでした。医療画像、不動産ウォークスルー、ファッション試着、フードデリバリーなど、特定の業界で構築している場合、同じアプローチは、あらゆる汎用代替案よりも高速で、より安く、より正確なモデルを生み出すことができます。

文化的基盤はモアではなく、機能です。 Varyaがディワリの装飾、サリー、またはターリーを認識するという事実は、チェックボックスアイテムではありません。これは、生成された出力がインドの視聴者にとって文脈的に一貫性があることを意味し、それはコンバージョン、信頼、ブランド認識に重要です。東南アジアで構築している開発者にとって、これはギャップを指しています。インドネシアのイード祝いやタイのソンクランなど、東南アジアの視覚文化で訓練された同等のモデルは存在しません。そのギャップは機会です。

価格設定は構築できるものを変えます。 1秒あたり$0.005で、10秒の製品ビデオ100個を生成するのに$5かかります。1秒あたり$0.10では、同じバッチは$100かかります。これは単なるコスト差ではなく、スケールで経済的に実行可能な機能と、そうでない機能の違いです。プロダクトに統合するAI機能を評価する場合、このレベルの価格設定は、ブートストラップチームまたはアーリーステージスタートアップにとって以前は対象外だったユースケースを開きます。

MonstarXなどのプラットフォームで構築しているチーム——アジアのAIネイティブ開発プラットフォーム——にとって、Varyaのような地域最適化モデルの出現は、まさに新しいプロダクトカテゴリを可能にするインフラシフトを表しています。ビデオ生成のコストが20倍低下し、文化的精度が同時に向上すると、質問は「これを実行する余裕があるか?」から「最初に何を構築すべきか?」に変わります。

APIを監視してください。 Avataarのホストサービス価格設定は、APIファーストの配布モデルを示唆しています。VaryaがAPIを通じて利用可能になると、それはビルディングブロック——プロダクトパイプライン、コンテンツ生成システム、またはeコマースバックエンドから呼び出せるもの——になります。開発者にとって実際の統合質問は簡単です。スタック内のどこでビデオ生成が現在ボトルネックまたはコスト上限を作成しており、Varyaのレイテンシプロファイル(5秒のビデオに対して45秒)はユースケースに適合していますか?