AIが何を伝えるかを決めるのは誰か?Meta元ニュース責任者キャンベル・ブラウンの見解

キャンベル・ブラウンはMeta本社の内部からChatGPTの立ち上げを目撃し、ひとつの明確な考えを持ちました。「これをどう修正するかを理解しなければ、私の子どもたちは本当に馬鹿になってしまう」。彼女はリアルタイムで次の情報ボトルネックが形成されるのを目撃していました。そしてアジアの開発者が依存するAI開発ツールを構築している誰もが、精度について気にかけていないように見えました。

Share
Editorial illustration: A control room dashboard with multiple illuminated screens and switches, viewed from above at a dram — MonstarX

AIが何を伝えるかを決めるのは誰か?Meta元ニュース責任者キャンベル・ブラウンの見解

キャンベル・ブラウンはMeta本社の内部からChatGPTの立ち上げを目撃し、ひとつの明確な考えを持ちました。「これをどう修正するかを理解しなければ、私の子どもたちは本当に馬鹿になってしまう」。元NBCアンカーでFacebook元ニュース責任者だった彼女は大げさなことを言っていたわけではありません。彼女はリアルタイムで次の情報ボトルネックが形成されるのを目撃していました。そしてアジアの開発者が依存するAI開発ツールを構築している誰もが、精度について気にかけていないように見えました。基盤モデルはコーディングベンチマークで優れた成果を上げていた一方で、地政学、メンタルヘルス、金融に関する基本的な事実を幻覚していました。17ヶ月後、ブラウンはForum AIを立ち上げ、業界が無視していた問題を解決しました。答えが二者択一ではない場合、AIが何を伝えるかを決めるのは誰か?

彼女の企業は「高リスク分野」の基盤モデルを評価しています。専門知識が重要であり、誤った回答が結果をもたらす分野です。方法論はシンプルです。ドメイン専門家を募集し(地政学ではニアル・ファーガソン、トニー・ブリンケン、ケビン・マッカーシーなど。他の分野でも同様のパネル)、評価ベンチマークを設計させ、その後AIジャッジを訓練して人間の専門家との90%のコンセンサスに到達させます。初期結果は不快な真実を露呈しています。Geminiは中国共産党のウェブサイトから、中共との関連性がないストーリーを引き出しています。コード最適化されたモデルはニュアンスで壊滅的に失敗します。シリコンバレーが測定するもの(MMULスコア、HumanEvalパス率)とユーザーが必要とするもの(複雑なトピックに関する文脈的精度)のギャップはかつてないほど広がっています。

AI開発ツールとは何か?

AI開発ツールは、開発者が機械学習モデルを構築、訓練、デプロイし、アプリケーションに統合できるプラットフォームとフレームワークです。このカテゴリは、低レベルのテンソルライブラリ(PyTorch、TensorFlow)から高レベルのAPIラッパー(OpenAIのSDK、AnthropicのClaude API)、インフラストラクチャ、モデル管理、デプロイメントパイプラインを処理するフルスタックプラットフォームまで、すべてを網羅しています。選択するツールが何を構築できるか、そしてどのくらい速くリリースできるかを形作るため、この区別は重要です。

アジアの開発者にとって、ランドスケープは3つのティアに分かれています。第1に、AWS(SageMaker)、Google(Vertex AI)、Microsoft(Azure ML)からのクラウドネイティブプラットフォーム。強力ですが高価で、ユーザーがジャカルタにいてコンピュートがバージニアにある場合、レイテンシの問題があります。第2に、OpenAIやAnthropicのようなAPI優先サービス。統合は高速ですが不透明で、モデルの動作に対する制御が限定的で、価格設定が予測不可能にスケーリングします。第3に、アジアのインフラストラクチャの現実のために構築された地域プラットフォーム。レイテンシが低く、ローカルコンプライアンスがあり、地域通貨での価格設定があります。

AI-native開発プラットフォームカテゴリは特定の問題を解決するために出現しました。「アイデアがある」から「デプロイされた製品がある」までのギャップは、日ではなく月で測定されたままでした。従来のワークフローでは、プロトタイピング、訓練、デプロイメント、監視、反復に別々のツールが必要でした。各ハンドオフは摩擦を導入しました。各ベンダーロックインは柔軟性を低下させました。開発者は機能を構築するよりもインフラストラクチャを管理するのに多くの時間を費やしました。

ツールが「AI-native」対単なる「AI-enabled」とは何が異なるのか?前者はAIを主要なインターフェースとして扱い、アドオンではありません。コード生成はサイドバー機能ではなく、デフォルトのワークフローです。モデル選択は、契約を結んだベンダーではなく、構築しているものに基づいて文脈的に発生します。デプロイメントパイプラインは、モデルが再デプロイだけでなく再訓練が必要になることを理解しています。プラットフォームは一度だけでなく、高速で反復していることを想定しています。

アジア開発者向けの最高のツール

キャンベル・ブラウンの基盤モデルに対する批評(コーディングベンチマークに最適化しながらニュアンスのある推論に失敗する)は、開発ツールにも等しく適用されます。ボイラープレートReactコンポーネントの生成に優れているが、地域の支払いゲートウェイ(GrabPay、GCash、Alipay)と統合できないプラットフォームは、アジア市場向けに構築されていません。このリージョンの最高のAI開発ツールは3つの特性を共有しています。ローカルインフラストラクチャ、地域APIの統合、シリコンバレーの資金調達ラウンドを想定していない価格設定です。

GitHub Copilotはグローバルに優位性を持っていますが、訓練データの外側のコンテキストで苦労しています。LINE Loginの認証フロー(タイと日本で遍在)を生成するよう求めると、プラットフォーム固有の癖を見落とすジェネリックOAuth2コードが得られます。同じ制限は西洋で構築されたツール全体に現れます。標準的なCRUDアプリに優れていますが、地域固有に弱いです。これは技術的な問題ではなく、データの問題です。主にアメリカとヨーロッパの開発者からのGitHubリポジトリで訓練されたモデルは、これらのエコシステムを反映しています。

地域の代替案が出現しました。Alibaba CloudのModelScopeは、中国語タスクに最適化された事前訓練されたモデルを提供します。NaverのHyperCLOVAは韓国の開発者をターゲットにしています。これらのプラットフォームはローカライゼーションを解決しますが、ブラウンがMetaで特定した同じインフラストラクチャの複雑さを継承しています。複数のベンダー、一貫性のないAPI、DevOpsチームを持つことを想定するデプロイメントパイプライン。「デモで機能する」から「本番環境にリリースする」までのギャップは依然として広いです。

MonstarXは統合を第一級の関心事として扱うことで、問題に異なる方法でアプローチしています。プラットフォームのコネクタライブラリには、東南アジアの支払いゲートウェイ、認証プロバイダー、クラウドサービス用の事前構築されたアダプタが含まれています。ジェネリックツールが無視するインフラストラクチャレイヤーです。Copilotがデバッグが必要なコードを生成する場合、MonstarXはデプロイメントターゲットを既に理解しているコードを生成します。これはマウンテンビューではなくマニラのユーザーにリリースしている場合、ベンチマークスコアよりも重要です。

適切なツールを選択する方法

Forum AIの方法論(専門家を募集し、ベンチマークを定義し、コンセンサスを測定する)は、開発ツールを評価するためのテンプレートを提供します。あなたの「高リスク分野」は何ですか?ほとんどのアジア開発者にとって、答えには以下が含まれます。レイテンシ(第2層都市の4Gネットワーク上のユーザー)、コンプライアンス(データレジデンシー法は国によって異なります)、コスト(USDで計算されたAWSの請求書は、収益がルピアの場合に痛いです)、統合(ユーザーが実際に使用するサービスへの接続)。

インフラストラクチャ要件から始めます。ユーザーが東南アジアにいる場合、コンピュートはどこで実行されていますか?US-East-1でのみホストされているプラットフォームは、コードが実行される前に200~300msのベースラインレイテンシを追加します。その遅延は外部APIを呼び出すときに複合します。リアルタイムアプリケーション(チャット、コラボレーションツール、ライブアップデート)の場合、レイテンシは機能リクエストではなく、ディールブレーカーです。プラットフォームがエッジノードをどこで実行し、シンガポール、東京、またはムンバイでのデプロイメントをサポートしているかを確認してください。

次に、1ヶ月目に必要な統合を監査します。支払い処理。プラットフォームは地域ゲートウェイをサポートしていますか、それともStripeのみですか?認証。LINE、KakaoTalk、ZaloをGoogleおよびGitHubと一緒に統合できますか?クラウドサービス。コンプライアンスの理由でAlibaba CloudまたはTencent Cloudを使用している場合、ツールはこれらのプロバイダーをサポートしていますか?ジェネリックプラットフォームはAWS/GCP/Azureを想定しています。地域プラットフォームはより良く知っています。

価格設定モデルは優先事項を明らかにします。使用量ベースの価格設定は公平に聞こえますが、プラットフォームが「APIコール」または「コンピュート分」を測定し、プロトタイプと本番トラフィックを区別しないことに気付くまでです。固定層の価格設定は予測可能に聞こえますが、チームサイズまたはデプロイメント頻度に対する人工的な制限に達するまでです。アジア開発者向けの最高のツールは地域通貨で価格設定し、APIコール数ではなく実際の使用パターン(プロジェクト数)の周りにティアを構成しています。バンガロールの3人のスタートアップはサンフランシスコのシリーズB企業とは異なる経済学を持っていることを理解しているからです。

最後に、学習曲線を正直に評価します。ブラウンのシリコンバレーと現実のニーズの間のギャップについての洞察は、ツール選択にも適用されます。