AI가 당신에게 말하는 것을 누가 결정하나? 메타 전 뉴스 담당자 캠벨 브라운의 생각

캠벨 브라운은 메타 본사 내부에서 ChatGPT 출시를 지켜보며 명확한 생각 하나를 했다: "우리가 이 문제를 해결하지 못하면 우리 아이들은 정말 멍청해질 거야." 기초 모델은 코딩 벤치마크에서는 뛰어났지만 지정학, 정신 건강, 금융에 관한 기본 사실을 환각했다.

Share
Editorial illustration: A control room dashboard with multiple illuminated screens and switches, viewed from above at a dram — MonstarX

AI가 당신에게 말하는 것을 누가 결정하나? 메타 전 뉴스 담당자 캠벨 브라운의 생각

캠벨 브라운은 메타 본사 내부에서 ChatGPT 출시를 지켜보며 명확한 생각 하나를 했다: "우리가 이 문제를 해결하지 못하면 우리 아이들은 정말 멍청해질 거야." NBC 앵커 출신으로 페이스북 뉴스 담당자가 된 그녀는 과장하고 있지 않았다. 그녀는 실시간으로 다음 정보 병목 현상이 형성되는 것을 지켜보고 있었고, 아시아 개발자들이 의존하는 AI 개발 도구를 구축하는 사람 중 누구도 정확성을 신경 쓰지 않는 것 같았다. 기초 모델은 코딩 벤치마크에서는 뛰어났지만 지정학, 정신 건강, 금융에 관한 기본 사실을 환각했다. 17개월 후, 브라운은 업계가 무시해온 문제를 해결하기 위해 Forum AI를 출범했다: 답이 이진법이 아닐 때 AI가 당신에게 말하는 것을 누가 결정하는가?

그녀의 회사는 기초 모델을 "고위험 주제"에 대해 평가한다. 즉, 전문성이 중요하고 잘못된 답변이 결과를 초래하는 주제들이다. 방법론은 간단하다: 도메인 전문가를 모집하고(지정학을 위해 Niall Ferguson, Tony Blinken, Kevin McCarthy; 다른 분야를 위한 유사한 패널), 평가 벤치마크를 설계하게 한 후, AI 판사를 훈련시켜 인간 전문가와 90% 합의에 도달하도록 한다. 초기 결과는 불편한 진실을 드러낸다. Gemini는 중국공산당과 무관한 이야기에 대해 중국공산당 웹사이트에서 정보를 가져온다. 코드에 최적화된 모델은 뉘앙스에서 극도로 실패한다. 실리콘밸리가 측정하는 것(MMLU 점수, HumanEval 통과율)과 사용자가 필요로 하는 것(복잡한 주제에 대한 맥락적 정확성) 사이의 격차는 그 어느 때보다 크다.

AI 개발 도구란 무엇인가?

AI 개발 도구는 개발자가 머신러닝 모델을 구축, 훈련, 배포하고 애플리케이션에 통합할 수 있게 해주는 플랫폼과 프레임워크다. 이 카테고리는 저수준 텐서 라이브러리(PyTorch, TensorFlow)부터 고수준 API 래퍼(OpenAI SDK, Anthropic Claude API)까지, 인프라, 모델 관리, 배포 파이프라인을 처리하는 풀스택 플랫폼까지 모든 것을 포함한다. 선택한 도구가 무엇을 구축할 수 있는지, 얼마나 빨리 출시할 수 있는지를 결정하기 때문에 이 구분은 중요하다.

아시아 개발자들에게 환경은 세 가지 계층으로 나뉜다. 첫째: AWS(SageMaker), Google(Vertex AI), Microsoft(Azure ML)의 클라우드 네이티브 플랫폼 — 강력하지만 비싸고, 사용자가 자카르타에 있고 컴퓨팅이 버지니아에 있을 때 지연 시간 문제가 있다. 둘째: OpenAI, Anthropic 같은 API 우선 서비스 — 빠르게 통합되지만 불투명하고, 모델 동작에 대한 제어가 제한적이며 가격이 예측 불가능하게 확장된다. 셋째: 아시아의 인프라 현실을 위해 구축된 지역 플랫폼 — 더 낮은 지연 시간, 지역 규정 준수, 지역 통화 가격 책정.

AI 네이티브 개발 플랫폼 카테고리는 특정 문제를 해결하기 위해 등장했다: "아이디어가 있다"에서 "배포된 제품이 있다"까지의 간격이 여전히 개월 단위로 측정되고 있다는 것이다. 기존 워크플로우는 프로토타이핑, 훈련, 배포, 모니터링, 반복을 위해 별도의 도구가 필요했다. 각 인수인계는 마찰을 도입했다. 각 벤더 종속성은 유연성을 감소시켰다. 개발자들은 기능 구축보다 인프라 관리에 더 많은 시간을 보냈다.

도구가 "AI 네이티브"인 것과 단순히 "AI 지원"인 것의 차이는 무엇인가? 전자는 AI를 주요 인터페이스로 취급하고, 부가 기능이 아니다. 코드 생성은 사이드바 기능이 아니라 기본 워크플로우다. 모델 선택은 어떤 벤더와 계약을 체결했는지가 아니라 무엇을 구축하고 있는지에 따라 상황에 맞게 이루어진다. 배포 파이프라인은 모델이 재배포가 아니라 재훈련이 필요하다는 것을 이해한다. 플랫폼은 한 번만 출시하는 것이 아니라 빠르게 반복하고 있다고 가정한다.

아시아 개발자를 위한 최고의 도구

캠벨 브라운의 기초 모델 비판 — 코딩 벤치마크에 최적화되면서 미묘한 추론에 실패한다는 — 개발 도구에도 동등하게 적용된다. 보일러플레이트 React 컴포넌트 생성에는 뛰어나지만 지역 결제 게이트웨이(GrabPay, GCash, Alipay)와 통합할 수 없는 플랫폼은 아시아 시장을 위해 구축되지 않았다. 이 지역을 위한 최고의 AI 개발 도구는 세 가지 특성을 공유한다: 지역 인프라, 지역 API 통합, 실리콘밸리 펀딩 라운드를 가정하지 않는 가격 책정.

GitHub Copilot은 전 세계적으로 인지도를 지배하지만 훈련 데이터 외부의 맥락에서 어려움을 겪는다. LINE Login(태국과 일본에서 널리 사용됨)에 대한 인증 흐름을 생성하도록 요청하면 플랫폼별 특이성을 놓친 일반적인 OAuth2 코드를 얻을 것이다. 같은 제한이 서방에서 구축한 모든 도구에 나타난다: 표준 CRUD 앱에는 탁월하지만 지역 특성에는 약하다. 이것은 기술 문제가 아니라 데이터 문제다. 주로 미국과 유럽 개발자의 GitHub 저장소에서 훈련된 모델은 그 생태계를 반영한다.

지역 대안이 등장했다. Alibaba Cloud의 ModelScope는 중국어 작업에 최적화된 사전 훈련된 모델을 제공한다. Naver의 HyperCLOVA는 한국 개발자를 대상으로 한다. 이 플랫폼은 지역화를 해결하지만 브라운이 메타에서 식별한 동일한 인프라 복잡성을 상속한다: 여러 벤더, 불일치하는 API, DevOps 팀이 있다고 가정하는 배포 파이프라인. "데모에서 작동"과 "프로덕션에 출시" 사이의 격차는 여전히 크다.

MonstarX는 통합을 일급 관심사로 취급함으로써 문제에 다르게 접근한다. 플랫폼의 커넥터 라이브러리는 동남아시아 결제 게이트웨이, 인증 제공자, 클라우드 서비스에 대한 사전 구축된 어댑터를 포함한다 — 일반 도구가 무시하는 인프라 계층이다. Copilot이 디버깅해야 할 코드를 생성하는 곳에서 MonstarX는 이미 배포 대상을 이해하는 코드를 생성한다. 이것은 마운틴뷰가 아닌 마닐라의 사용자에게 출시할 때 벤치마크 점수보다 더 중요하다.

올바른 도구를 선택하는 방법

Forum AI의 방법론 — 전문가 모집, 벤치마크 정의, 합의 측정 — 개발 도구 평가를 위한 템플릿을 제공한다. "고위험 주제"는 무엇인가? 대부분의 아시아 개발자에게 답변은 다음을 포함한다: 지연 시간(2차 도시의 4G 네트워크 사용자), 규정 준수(데이터 거주 법은 국가별로 다름), 비용(USD로 표시된 AWS 청구서는 수익이 루피아일 때 상처), 통합(사용자가 실제로 사용하는 서비스에 연결).

인프라 요구사항으로 시작하라. 사용자가 동남아시아에 있다면 컴퓨팅은 어디에서 실행되는가? US-East-1에만 호스팅된 플랫폼은 코드가 실행되기 전에 200-300ms 기본 지연 시간을 추가한다. 외부 API를 호출할 때 그 지연이 복합된다. 실시간 애플리케이션(채팅, 협업 도구, 라이브 업데이트)의 경우 지연 시간은 기능 요청이 아니라 거래 중단자다. 플랫폼이 에지 노드를 어디에서 실행하는지, 싱가포르, 도쿄 또는 뭄바이에서의 배포를 지원하는지 확인하라.

다음으로, 1개월차에 필요한 통합을 감사하라. 결제 처리: 플랫폼이 지역 게이트웨이를 지원하는가, 아니면 Stripe만 지원하는가? 인증: LINE, KakaoTalk, Zalo를 Google 및 GitHub와 함께 통합할 수 있는가? 클라우드 서비스: 규정 준수 이유로 Alibaba Cloud 또는 Tencent Cloud를 사용하고 있다면 도구가 이 제공자를 지원하는가? 일반 플랫폼은 AWS/GCP/Azure를 가정한다. 지역 플랫폼은 더 잘 안다.

가격 모델은 우선순위를 드러낸다. 사용량 기반 가격은 공정해 보이지만 플랫폼이 프로토타입과 프로덕션 트래픽을 구분하지 않고 "API 호출" 또는 "컴퓨팅 분"을 측정한다는 것을 깨달을 때까지다. 고정 계층 가격은 예측 가능해 보이지만 팀 규모 또는 배포 빈도에 대한 인위적 제한에 도달할 때까지다. 아시아 개발자를 위한 최고의 도구는 지역 통화로 가격을 책정하고 API 호출 수가 아닌 실제 사용 패턴(프로젝트 수)을 중심으로 계층을 구성한다. 왜냐하면 방갈로르의 3명 스타트업은 샌프란시스코의 Series B 회사와 다른 경제학을 가지고 있다는 것을 이해하기 때문이다.

마지막으로, 학습 곡선을 솔직하게 평가하라. 브라운의 실리콘밸리와의 격차에 대한 통찰은