Thinking Machines가 말하면서 실제로 듣는 AI를 만들고 싶어한다
Mira Murati의 새로운 스타트업이 개발자와 AI 모델의 상호작용 방식을 재정의할 수 있는 연구 프리뷰를 공개했습니다. Thinking Machines Lab은 입력을 처리하면서 동시에 응답을 생성하는 AI를 발표했습니다.
Thinking Machines가 말하면서 실제로 듣는 AI를 만들고 싶어한다
Thinking Machines가 말하면서 실제로 듣는 AI를 만들고 싶어한다
Mira Murati의 새로운 스타트업이 개발자와 AI 모델의 상호작용 방식을 재정의할 수 있는 연구 프리뷰를 공개했습니다. Thinking Machines Lab은 상호작용 모델을 발표했습니다. 이는 입력을 처리하면서 동시에 응답을 생성하는 AI로, 지금까지 사용해온 모든 AI 개발 도구에서 정의되는 어색한 턴 테이킹을 제거합니다. 실시간 애플리케이션을 구축하는 아시아 개발자들에게 순차 처리에서 동시 처리로의 전환은 단순한 기술 업그레이드 이상의 의미가 있습니다. 이는 AI 네이티브 개발 플랫폼이 어떻게 작동해야 하는지에 대한 근본적인 재고입니다.
AI 개발 도구란 무엇인가?
AI 개발 도구는 개발자가 모델을 처음부터 구축하지 않고도 애플리케이션에 머신러닝 기능을 통합할 수 있게 해주는 플랫폼, 프레임워크, API입니다. GitHub Copilot 같은 코드 완성 어시스턴트부터 데이터 전처리에서 배포까지 모든 것을 처리하는 풀스택 플랫폼까지 다양합니다. 아시아 시장은 이 카테고리에서 폭발적인 성장을 보였으며, 낮은 지연시간과 지역별 인프라가 필요한 개발자들을 위해 로컬 플랫폼들이 등장하고 있습니다.
전통적인 AI 개발 도구는 요청-응답 사이클로 작동합니다. 프롬프트를 보내면 모델이 완전히 처리한 후 응답을 스트리밍으로 반환합니다. 이 아키텍처는 많은 사용 사례에서 작동하지만, 진정한 상호작용이 필요할 때는 실패합니다. 예를 들어 중단을 처리할 수 없는 음성 어시스턴트나 전체 응답이 끝날 때까지 기다려야 하는 챗봇을 생각해보세요. 기술적 제한은 처리 속도가 아니라 대화를 일련의 개별 거래가 아닌 연속적인 교환으로 취급하는 근본적인 설계입니다.
Thinking Machines Lab의 접근 방식은 이 패러다임에 도전합니다. 그들의 TML-Interaction-Small 모델은 입력과 출력을 동시에 처리함으로써 0.40초의 응답 시간을 달성합니다. 엔지니어들이 "풀 듀플렉스" 통신이라고 부르는 것입니다. TechCrunch의 발표에 따르면, 이는 자연스러운 인간 대화 속도와 일치하며 OpenAI와 Google의 비교 가능한 모델을 능가합니다. 그 의미는 음성 인터페이스를 넘어 확장됩니다. 실시간 AI 피드백이 필요한 모든 애플리케이션(협업 코딩 환경, 실시간 번역 서비스, 대화형 디버깅 도구)이 이 아키텍처 전환의 이점을 누릴 수 있습니다.
모바일 우선 애플리케이션이 지배적이고 네트워크 상태가 다양한 아시아의 개발자들에게 응답 지연시간은 사용자 경험에 직접적인 영향을 미칩니다. 말을 마치기 전에 응답을 시작할 수 있는 모델은 인지된 지연을 줄여서 AI 상호작용이 서버 응답을 기다리는 것이 아니라 동료와 대화하는 것처럼 느껴지게 합니다. 문제는 이 연구 프리뷰가 아직 공개적으로 이용 가능하지 않다는 것입니다. Thinking Machines Lab은 앞으로 몇 개월 내에 제한된 연구 프리뷰를 약속하고 있으며, 올해 말에 더 넓은 출시를 예정하고 있습니다. 그때까지 개발자들은 지금 작동하는 도구가 필요합니다.
2026년 아시아 개발자를 위한 최고의 AI 개발 도구
아시아 개발자 생태계는 글로벌 플랫폼이 항상 해결하지 못하는 고유한 요구사항을 가지고 있습니다. 싱가포르와 인도네시아 같은 국가의 데이터 거주지 규정은 로컬 호스팅을 요구합니다. 언어 지원은 영어를 넘어 중국어, 일본어, 한국어, 인도네시아어, 그리고 수십 개의 지역 언어까지 확장됩니다. 결제 인프라는 신용카드부터 GrabPay, Alipay까지 모든 것을 처리해야 합니다. 지금 아시아에서 개발하는 개발자들을 위해 실제로 작동하는 것들입니다.
OpenAI API는 일반적인 AI 기능의 황금 표준으로 남아 있지만, 미국 기반 서버의 지연시간은 동남아 개발자들의 경우 200-300ms에 도달할 수 있습니다. 가격 모델(GPT-4o mini의 경우 1K 토큰당 $0.002)은 서방 시장에는 합리적이지만, 목표 사용자가 월 $500-1000을 버는 경우 다르게 작용합니다. 그럼에도 불구하고 모델 품질과 광범위한 문서는 프로토타이핑을 위한 기본 선택지입니다.
Anthropic Claude는 복잡한 추론 작업에서 우수한 성능과 더 긴 컨텍스트 윈도우(200K 토큰)를 제공하므로 전체 코드베이스나 긴 문서를 처리해야 하는 애플리케이션에 이상적입니다. 아시아 태평양 출시는 OpenAI보다 느렸지만 가용성이 개선되고 있습니다. 싱가포르와 도쿄의 개발자들은 수용 가능한 지연시간을 보고하는 반면, 자카르타나 마닐라의 개발자들은 여전히 가끔 타임아웃을 경험합니다.
Alibaba Cloud Tongyi Qianwen은 중국에서 지배적이며 싱가포르, 말레이시아, 인도네시아의 로컬 데이터 센터를 통해 동남아 전역으로 확장하고 있습니다. 중국어 성능은 서방 모델을 크게 능가합니다. 가격은 비교 가능한 작업에서 OpenAI보다 약 30% 낮습니다. 트레이드오프는 주로 중국어 문서와 미국 플랫폼에 비해 덜 성숙한 개발자 도구입니다.
Google Gemini는 멀티모달 기능과 Google Cloud 인프라와의 긴밀한 통합을 제공합니다. 무료 티어는 관대합니다(Gemini 1.5 Flash의 경우 일일 1500개 요청). 아시아 개발자들은 Google의 지역 데이터 센터에서 OpenAI보다 나은 지연시간을 보고하지만, 코드 생성 작업에서 모델 성능은 GPT-4보다 약간 뒤떨어집니다.
이 환경에서 빠진 것은 아시아 개발자들이 실제로 어떻게 작동하는지를 위해 특별히 구축된 플랫폼입니다. 대부분의 팀은 벤치마크 점수를 기반으로 OpenAI와 Anthropic 중에서 선택하지 않습니다. 그들은 묻습니다: 자카르타에 배포할 수 있나요? 기존 Node.js 스택에서 작동할까요? 10,000명의 사용자에 도달하면 감당할 수 있을까요? 이러한 실질적인 질문들은 이론적 모델 기능보다 더 중요합니다.
스택에 맞는 올바른 AI 개발 도구를 선택하는 방법
AI 개발 도구를 선택하는 것은 최신 모델 출시를 쫓기보다는 실제 요구사항을 이해하는 것으로 시작합니다. 지연시간 제약으로 시작하세요. 실시간 음성 애플리케이션을 구축하는 경우 500ms 이하의 엔드-투-엔드 응답 시간이 필요합니다. 이는 지역 인프라를 가진 제공자로 옵션을 즉시 좁힙니다. 서버가 실제로 어디서 실행되는지 확인하세요. "아시아 태평양"은 시드니(호주에는 좋지만 베트남에는 끔찍함) 또는 싱가포르(동남아 대부분에는 괜찮음)를 의미할 수 있습니다.
비용 모델링이 다음입니다. 대부분의 플랫폼은 토큰당 요금을 청구하지만 토큰 계산은 제공자마다 다릅니다. 1000단어 기사는 GPT-4에서 750개 토큰이고 Claude에서 850개 토큰일 수 있습니다. 예상 월간 요청량에 토큰당 가격을 곱한 후 오버헤드와 예상치 못한 사용량 급증을 위해 30%를 추가하세요. 그 숫자가 인프라 예산을 초과하면 다른 접근 방식이 필요합니다. 간단한 쿼리에는 더 작은 모델을 사용하고 복잡한 추론 작업을 위해 비싼 모델을 예약하는 하이브리드 아키텍처를 고려하세요.
언어 지원은 대부분의 개발자가 생각하는 것보다 더 중요합니다. 영어 중심 모델은 태국어 코드 주석, 인도네시아어 오류 메시지, 또는 싱글리시와 기술 용어를 섞은 사용자 쿼리에 어려움을 겪습니다. 커밋하기 전에 대상 언어의 실제 사용자 입력으로 선택한 플랫폼을 테스트하세요. "중국어 지원"과 "중국어 기술 문서에서 잘 수행"의 차이는 상당합니다.
통합 복잡성은 얼마나 빠르게