Ai quyết định những gì AI nói với bạn? Campbell Brown, cựu trưởng bộ phận tin tức của Meta, có những suy nghĩ riêng
Campbell Brown chứng kiến ChatGPT ra mắt từ bên trong trụ sở Meta và có một suy nghĩ rõ ràng duy nhất: "Con tôi sẽ thực sự ngu ngốc nếu chúng ta không tìm ra cách khắc phục điều này." Cựu nhà báo NBC chuyển thành trưởng bộ phận tin tức Facebook không phải là nói quá.
Ai quyết định những gì AI nói với bạn? Campbell Brown, cựu trưởng bộ phận tin tức của Meta, có những suy nghĩ riêng
Campbell Brown chứng kiến ChatGPT ra mắt từ bên trong trụ sở Meta và có một suy nghĩ rõ ràng duy nhất: "Con tôi sẽ thực sự ngu ngốc nếu chúng ta không tìm ra cách khắc phục điều này." Cựu nhà báo NBC chuyển thành trưởng bộ phận tin tức Facebook không phải là nói quá. Cô ấy đang chứng kiến rào cản thông tin tiếp theo hình thành trong thời gian thực — và dường như không ai xây dựng các công cụ phát triển AI mà các nhà phát triển châu Á dựa vào lại quan tâm đến độ chính xác. Các mô hình nền tảng xuất sắc trong các bài kiểm tra mã hóa trong khi tưởng tượng ra những sự kiện cơ bản về địa chính trị, sức khỏe tâm thần và tài chính. Mười bảy tháng sau, Brown ra mắt Forum AI để giải quyết vấn đề mà ngành công nghiệp đã bỏ qua: ai quyết định những gì AI nói với bạn khi câu trả lời không phải là nhị phân?
Công ty của cô ấy đánh giá các mô hình nền tảng trên "các chủ đề có mức độ rủi ro cao" — những chủ đề mà chuyên môn quan trọng và câu trả lời sai có hậu quả. Phương pháp luận rất đơn giản: tuyển dụng các chuyên gia lĩnh vực (Niall Ferguson, Tony Blinken, Kevin McCarthy cho địa chính trị; các bảng tương tự cho các lĩnh vực khác), yêu cầu họ thiết kế các bài kiểm tra đánh giá, sau đó huấn luyện các trọng tài AI để đạt được sự đồng thuận 90% với các chuyên gia con người. Kết quả ban đầu tiết lộ những sự thật khó chịu. Gemini kéo từ các trang web của Đảng Cộng sản Trung Quốc cho các câu chuyện không liên quan đến CCP. Các mô hình được tối ưu hóa cho mã hóa thất bại thảm hại ở sự tinh tế. Khoảng cách giữa những gì Silicon Valley đo lường (điểm MMLU, tỷ lệ vượt qua HumanEval) và những gì người dùng cần (độ chính xác theo ngữ cảnh về các chủ đề phức tạp) chưa bao giờ rộng hơn.
Công cụ phát triển AI là gì?
Công cụ phát triển AI là các nền tảng và khung công tác cho phép các nhà phát triển xây dựng, huấn luyện, triển khai và tích hợp các mô hình học máy vào các ứng dụng. Danh mục này bao gồm mọi thứ từ các thư viện tensor cấp thấp (PyTorch, TensorFlow) đến các trình bao bọc API cấp cao (SDK của OpenAI, Claude API của Anthropic) đến các nền tảng toàn ngăn xếp xử lý cơ sở hạ tầng, quản lý mô hình và đường ống triển khai. Sự phân biệt này quan trọng vì công cụ bạn chọn sẽ định hình những gì bạn có thể xây dựng và tốc độ bạn triển khai.
Đối với các nhà phát triển châu Á, bối cảnh chia thành ba tầng. Thứ nhất: các nền tảng gốc đám mây từ AWS (SageMaker), Google (Vertex AI) và Microsoft (Azure ML) — mạnh mẽ nhưng tốn kém, với các vấn đề về độ trễ khi người dùng của bạn ở Jakarta và tính toán của bạn ở Virginia. Thứ hai: các dịch vụ hướng API như OpenAI và Anthropic — nhanh để tích hợp nhưng không rõ ràng, với kiểm soát hạn chế đối với hành vi mô hình và giá cả tăng một cách không thể đoán trước. Thứ ba: các nền tảng khu vực được xây dựng cho thực tế cơ sở hạ tầng của châu Á — độ trễ thấp hơn, tuân thủ địa phương, giá cả theo tiền tệ khu vực.
Danh mục nền tảng phát triển gốc AI nổi lên để giải quyết một vấn đề cụ thể: khoảng cách giữa "Tôi có một ý tưởng" và "Tôi có một sản phẩm được triển khai" vẫn được đo lường trong những tháng, không phải những ngày. Các quy trình làm việc truyền thống yêu cầu các công cụ riêng biệt để tạo mẫu, huấn luyện, triển khai, giám sát và lặp lại. Mỗi bàn giao đều gây ra ma sát. Mỗi khóa nhà cung cấp làm giảm tính linh hoạt. Các nhà phát triển dành nhiều thời gian quản lý cơ sở hạ tầng hơn là xây dựng các tính năng.
Điều gì làm cho một công cụ "gốc AI" so với chỉ "hỗ trợ AI"? Cái trước coi AI là giao diện chính, không phải một add-on. Tạo mã không phải là một tính năng thanh bên — đó là quy trình làm việc mặc định. Lựa chọn mô hình xảy ra theo ngữ cảnh dựa trên những gì bạn đang xây dựng, không phải nhà cung cấp nào bạn ký hợp đồng. Đường ống triển khai hiểu rằng mô hình của bạn sẽ cần đào tạo lại, không chỉ triển khai lại. Nền tảng giả định bạn đang lặp lại nhanh, không phải vận chuyển một lần.
Công cụ hàng đầu cho các nhà phát triển châu Á
Phê bình của Campbell Brown về các mô hình nền tảng — rằng chúng tối ưu hóa cho các bài kiểm tra mã hóa trong khi thất bại ở suy luận tinh tế — áp dụng tương đương cho các công cụ phát triển. Một nền tảng xuất sắc trong việc tạo các thành phần React boilerplate nhưng không thể tích hợp với các cổng thanh toán khu vực (GrabPay, GCash, Alipay) không được xây dựng cho các thị trường châu Á. Các công cụ phát triển AI tốt nhất cho khu vực này chia sẻ ba đặc điểm: cơ sở hạ tầng địa phương, tích hợp API khu vực và giá cả không giả định các vòng tài trợ Silicon Valley.
GitHub Copilot thống trị nhận thức toàn cầu nhưng gặp khó khăn với ngữ cảnh bên ngoài dữ liệu huấn luyện của nó. Yêu cầu nó tạo các luồng xác thực cho LINE Login (phổ biến ở Thái Lan và Nhật Bản) và bạn sẽ nhận được mã OAuth2 chung chung bỏ lỡ các điểm lạ của nền tảng. Hạn chế tương tự xuất hiện trên tất cả các công cụ được xây dựng ở phương Tây: xuất sắc cho các ứng dụng CRUD tiêu chuẩn, yếu cho các chi tiết khu vực. Đây không phải là một vấn đề kỹ thuật — đó là một vấn đề dữ liệu. Các mô hình được huấn luyện chủ yếu trên các kho GitHub từ các nhà phát triển Mỹ và Châu Âu phản ánh những hệ sinh thái đó.
Các lựa chọn thay thế khu vực đã xuất hiện. ModelScope của Alibaba Cloud cung cấp các mô hình được đào tạo trước được tối ưu hóa cho các tác vụ ngôn ngữ Trung Quốc. HyperCLOVA của Naver nhắm mục tiêu các nhà phát triển Hàn Quốc. Các nền tảng này giải quyết bản địa hóa nhưng kế thừa cùng một sự phức tạp cơ sở hạ tầng Brown xác định tại Meta: nhiều nhà cung cấp, API không nhất quán, đường ống triển khai giả định bạn có một nhóm DevOps. Khoảng cách giữa "hoạt động trong bản demo" và "vận chuyển đến sản xuất" vẫn rộng.
MonstarX tiếp cận vấn đề khác nhau bằng cách coi tích hợp là một mối quan tâm hạng nhất. Thư viện trình kết nối của nền tảng bao gồm các bộ điều hợp được xây dựng sẵn cho các cổng thanh toán Đông Nam Á, nhà cung cấp xác thực và dịch vụ đám mây — lớp cơ sở hạ tầng mà các công cụ chung chung bỏ qua. Nơi Copilot tạo mã bạn sẽ cần gỡ lỗi, MonstarX tạo mã đã hiểu mục tiêu triển khai của bạn. Điều này quan trọng hơn điểm chuẩn khi bạn vận chuyển cho người dùng ở Manila, không phải Mountain View.
Cách chọn công cụ phù hợp
Phương pháp luận của Forum AI — tuyển dụng các chuyên gia, xác định các bài kiểm tra, đo lường sự đồng thuận — cung cấp một mẫu để đánh giá các công cụ phát triển. "Chủ đề có mức độ rủi ro cao" của bạn là gì? Đối với hầu hết các nhà phát triển châu Á, câu trả lời bao gồm: độ trễ (người dùng trên mạng 4G ở các thành phố cấp hai), tuân thủ (luật cư trú dữ liệu khác nhau theo quốc gia), chi phí (hóa đơn AWS tính bằng USD làm tổn thương khi doanh thu của bạn tính bằng rupiah) và tích hợp (kết nối với các dịch vụ người dùng của bạn thực sự sử dụng).
Bắt đầu với các yêu cầu cơ sở hạ tầng. Nếu người dùng của bạn ở Đông Nam Á, tính toán của bạn đang chạy ở đâu? Một nền tảng được lưu trữ độc quyền ở US-East-1 thêm độ trễ cơ sở 200-300ms trước khi mã của bạn thực thi. Sự chậm trễ đó tăng lên khi bạn gọi các API bên ngoài. Đối với các ứng dụng thời gian thực (trò chuyện, công cụ cộng tác, cập nhật trực tiếp), độ trễ không phải là yêu cầu tính năng — đó là một vấn đề gây tê liệt. Kiểm tra nơi nền tảng chạy các nút cạnh và liệu chúng có hỗ trợ triển khai ở Singapore, Tokyo hoặc Mumbai không.
Tiếp theo, kiểm tra các tích hợp bạn sẽ cần trong tháng đầu tiên. Xử lý thanh toán: nền tảng có hỗ trợ các cổng khu vực hay chỉ Stripe? Xác thực: bạn có thể tích hợp LINE, KakaoTalk, Zalo cùng với Google và GitHub không? Dịch vụ đám mây: nếu bạn sử dụng Alibaba Cloud hoặc Tencent Cloud vì lý do tuân thủ, công cụ có hỗ trợ các nhà cung cấp đó không? Các nền tảng chung chung giả định AWS/GCP/Azure. Các nền tảng khu vực biết tốt hơn.
Các mô hình giá cả tiết lộ ưu tiên. Giá dựa trên mức sử dụng nghe có vẻ công bằng cho đến khi bạn nhận ra nền tảng đo lường "cuộc gọi API" hoặc "phút tính toán" mà không phân biệt giữa một bản mẫu và lưu lượng sản xuất. Giá cố định nghe có vẻ có thể dự đoán được cho đến khi bạn chạm vào các giới hạn nhân tạo về kích thước nhóm hoặc tần suất triển khai. Các công cụ tốt nhất cho các nhà phát triển châu Á giá cả theo tiền tệ địa phương và cấu trúc các tầng xung quanh các mẫu sử dụng thực tế (số lượng dự án, không phải số lượng cuộc gọi API), vì chúng hiểu rằng một công ty khởi nghiệp ba người ở Bangalore có kinh tế học khác với một công ty Series B ở San Francisco.
Cuối cùng, đánh giá đường cong học tập một cách trung thực. Hiểu biết của Brown về khoảng cách giữa Silicon Valley