Tin tốt cho Amazon: Snowflake ký hợp đồng 6 tỷ USD với AWS để phát triển chip CPU AI

Snowflake vừa cam kết 6 tỷ USD trong năm năm tới Amazon Web Services để phát triển chip CPU AI — một thỏa thuận gần bằng tất cả những gì công ty khổng lồ dữ liệu đám mây này đã chi cho AWS kể từ năm 2012. Thông báo này báo hiệu một sự thay đổi lớn trong cách các doanh nghiệp suy…

Share
Editorial illustration: A sleek server rack or data center corridor photographed head-on, with dramatic side lighting castin — MonstarX

Snowflake vừa cam kết 6 tỷ USD trong năm năm tới Amazon Web Services để phát triển chip CPU AI — một thỏa thuận gần bằng tất cả những gì công ty khổng lồ dữ liệu đám mây này đã chi cho AWS kể từ năm 2012. Thông báo này báo hiệu một sự thay đổi lớn trong cách các doanh nghiệp suy nghĩ về cơ sở hạ tầng AI, và đó là một sự thay đổi mà các nhà phát triển trên toàn châu Á nên hiểu rõ. Trong khi cuộc thảo luận về công cụ phát triển AI ở châu Á thường tập trung vào GPU và huấn luyện mô hình, thỏa thuận này nhấn mạnh điều gì xảy ra tiếp theo: công việc sử dụng CPU nhiều để chạy các agent AI và khối lượng công việc sản xuất quy mô lớn.

Đối với các nhà phát triển xây dựng trên nền tảng phát triển AI-native, quan hệ đối tác Snowflake-AWS tiết lộ hướng đi của ngành công nghiệp. Khi AI chuyển từ các notebook thử nghiệm sang các hệ thống sản xuất xử lý hàng triệu yêu cầu hàng ngày, yêu cầu cơ sở hạ tầng thay đổi đáng kể. Đây không chỉ là về huấn luyện các mô hình lớn hơn — đó là về chạy chúng một cách hiệu quả trong các ứng dụng thực tế.

Thỏa thuận Snowflake-AWS có ý nghĩa gì đối với cơ sở hạ tầng AI

Thỏa thuận 6 tỷ USD tập trung vào chip Graviton của Amazon — các CPU dựa trên ARM được thiết kế đặc biệt cho khối lượng công việc đám mây. Theo thông báo của các công ty, chi tiêu AWS của Snowflake tăng gấp đôi lên 2 tỷ USD chỉ trong năm 2025, được thúc đẩy gần như hoàn toàn bởi các khối lượng công việc AI thông qua nền tảng Cortex AI của nó.

Lý do kỹ thuật rất quan trọng: trong khi GPU xuất sắc ở xử lý song song để huấn luyện và suy luận mô hình, CPU xử lý lớp điều phối. Khi một agent AI truy vấn cơ sở dữ liệu, xử lý kết quả, đưa ra quyết định và kích hoạt quy trình làm việc, những hoạt động đó chạy trên CPU. Khi các doanh nghiệp triển khai nhiều agent AI hơn — các hệ thống hoạt động tự chủ thay vì chỉ phản hồi các lời nhắc — nhu cầu CPU tăng vọt.

CEO Amazon Andy Jassy tuyên bố tháng trước rằng chip tự phát triển của AWS cung cấp "hiệu suất giá tốt hơn" so với các sản phẩm của Nvidia. Dù đó là tiếp thị hay thực tế, thông điệp chiến lược rõ ràng: các nhà cung cấp đám mây đang đa dạng hóa để tránh phụ thuộc vào một chip duy nhất. Đối với các nhà phát triển ở Đông Nam Á, nơi chi phí đám mây có thể quyết định sự sống còn của kinh tế đơn vị của một startup, cuộc cạnh tranh này làm giảm giá cả và tăng lựa chọn.

Cược của Snowflake trên Graviton cũng xác nhận kiến trúc ARM cho các khối lượng công việc AI doanh nghiệp. Theo lịch sử, chip x86 từ Intel và AMD thống trị các trung tâm dữ liệu, nhưng hiệu quả năng lượng và lợi thế chi phí của ARM đang định hình lại cảnh quan đó. Các nhà phát triển xây dựng các ứng dụng AI nên xem xét khả năng tương thích ARM trong chuỗi công cụ của họ — các đặc tính hiệu suất khác nhau đủ để quan trọng ở quy mô lớn.

Các nhà phát triển châu Á nên suy nghĩ như thế nào về công cụ phát triển AI

Thỏa thuận Snowflake nhấn mạnh một sự thật rộng hơn: phát triển AI vào năm 2026 không phải là về việc chọn giữa các công cụ, mà là về việc chọn các chiến lược cơ sở hạ tầng. Các nhà phát triển châu Á phải đối mặt với những ràng buộc độc đáo — độ trễ đến các khu vực đám mây dựa trên Mỹ, yêu cầu chủ quyền dữ liệu ở các thị trường như Indonesia và Việt Nam, và hạn chế ngân sách khiến mỗi đô la tính toán đều quan trọng.

Các công cụ phát triển AI tốt nhất cho môi trường này có ba đặc điểm. Thứ nhất, chúng trừu tượng hóa độ phức tạp cơ sở hạ tầng mà không ẩn nó hoàn toàn. Bạn cần khả năng hiển thị những gì đang chạy ở đâu, đặc biệt khi gỡ lỗi các vấn đề sản xuất hoặc tối ưu hóa chi phí. Thứ hai, chúng hỗ trợ các mô hình triển khai đa đám mây. Khóa vào hệ sinh thái của một nhà cung cấp duy nhất có thể hoạt động cho một công ty khởi nghiệp Silicon Valley với vốn không giới hạn, nhưng các startup châu Á cần tính linh hoạt. Thứ ba, chúng ưu tiên tốc độ phát triển của nhà phát triển hơn các tùy chọn cấu hình — việc vận chuyển nhanh quan trọng hơn việc điều chỉnh từng tham số.

Đây là nơi các nền tảng được xây dựng cho phát triển AI-native khác biệt với các công cụ phát triển truyền thống. Một IDE thông thường với tính năng tự động hoàn thành AI được gắn thêm không giải quyết vấn đề điều phối. Bạn vẫn cần phải kết nối cơ sở dữ liệu, API, xác thực và đường ống triển khai theo cách thủ công. Các nền tảng được thiết kế từ đầu cho quy trình làm việc AI xử lý các tích hợp này một cách tự nhiên, cho phép các nhà phát triển tập trung vào logic kinh doanh thay vì mã keo cơ sở hạ tầng.

Sự gia tăng của cái mà một số người gọi là vibe coding — nơi các nhà phát triển mô tả những gì họ muốn bằng ngôn ngữ tự nhiên và nền tảng tạo ra mã hoạt động — đại diện cho sự thay đổi này. Đó không phải là về việc thay thế các nhà phát triển; đó là về loại bỏ 80% công việc tẻ nhạt mà mọi dự án yêu cầu trước khi bạn có thể xây dựng 20% thú vị.

CPU-First AI: Ý nghĩa của nó đối với các khối lượng công việc sản xuất

Nền tảng Cortex AI của Snowflake minh họa lý do tại sao dung lượng CPU quan trọng hơn hầu hết các nhà phát triển nhận ra. Khi một người dùng đặt câu hỏi bằng ngôn ngữ tự nhiên về dữ liệu của họ, hệ thống thực hiện nhiều hoạt động: phân tích truy vấn, dịch nó sang SQL, thực hiện lệnh gọi cơ sở dữ liệu, xử lý kết quả, tạo bản tóm tắt và định dạng phản hồi. Thông thường chỉ bước tạo bản tóm tắt chạy trên GPU — mọi thứ khác bị ràng buộc CPU.

Nhân với hàng nghìn người dùng đồng thời, bạn sẽ hiểu tại sao Snowflake cần 6 tỷ USD dung lượng CPU. Mô hình tương tự áp dụng cho bất kỳ hệ thống AI sản xuất nào: chatbot, công cụ đề xuất, đường ống xử lý tài liệu hoặc quy trình làm việc tự động. GPU xử lý phần "thông minh", nhưng CPU xử lý mọi thứ xung quanh nó.

Đối với các nhà phát triển xây dựng trên các nền tảng hiện đại, kiến trúc này phần lớn không nhìn thấy được. Nền tảng xử lý phân bổ tài nguyên, tự động mở rộng dung lượng CPU và GPU dựa trên các mô hình khối lượng công việc. Nhưng hiểu rõ kinh tế cơ bản giúp bạn đưa ra các quyết định thiết kế tốt hơn. Nếu ứng dụng của bạn thực hiện một lệnh gọi AI cho mỗi phiên người dùng, chi phí GPU chiếm ưu thế. Nếu nó thực hiện hàng chục lệnh gọi API, truy vấn cơ sở dữ liệu và chuyển đổi dữ liệu xung quanh một lệnh gọi AI duy nhất, chi phí CPU chiếm ưu thế.

Các nhà phát triển châu Á cũng nên xem xét tính sẵn có khu vực. Các instance AWS Graviton không có sẵn đồng đều trên tất cả các khu vực, và độ trễ đến cụm GPU gần nhất thay đổi đáng kể. Singapore cung cấp kết nối xuất sắc, nhưng các nhà phát triển ở Jakarta, Manila hoặc Bangkok có thể thấy độ trễ bổ sung 50-100ms. Đối với các ứng dụng tương tác, độ trễ đó tích lũy với mỗi chuyến đi khứ hồi.

Chọn công cụ phát triển AI cho các thị trường châu Á

Cảnh quan đám mây phân mảnh ở châu Á đòi hỏi các chiến lược công cụ khác nhau so với những gì các nhà phát triển ở Mỹ có thể sử dụng. Luật cư trú dữ liệu ở Indonesia yêu cầu dữ liệu nhất định phải ở trong nước. Môi trường quy định của Trung Quốc tạo ra những ràng buộc độc đáo. Độ nhạy cảm về giá của Ấn Độ có nghĩa là mỗi rupee chi phí tính toán đều quan trọng.

Bắt đầu bằng cách kiểm tra yêu cầu cơ sở hạ tầng của bạn. Bạn có cần truy cập GPU để huấn luyện hay chỉ để suy luận? Bạn có thể xếp các yêu cầu suy luận để phân bổ chi phí GPU trên nhiều người dùng không? Các mô hình được lượng tử hóa chạy trên CPU có đáp ứng yêu cầu hiệu suất của bạn với một phần nhỏ chi phí không? Những câu hỏi này xác định nhu cầu công cụ của bạn nhiều hơn danh sách tính năng.

Tiếp theo, đánh giá các mô hình tích hợp. Các nền tảng tốt nhất cung cấp các trình kết nối được xây dựng sẵn cho các dịch vụ phổ biến — cơ sở dữ liệu, nhà cung cấp xác thực, cổng thanh toán, hệ thống nhắn tin. Xây dựng các tích hợp này từ đầu tiêu tốn hàng tuần thời gian phát triển và giới thiệu gánh nặng bảo trì. Các nền tảng xử lý kết nối này một cách tự nhiên cho phép bạn vận chuyển nhanh hơn và lặp lại một cách tự tin hơn.

Cuối cùng, hãy xem xét mô hình triển khai. Một số công cụ yêu cầu bạn quản lý các cụm Kubernetes, sổ đăng ký container và đường ống CI/CD. Những công cụ khác trừu tượng hóa tất cả điều đó, cho phép bạn triển khai bằng một lệnh duy nhất. Không có cách tiếp cận nào phổ biến hơn — nó phụ thuộc vào chuyên môn của nhóm bạn và yêu cầu của ứng dụng bạn. Nhưng đối với các nhóm nhỏ xây dựng các ứng dụng AI, các nền tảng được quản lý thường cung cấp tốc độ tốt hơn so với các giải pháp tự lưu trữ.

Những hàm ý rộng hơn cho cuộc cạnh tranh đám mây

Thỏa thuận Snowflake-AWS