Rẻ hơn, nhanh hơn, và hiểu biết văn hóa, video AI của Avataar được xây dựng cho quy mô của Ấn Độ
Một clip video 720p 5 giây trong 45 giây, với giá $0.005 mỗi giây. Đó không phải là sai số làm tròn — đó là mô hình Varya mới của Avataar AI, và đó là loại con số khiến mọi nhà phát triển và nhà sáng lập xây dựng ở châu Á phải dừng lại và tính toán lại.
Rẻ hơn, nhanh hơn, và hiểu biết văn hóa, video AI của Avataar được xây dựng cho quy mô của Ấn Độ
Một clip video 720p 5 giây trong 45 giây, với giá $0.005 mỗi giây. Đó không phải là sai số làm tròn — đó là mô hình Varya mới của Avataar AI, và đó là loại con số khiến mọi nhà phát triển và nhà sáng lập xây dựng ở châu Á phải dừng lại và tính toán lại. Rẻ hơn, nhanh hơn, và hiểu biết văn hóa, video AI của Avataar đại diện cho điều gì đó quan trọng hơn một lần ra mắt sản phẩm: đó là bằng chứng rằng châu Á đang phát triển cơ sở hạ tầng AI được điều chỉnh cho các thị trường của riêng mình, theo các điều khoản của riêng mình.
Điều gì đã xảy ra
Avataar AI — được hỗ trợ bởi Peak XV và tập trung vào các công cụ video cho thương mại điện tử — đã ra mắt Varya 1.0, mà công ty gọi là mô hình video được chưng cất đầu tiên của Ấn Độ. Công ty không xây dựng nó từ đầu. Nó bắt đầu với Wan 2.2, mô hình tạo video công khai của Alibaba, và áp dụng một kỹ thuật gọi là chưng cất mô hình — nén các khả năng đã học của mô hình thành một phiên bản gọn gàng hơn, nhanh hơn được tối ưu hóa cho các trường hợp sử dụng cụ thể của Avataar.
Kết quả chưng cất rất ấn tượng. Trong khi Wan 2.2 yêu cầu 50 bước suy luận để tạo video, Varya chỉ chạy trong bốn bước. Trên GPU NVIDIA H200, điều đó có nghĩa là tạo một clip 720p 5 giây trong 45 giây, so với 1.230 giây cho mô hình cơ sở — một cải tiến tốc độ 10 lần. Theo báo cáo của TechCrunch, Avataar dự định tính phí ₹0.48 (khoảng $0.005) mỗi giây video trên dịch vụ được lưu trữ của mình. Các mô hình như Veo, Kling, Luma và Runway thường tính phí $0.10 hoặc cao hơn mỗi giây — đặt Varya ở mức lợi thế giá 20 lần.
Avataar là một trong 12 công ty khởi nghiệp được chọn cho India AI Mission được hỗ trợ bởi chính phủ Ấn Độ, một sáng kiến khoảng $1.2 tỷ đô la cấp cho các công ty khởi nghiệp đủ điều kiện quyền truy cập vào tính toán GPU được trợ cấp để đổi lấy việc phát hành các mô hình của họ công khai. Khoản trợ cấp đó là một phần có ý nghĩa của câu chuyện: nó giảm bớt rào cản để xây dựng và phát hành AI cấp độ nền tảng ở một quốc gia nơi chi phí tính toán từ lâu đã là trần của tham vọng.
Nhưng câu chuyện kỹ thuật và định giá chỉ là nửa của nó. Varya được đào tạo rõ ràng để hiểu bối cảnh địa phương — nhận ra các lễ hội Ấn Độ, kiểu quần áo khu vực và thực phẩm địa phương. Đó không phải là một chú thích tiếp thị. Sự hiểu biết văn hóa trong một mô hình video tạo sinh thay đổi chất lượng đầu ra cho các trường hợp sử dụng thương mại điện tử Ấn Độ theo những cách mà một mô hình được đào tạo chung chung phương Tây đơn giản không thể sao chép.
Tại sao điều này quan trọng đối với châu Á
Đầu ra mô hình AI của Ấn Độ đã tụt lại phía sau Mỹ, Châu Âu và Trung Quốc. Hầu hết các bản phát hành tự chủ đã là các mô hình ngôn ngữ lớn hoặc mô hình giọng nói — tạo video đã vẫn được thống trị bởi các cầu thủ phương Tây và Trung Quốc. Varya thay đổi sự cân bằng đó, và những hàm ý mở rộng xa hơn biên giới của Ấn Độ.
Châu Á không phải là một thị trường đơn nhất. Đó là một tập hợp các nền văn hóa bối cảnh cao — mỗi nền có ngôn ngữ hình ảnh riêng biệt, lễ hội, hệ thống thời trang và hành vi tiêu dùng — được xếp chồng lên các nền kinh tế nhạy cảm về giá, di động trước tiên. Một mô hình video AI tính phí $0.10 mỗi giây là một sản phẩm hợp lý ở San Francisco. Ở Mumbai, Jakarta, Thành phố Hồ Chí Minh hoặc Manila, đó là một bước đi không khả thi cho phần lớn các doanh nghiệp sẽ thực sự hưởng lợi từ video được tạo bởi AI quy mô lớn.
Định giá $0.005 mỗi giây của Varya thay đổi kinh tế đơn vị cho một lớp lớn các trường hợp sử dụng: video demo sản phẩm cho các thương hiệu D2C, sáng tạo quảng cáo địa phương cho các lễ hội khu vực, nội dung dạng ngắn cho các nền tảng thương mại xã hội. Đây không phải là các ứng dụng thích hợp — chúng đại diện cho cốt lõi của cách hàng trăm triệu người tiêu dùng ở châu Á khám phá và mua sản phẩm trực tuyến.
Cách tiếp cận chưng cất mà Avataar sử dụng cũng đáng lưu ý như một mẫu chiến lược. Thay vì dành nhiều năm và hàng trăm triệu đô la để đào tạo một mô hình nền tảng từ đầu, Avataar bắt đầu với một cơ sở trọng lượng mở mạnh (Wan 2.2 từ Alibaba) và áp dụng chưng cất dành riêng cho miền. Đây là một sách chơi có thể lặp lại. Các nhà phát triển và công ty khởi nghiệp trên khắp Đông Nam Á, Nam Á và Đông Á có thể áp dụng cách tiếp cận tương tự — lấy một mô hình trọng lượng mở có khả năng, chưng cất nó cho một bối cảnh văn hóa hoặc thương mại cụ thể, và phát hành thứ gì đó vượt trội hơn các lựa chọn chung chung cho trường hợp sử dụng đó với một phần nhỏ chi phí.
Mô hình của India AI Mission — tính toán được trợ cấp để đổi lấy việc phát hành mô hình công khai — cũng là một thử nghiệm chính sách đáng xem. Nếu nó tăng tốc độ phát triển mô hình địa phương, các chính phủ châu Á khác có thể theo dõi với các chương trình tương tự. Đối với các nhà phát triển trong khu vực, điều đó có thể có nghĩa là cơ sở hạ tầng dễ tiếp cận hơn để xây dựng các sản phẩm AI-native trong những năm tới.
Điều này có ý nghĩa gì đối với các nhà phát triển
Nếu bạn đang xây dựng một sản phẩm ở châu Á liên quan đến video — hoặc có thể liên quan đến video nếu chi phí có ý nghĩa — kiến trúc và mô hình định giá của Varya xứng đáng được chú ý nghiêm túc. Đây là cách suy nghĩ về nó một cách thực tế.
Sách chơi chưng cất hiện đã có thể truy cập được. Cách tiếp cận của Avataar — lấy Wan 2.2, áp dụng chưng cất, tối ưu hóa cho một miền cụ thể — không phải là phép thuật độc quyền. Các kỹ thuật cơ bản (chưng cất tính nhất quán, giảm bước) được ghi chép tốt trong tài liệu nghiên cứu. Những gì Avataar đã làm là áp dụng kỷ luật kỹ thuật và kiến thức miền cho một vấn đề quan trọng đối với thị trường của họ. Nếu bạn đang xây dựng trong một ngành dọc cụ thể — hình ảnh chăm sóc sức khỏe, hướng dẫn bất động sản, thử quần áo thời trang, giao hàng thực phẩm — cách tiếp cận tương tự có thể mang lại một mô hình nhanh hơn, rẻ hơn và chính xác hơn cho trường hợp sử dụng của bạn so với bất kỳ lựa chọn nào có mục đích chung.
Sự hiểu biết văn hóa là một hào, không phải là một tính năng. Thực tế là Varya nhận ra các trang trí Diwali, một chiếc áo dài hoặc một chiếc thali không phải là một mục kiểm tra. Điều đó có nghĩa là các đầu ra được tạo ra có tính nhất quán bối cảnh cho khán giả Ấn Độ theo những cách quan trọng đối với chuyển đổi, tin tưởng và nhận thức thương hiệu. Đối với các nhà phát triển xây dựng ở Đông Nam Á, điều này chỉ ra một khoảng trống: không có mô hình tương đương được đào tạo trên văn hóa hình ảnh của, chẳng hạn, lễ Eid ở Indonesia hoặc Songkran ở Thái Lan. Khoảng trống đó là một cơ hội.
Định giá thay đổi những gì bạn có thể xây dựng. Với giá $0.005 mỗi giây, tạo 100 video sản phẩm 10 giây mỗi video có giá $5. Với giá $0.10 mỗi giây, cùng một lô có giá $100. Đó không chỉ là một sự khác biệt về chi phí — đó là sự khác biệt giữa một tính năng có khả năng kinh tế ở quy mô lớn và một tính năng không. Khi đánh giá những khả năng AI nào để tích hợp vào một sản phẩm, định giá ở mức này mở ra các trường hợp sử dụng mà trước đây không có trong bảng cho các nhóm khởi động hoặc công ty khởi nghiệp giai đoạn đầu.
Đối với các nhóm xây dựng trên các nền tảng như MonstarX, nền tảng phát triển AI-native của châu Á, sự xuất hiện của các mô hình được tối ưu hóa theo khu vực như Varya đại diện chính xác loại sự thay đổi cơ sở hạ tầng giúp các danh mục sản phẩm mới có thể. Khi chi phí tạo video giảm 20 lần và độ chính xác văn hóa cải thiện đồng thời, câu hỏi ngừng là "chúng ta có thể đủ khả năng để làm điều này không?" và bắt đầu là "chúng ta nên xây dựng cái gì trước tiên?"
Xem API. Định giá dịch vụ được lưu trữ của Avataar gợi ý một mô hình phân phối ưu tiên API. Khi Varya trở nên có sẵn thông qua API, nó trở thành một khối xây dựng — thứ gì đó bạn có thể gọi từ đường ống sản phẩm của bạn, hệ thống tạo nội dung của bạn hoặc phần phụ trợ thương mại điện tử của bạn. Câu hỏi tích hợp thực tế cho các nhà phát triển rất đơn giản: ở đâu trong ngăn xếp của bạn, tạo video hiện tại tạo ra một nút cổ chai hoặc trần chi phí, và hồ sơ độ trễ của Varya (45 giây cho 5 giây video) có phù hợp với trường hợp sử dụng của bạn không?