সাশ্রয়ী, দ্রুত এবং সাংস্কৃতিকভাবে সচেতন — Avataar-এর ভিডিও AI ভারতের স্কেলের জন্য তৈরি
৪৫ সেকেন্ডে একটি ৫ সেকেন্ডের ৭২০p ভিডিও ক্লিপ, প্রতি সেকেন্ডে $০.০০৫ খরচে। এটি Avataar AI-এর নতুন Varya মডেল, এবং এটি এমন একটি সংখ্যা যা এশিয়ায় কাজ করা প্রতিটি ডেভেলপার এবং প্রতিষ্ঠাতাকে পুনর্বিবেচনা করতে বাধ্য করবে।
সাশ্রয়ী, দ্রুত এবং সাংস্কৃতিকভাবে সচেতন — Avataar-এর ভিডিও AI ভারতের স্কেলের জন্য তৈরি
৪৫ সেকেন্ডে একটি ৫ সেকেন্ডের ৭২০p ভিডিও ক্লিপ, প্রতি সেকেন্ডে $০.০০৫ খরচে। এটি কোনো গোলমাল নয় — এটি Avataar AI-এর নতুন Varya মডেল, এবং এটি এমন একটি সংখ্যা যা এশিয়ায় কাজ করা প্রতিটি ডেভেলপার এবং প্রতিষ্ঠাতাকে থেমে পুনর্বিবেচনা করতে বাধ্য করবে। সাশ্রয়ী, দ্রুত এবং সাংস্কৃতিকভাবে সচেতন, Avataar-এর ভিডিও AI একটি একক পণ্য লঞ্চের চেয়ে অনেক বেশি গুরুত্বপূর্ণ কিছু প্রতিনিধিত্ব করে: এটি প্রমাণ যে এশিয়া তার নিজস্ব বাজারের জন্য সুরক্ষিত AI অবকাঠামো তৈরি করছে, তার নিজস্ব শর্তে।
কী ঘটেছে
Avataar AI — Peak XV দ্বারা সমর্থিত এবং ই-কমার্সের জন্য ভিডিও টুলসে ফোকাসড — Varya 1.0 লঞ্চ করেছে, যাকে এটি ভারতের প্রথম ডিস্টিল্ড ভিডিও মডেল বলছে। কোম্পানিটি এটি স্ক্র্যাচ থেকে তৈরি করেনি। এটি Wan 2.2 দিয়ে শুরু করেছে, Alibaba-এর সর্বজনীনভাবে উপলব্ধ ভিডিও জেনারেশন মডেল, এবং মডেল ডিস্টিলেশন নামক একটি কৌশল প্রয়োগ করেছে — মডেলের শেখা ক্ষমতাগুলিকে একটি দ্রুততর, Avataar-এর নির্দিষ্ট ব্যবহারের ক্ষেত্রের জন্য অপ্টিমাইজ করা সংস্করণে সংকুচিত করা।
ডিস্টিলেশনের ফলাফল চমকপ্রদ। যেখানে Wan 2.2 ভিডিও তৈরি করতে ৫০টি ইনফারেন্স ধাপ প্রয়োজন, Varya মাত্র চারটিতে চলে। একটি NVIDIA H200 GPU-তে, এটি ৫ সেকেন্ডের ৭২০p ক্লিপ ৪৫ সেকেন্ডে তৈরি করার অনুবাদ করে, বেস মডেলের জন্য ১,২৩০ সেকেন্ডের তুলনায় — একটি ১০x গতি উন্নতি। TechCrunch-এর রিপোর্টিং অনুযায়ী, Avataar তার হোস্টেড সেবায় ভিডিওর প্রতি সেকেন্ডে ₹০.৪৮ (প্রায় $০.০০৫) চার্জ করার পরিকল্পনা করছে। Veo, Kling, Luma এবং Runway-এর মতো মডেলগুলি সাধারণত প্রতি সেকেন্ডে $০.১০ বা তার বেশি চার্জ করে — Varya-কে প্রায় একটি ২০x মূল্য সুবিধাতে রাখে।
Avataar ভারতের সরকার-সমর্থিত India AI Mission-এর জন্য নির্বাচিত ১২টি স্টার্টআপের মধ্যে একটি, একটি প্রায় $১.২ বিলিয়ন উদ্যোগ যা যোগ্য স্টার্টআপগুলিকে তাদের মডেলগুলি সর্বজনীনভাবে প্রকাশ করার বিনিময়ে সাবসিডাইজড GPU কম্পিউট অ্যাক্সেস দেয়। এই সাবসিডি গল্পের একটি অর্থপূর্ণ অংশ: এটি একটি দেশে ভিত্তি-স্তরের AI তৈরি এবং প্রকাশ করার বাধা কমায় যেখানে কম্পিউট খরচ ঐতিহ্যগতভাবে উচ্চাভিলাষের একটি সীমা হয়েছে।
কিন্তু প্রযুক্তিগত এবং মূল্য নির্ধারণের গল্প এর অর্ধেক মাত্র। Varya স্পষ্টভাবে স্থানীয় প্রসঙ্গ বোঝার জন্য প্রশিক্ষিত — ভারতীয় উৎসব, আঞ্চলিক পোশাক শৈলী এবং স্থানীয় খাবার স্বীকার করে। এটি একটি বিপণন পাদটিকা নয়। একটি জেনারেটিভ ভিডিও মডেলে সাংস্কৃতিক ভিত্তি ভারতীয় ই-কমার্স ব্যবহারের ক্ষেত্রে আউটপুটের গুণমান পরিবর্তন করে এমনভাবে যা একটি সাধারণ পশ্চিম-প্রশিক্ষিত মডেল সহজভাবে প্রতিলিপি করতে পারে না।
এশিয়ার জন্য এটি কেন গুরুত্বপূর্ণ
ভারতের AI মডেল আউটপুট মার্কিন যুক্তরাষ্ট্র, ইউরোপ এবং চীনের পিছিয়ে রয়েছে। বেশিরভাগ স্বদেশী রিলিজ বড় ভাষা মডেল বা ভয়েস মডেল হয়েছে — ভিডিও জেনারেশন পশ্চিমা এবং চীনা খেলোয়াড়দের দ্বারা আধিপত্য বিস্তার করেছে। Varya সেই ভারসাম্য পরিবর্তন করে, এবং প্রভাবগুলি ভারতের সীমানার বাইরে বিস্তৃত।
এশিয়া একটি একক বাজার নয়। এটি উচ্চ-প্রসঙ্গ সংস্কৃতির একটি সংগ্রহ — প্রতিটি স্বতন্ত্র ভিজ্যুয়াল ভাষা, উৎসব, ফ্যাশন সিস্টেম এবং ভোক্তা আচরণ সহ — মূল্য-সংবেদনশীল, মোবাইল-প্রথম অর্থনীতির উপর স্তরযুক্ত। একটি ভিডিও AI মডেল যা প্রতি সেকেন্ডে $০.১০ চার্জ করে সান ফ্রান্সিসকোতে একটি যুক্তিসঙ্গত পণ্য। মুম্বাই, জাকার্তা, হো চি মিন সিটি বা ম্যানিলায়, এটি বেশিরভাগ ব্যবসার জন্য একটি অ-স্টার্টার যারা প্রকৃতপক্ষে স্কেলে AI-উৎপাদিত ভিডিও থেকে উপকৃত হবে।
Varya-এর $০.০০৫-প্রতি-সেকেন্ড মূল্য নির্ধারণ ব্যবহারের ক্ষেত্রের একটি বিশাল শ্রেণীর জন্য ইউনিট অর্থনীতি পরিবর্তন করে: D2C ব্র্যান্ডের জন্য পণ্য ডেমো ভিডিও, আঞ্চলিক উৎসবের জন্য স্থানীয়করণ বিজ্ঞাপন সৃজনশীলতা, সামাজিক বাণিজ্য প্ল্যাটফর্মের জন্য সংক্ষিপ্ত-ফর্ম সামগ্রী। এগুলি নিশ অ্যাপ্লিকেশন নয় — তারা প্রতিনিধিত্ব করে কীভাবে এশিয়ার শত শত মিলিয়ন ভোক্তা অনলাইনে পণ্য আবিষ্কার এবং ক্রয় করে তার মূল।
Avataar ব্যবহার করা ডিস্টিলেশন পদ্ধতিটি একটি কৌশলগত টেমপ্লেট হিসাবেও উল্লেখযোগ্য। স্ক্র্যাচ থেকে একটি ভিত্তি মডেল প্রশিক্ষণে বছর এবং শত শত মিলিয়ন ডলার ব্যয় করার পরিবর্তে, Avataar একটি শক্তিশালী ওপেন-ওয়েট বেস (Alibaba থেকে Wan 2.2) দিয়ে শুরু করেছে এবং ডোমেইন-নির্দিষ্ট ডিস্টিলেশন প্রয়োগ করেছে। এটি একটি পুনরাবৃত্তিযোগ্য প্লেবুক। দক্ষিণ-পূর্ব এশিয়া, দক্ষিণ এশিয়া এবং পূর্ব এশিয়া জুড়ে ডেভেলপার এবং স্টার্টআপগুলি একই পদ্ধতি প্রয়োগ করতে পারে — একটি সক্ষম ওপেন-ওয়েট মডেল নিন, একটি নির্দিষ্ট সাংস্কৃতিক বা বাণিজ্যিক প্রসঙ্গের জন্য এটি ডিস্টিল করুন এবং এমন কিছু প্রকাশ করুন যা সেই ব্যবহারের ক্ষেত্রের জন্য সাধারণ বিকল্পগুলিকে ছাড়িয়ে যায় খরচের একটি ভগ্নাংশে।
India AI Mission-এর মডেল — সর্বজনীন মডেল রিলিজের বিনিময়ে সাবসিডাইজড কম্পিউট — একটি নীতি পরীক্ষা যা দেখার যোগ্য। যদি এটি স্থানীয় মডেল উন্নয়নের গতি ত্বরান্বিত করে, অন্যান্য এশীয় সরকারগুলি অনুরূপ প্রোগ্রাম অনুসরণ করতে পারে। অঞ্চলের ডেভেলপারদের জন্য, এটি আগামী কয়েক বছরে AI-নেটিভ পণ্য তৈরির জন্য আরও অ্যাক্সেসযোগ্য অবকাঠামো মানে।
ডেভেলপারদের জন্য এটি কী অর্থ
যদি আপনি এশিয়ায় এমন একটি পণ্য তৈরি করছেন যা ভিডিও জড়িত — বা যা ভিডিও জড়িত হতে পারে যদি খরচ অর্থবহ হয় — Varya-এর আর্কিটেকচার এবং মূল্য নির্ধারণ মডেল গুরুতর মনোযোগের যোগ্য। এটি ব্যবহারিকভাবে কীভাবে চিন্তা করতে হয় তা এখানে।
ডিস্টিলেশন প্লেবুক এখন অ্যাক্সেসযোগ্য। Avataar-এর পদ্ধতি — Wan 2.2 নিন, ডিস্টিলেশন প্রয়োগ করুন, একটি নির্দিষ্ট ডোমেইনের জন্য অপ্টিমাইজ করুন — মালিকানাধীন জাদু নয়। অন্তর্নিহিত কৌশলগুলি (সামঞ্জস্য ডিস্টিলেশন, ধাপ হ্রাস) গবেষণা সাহিত্যে ভালভাবে নথিভুক্ত। Avataar যা করেছে তা হল প্রকৌশল শৃঙ্খলা এবং ডোমেইন জ্ঞান প্রয়োগ করা একটি সমস্যায় যা তাদের বাজারের জন্য গুরুত্বপূর্ণ ছিল। যদি আপনি একটি নির্দিষ্ট উল্লম্ব — স্বাস্থ্যসেবা ইমেজিং, রিয়েল এস্টেট ওয়াকথ্রু, ফ্যাশন ট্রাই-অন, খাদ্য সরবরাহে তৈরি করছেন — একই পদ্ধতি একটি মডেল তৈরি করতে পারে যা আপনার ব্যবহারের ক্ষেত্রের জন্য যেকোনো সাধারণ-উদ্দেশ্য বিকল্পের চেয়ে দ্রুত, সস্তা এবং আরও নির্ভুল।
সাংস্কৃতিক ভিত্তি একটি পরিখা, একটি বৈশিষ্ট্য নয়। Varya দিওয়ালি সজ্জা, একটি শাড়ি বা একটি থালি স্বীকার করে এটি একটি চেকবক্স আইটেম নয়। এটি মানে উৎপাদিত আউটপুটগুলি ভারতীয় দর্শকদের জন্য প্রসঙ্গগতভাবে সুসংগত এমনভাবে যা রূপান্তর, বিশ্বাস এবং ব্র্যান্ড উপলব্ধির জন্য গুরুত্বপূর্ণ। দক্ষিণ-পূর্ব এশিয়ায় তৈরি করা ডেভেলপারদের জন্য, এটি একটি ফাঁক নির্দেশ করে: কোনো সমতুল্য মডেল নেই যা, বলুন, ইন্দোনেশিয়ায় ঈদ উদযাপনের ভিজ্যুয়াল সংস্কৃতি বা থাইল্যান্ডে সোংক্রানের উপর প্রশিক্ষিত। সেই ফাঁক একটি সুযোগ।
মূল্য নির্ধারণ পরিবর্তন করে আপনি কী তৈরি করতে পারেন। $০.০০৫ প্রতি সেকেন্ডে, ১০ সেকেন্ডের ১০০টি পণ্য ভিডিও তৈরি করা $৫ খরচ করে। $০.১০ প্রতি সেকেন্ডে, একই ব্যাচ $১০০ খরচ করে। এটি শুধু একটি খরচ পার্থক্য নয় — এটি একটি বৈশিষ্ট্য যা স্কেলে অর্থনৈতিকভাবে কার্যকর এবং যা নয় তার মধ্যে পার্থক্য। একটি পণ্যে কোন AI ক্ষমতা একীভূত করতে হবে তা মূল্যায়ন করার সময়, এই স্তরে মূল্য নির্ধারণ এমন ব্যবহারের ক্ষেত্র খুলে দেয় যা আগে বুটস্ট্র্যাপড দল বা প্রাথমিক-পর্যায়ের স্টার্টআপগুলির জন্য টেবিলের বাইরে ছিল।
MonstarX-এর মতো প্ল্যাটফর্মে তৈরি করা দলগুলির জন্য, এশিয়ার AI-নেটিভ ডেভ প্ল্যাটফর্ম, Varya-এর মতো আঞ্চলিকভাবে অপ্টিমাইজড মডেলের উত্থান ঠিক সেই ধরনের অবকাঠামো পরিবর্তন প্রতিনিধিত্ব করে যা নতুন পণ্য বিভাগকে সম্ভব করে তোলে। যখন ভিডিও জেনারেশনের খরচ ২০x দ্বারা হ্রাস পায় এবং সাংস্কৃতিক নির্ভুলতা একই সাথে উন্নত হয়, প্রশ্নটি "আমরা এটি করতে পারি?" থেকে থামে এবং "আমরা প্রথমে কী তৈরি করব?" শুরু হয়।
API দেখুন। Avataar-এর হোস্টেড সেবা মূল্য নির্ধারণ একটি API-প্রথম বিতরণ মডেল পরামর্শ দেয়। যখন Varya API-এর মাধ্যমে উপলব্ধ হয়ে ওঠে, এটি একটি বিল্ডিং ব্লক হয়ে ওঠে — এমন কিছু যা আপনি আপনার পণ্য পাইপলাইন, আপনার সামগ্রী জেনারেশন সিস্টেম বা আপনার ই-কমার্স ব্যাকএন্ড থেকে কল করতে পারেন। ডেভেলপারদের জন্য ব্যবহারিক একীকরণ প্রশ্ন সরল: আপনার স্ট্যাকের কোথায় ভিডিও জেনারেশন বর্তমানে একটি বাধা বা খরচ সীমা তৈরি করে, এবং Varya-এর লেটেন্সি প্রোফাইল (৫ সেকেন্ডের ভিডিওর জন্য ৪৫ সেকেন্ড) আপনার ব্যবহারের ক্ষেত্রে ফিট করে?