Thinking Machines ایک ایسی AI بنانا چاہتی ہے جو بات کرتے ہوئے واقعی سنے

Mira Murati کی نئی اسٹارٹ اپ نے ایک تحقیقی پیش نظارہ جاری کیا ہے جو ڈویلپرز کے AI ماڈلز کے ساتھ تعامل کے طریقے کو دوبارہ متعین کر سکتا ہے۔ Thinking Machines Lab نے تعامل کے ماڈلز کا اعلان کیا — AI جو آپ کی ان پٹ کو پروسیس کرتا ہے اور بیک وقت جوابات تیار کرتا ہے۔

Share
Editorial illustration: A close-up of a telephone handset or headset with the earpiece and mouthpiece positioned symmetrical — MonstarX

Thinking Machines ایک ایسی AI بنانا چاہتی ہے جو بات کرتے ہوئے واقعی سنے

Thinking Machines ایک ایسی AI بنانا چاہتی ہے جو بات کرتے ہوئے واقعی سنے

Mira Murati کی نئی اسٹارٹ اپ نے ایک تحقیقی پیش نظارہ جاری کیا ہے جو ڈویلپرز کے AI ماڈلز کے ساتھ تعامل کے طریقے کو دوبارہ متعین کر سکتا ہے۔ Thinking Machines Lab نے تعامل کے ماڈلز کا اعلان کیا — AI جو آپ کی ان پٹ کو پروسیس کرتا ہے اور بیک وقت جوابات تیار کرتا ہے، اس عجیب موڑ کو ختم کرتے ہوئے جو ہر AI ڈویلپمنٹ ٹول کو متعریف کرتا ہے جو آپ نے اب تک استعمال کیا ہے۔ ایشیائی ڈویلپرز کے لیے جو حقیقی وقت کی ایپلیکیشنز بناتے ہیں، ترتیب وار سے بیک وقت پروسیسنگ میں یہ تبدیلی محض ایک تکنیکی اپ گریڈ سے زیادہ ہے۔ یہ AI-native ڈویلپمنٹ پلیٹ فارمز کے کام کرنے کے طریقے کی بنیادی طور پر نئے سرے سے سوچ ہے۔

AI ڈویلپمنٹ ٹولز کیا ہیں؟

AI ڈویلپمنٹ ٹولز پلیٹ فارمز، فریم ورکس، اور APIs ہیں جو ڈویلپرز کو ماڈلز کو صفر سے بنائے بغیر ایپلیکیشنز میں مشین لرننگ کی صلاحیتوں کو شامل کرنے دیتے ہیں۔ یہ GitHub Copilot جیسے کوڈ مکمل کرنے والے معاونین سے لے کر مکمل اسٹیک پلیٹ فارمز تک ہیں جو ڈیٹا پری پروسیسنگ سے لے کر تعیناتی تک سب کچھ سنبھالتے ہیں۔ ایشیائی مارکیٹ نے اس زمرے میں بہت تیزی سے نمو دیکھی ہے، مقامی پلیٹ فارمز ابھر رہے ہیں جو ڈویلپرز کی خدمت کرتے ہیں جنہیں کم تاخیر، علاقائی بنیاد پر بنی ہوئی بنیادی ڈھانچے کی ضرورت ہے۔

روایتی AI ڈویلپمنٹ ٹولز درخواست-جواب کے چکر پر کام کرتے ہیں۔ آپ ایک فوری درخواست بھیجتے ہیں، ماڈل اسے مکمل طور پر پروسیس کرتا ہے، پھر جواب واپس بھیجتا ہے۔ یہ فن تعمیر بہت سے استعمال کے معاملات کے لیے کام کرتا ہے، لیکن جب آپ کو حقیقی تعامل کی ضرورت ہو تو یہ ٹوٹ جاتا ہے — صوتی معاونین کے بارے میں سوچیں جو رکاوٹوں کو سنبھال نہیں سکتے، یا چیٹ بوٹس جو آپ کو پورے جواب کے ذریعے انتظار کرنے پر مجبور کرتے ہیں پھر غلط فہمی کو درست کرنے سے پہلے۔ تکنیکی حد پروسیسنگ کی رفتار نہیں ہے؛ یہ بنیادی ڈیزائن ہے جو بات چیت کو الگ الگ لین دین کی بجائے مسلسل تبادلے کے طور پر سلوک کرتا ہے۔

Thinking Machines Lab کا نقطہ نظر اس نمونے کو چیلنج کرتا ہے۔ ان کا TML-Interaction-Small ماڈل 0.40-سیکنڈ کے جواب کے اوقات کو حاصل کرتا ہے ان پٹ اور آؤٹ پٹ کو بیک وقت پروسیس کرتے ہوئے — جسے انجینئرز "full duplex" کمیونیکیشن کہتے ہیں۔ ان کے TechCrunch پر اعلان کے مطابق، یہ قدرتی انسانی بات چیت کی رفتار سے مماثل ہے اور OpenAI اور Google کے موازنہ کے قابل ماڈلز سے بہتر کارکردگی دکھاتا ہے۔ اثرات صوتی انٹرفیسز سے آگے تک پھیلے ہوئے ہیں۔ کوئی بھی ایپلیکیشن جس میں حقیقی وقت کی AI رائے کی ضرورت ہو — تعاون کی کوڈنگ کے ماحول، براہ راست ترجمہ کی خدمات، متحرک ڈیبگنگ ٹولز — اس تعمیری تبدیلی سے فائدہ اٹھا سکتے ہیں۔

ایشیا میں ڈویلپرز کے لیے، جہاں موبائل پہلے ایپلیکیشنز غالب ہیں اور نیٹ ورک کی حالت بہت مختلف ہے، جواب کی تاخیر براہ راست صارف کے تجربے کو متاثر کرتی ہے۔ ایک ماڈل جو آپ کے بات کرنا ختم کرنے سے پہلے جواب دینا شروع کر سکتا ہے، سمجھے جانے والی تاخیر کو کم کرتا ہے، AI تعاملات کو سرور کے جواب کے انتظار کی بجائے کسی ساتھی سے بات کرنے کی طرح محسوس کرتا ہے۔ چیلنج یہ ہے کہ یہ تحقیقی پیش نظارہ ابھی عوامی طور پر دستیاب نہیں ہے۔ Thinking Machines Lab آنے والے مہینوں میں ایک محدود تحقیقی پیش نظارے کا وعدہ کرتا ہے، اس سال بعد میں وسیع تر رہائی کے ساتھ۔ اس وقت تک، ڈویلپرز کو ایسے ٹولز کی ضرورت ہے جو آج کام کریں۔

2026 میں ایشیائی ڈویلپرز کے لیے بہترین AI ڈویلپمنٹ ٹولز

ایشیائی ڈویلپر ایکوسسٹم میں منفرد ضروریات ہیں جو عالمی پلیٹ فارمز ہمیشہ حل نہیں کرتے۔ سنگاپور اور انڈونیشیا جیسی ممالک میں ڈیٹا رہائش کی ضوابط مقامی ہوسٹنگ کی ضرورت ہے۔ زبان کی معاونت انگریزی سے آگے منڈارن، جاپانی، کوریائی، باہاسا، اور درجنوں علاقائی زبانوں تک پھیلی ہوئی ہے۔ ادائیگی کی بنیادی ڈھانچے کو کریڈٹ کارڈز سے لے کر GrabPay سے لے کر Alipay تک سب کچھ سنبھالنے کی ضرورت ہے۔ یہاں وہ ہے جو اب ایشیا میں بناتے ہوئے ڈویلپرز کے لیے واقعی کام کرتا ہے۔

OpenAI API عام مقصد کی AI صلاحیتوں کے لیے سونے کی معیار رہتا ہے، لیکن US-based سرورز سے تاخیر جنوب مشرقی ایشیائی ڈویلپرز کے لیے 200-300ms تک پہنچ سکتی ہے۔ قیمت کی ماڈل — GPT-4o mini کے لیے 1K ٹوکنز کے لیے $0.002 — مغربی مارکیٹس کے لیے سمجھ میں آتا ہے لیکن جب آپ کے ہدف صارفین ماہانہ $500-1000 کمائیں تو یہ مختلف ہے۔ پھر بھی، ماڈل کی کوالٹی اور وسیع دستاویزات اسے نمونہ کے لیے ڈیفالٹ انتخاب بناتے ہیں۔

Anthropic Claude پیچیدہ استدلال کے کاموں پر بہتر کارکردگی اور طویل تر سیاق و سباق کی کھڑکیاں (200K ٹوکنز) فراہم کرتا ہے، جو ایپلیکیشنز کے لیے موزوں ہے جنہیں پورے کوڈ بیسز یا طویل دستاویزات پروسیس کرنے کی ضرورت ہے۔ ایشیا-پیسیفک رولاؤٹ OpenAI کے مقابلے میں سست رہا ہے، لیکن دستیابی بہتر ہو رہی ہے۔ سنگاپور اور ٹوکیو میں ڈویلپرز قابل قبول تاخیر کی اطلاع دیتے ہیں، جبکہ جکارتہ یا مانیلا میں وہ کبھی کبھی ٹائم آؤٹ دیکھتے ہیں۔

Alibaba Cloud Tongyi Qianwen چین میں غالب ہے اور سنگاپور، ملائیشیا، اور انڈونیشیا میں مقامی ڈیٹا سینٹرز کے ساتھ جنوب مشرقی ایشیا میں توسیع کر رہا ہے۔ چینی زبان کی کارکردگی مغربی ماڈلز سے نمایاں طور پر بہتر ہے۔ قیمت OpenAI کے موازنہ کے قابل کاموں کے لیے تقریباً 30٪ کم ہے۔ ٹریڈ آف بنیادی طور پر چینی میں دستاویزات اور US پلیٹ فارمز کے مقابلے میں کم پختہ ڈویلپر ٹولنگ ہے۔

Google Gemini ملٹی موڈل صلاحیتیں اور Google Cloud بنیادی ڈھانچے کے ساتھ سخت انضمام لاتا ہے۔ مفت سطح سخی ہے — Gemini 1.5 Flash کے لیے فی دن 1500 درخواستیں — جو ابتدائی مرحلے کی اسٹارٹ اپس کے لیے پرکشش ہے۔ ایشیائی ڈویلپرز Google کے علاقائی ڈیٹا سینٹرز سے OpenAI سے بہتر تاخیر کی اطلاع دیتے ہیں، اگرچہ ماڈل کی کارکردگی کوڈ جنریشن کے کاموں پر GPT-4 سے تھوڑی پیچھے ہے۔

اس منظر نامے سے جو غائب ہے وہ ایک پلیٹ فارم ہے جو خاص طور پر اس لیے بنایا گیا ہے کہ ایشیائی ڈویلپرز واقعی کیسے کام کرتے ہیں۔ زیادہ تر ٹیمیں بینچ مارک اسکورز کی بنیاد پر OpenAI اور Anthropic کے درمیان انتخاب نہیں کر رہے ہیں۔ وہ پوچھ رہے ہیں: کیا میں یہ جکارتہ میں تعینات کر سکتا ہوں؟ کیا یہ میرے موجودہ Node.js اسٹیک کے ساتھ کام کرے گا؟ کیا میں اسے برداشت کر سکتا ہوں جب میں 10,000 صارفین تک پہنچوں؟ یہ عملی سوالات نظریاتی ماڈل کی صلاحیتوں سے زیادہ اہم ہیں۔

اپنے اسٹیک کے لیے صحیح AI ڈویلپمنٹ ٹول کا انتخاب کیسے کریں

AI ڈویلپمنٹ ٹول کا انتخاب آپ کی اصل ضروریات کو سمجھنے سے شروع ہوتا ہے، نہ کہ تازہ ترین ماڈل رہائی کا پیچھا کرتے ہوئے۔ تاخیر کی حدود کے ساتھ شروع کریں۔ اگر آپ حقیقی وقت کی صوتی ایپلیکیشن بناتے ہیں، تو آپ کو 500ms سے کم انتہائی جواب کے اوقات کی ضرورت ہے۔ یہ فوری طور پر آپ کے اختیارات کو علاقائی بنیادی ڈھانچے والے فراہم کنندگان تک محدود کر دیتا ہے۔ چیک کریں کہ ان کے سرورز اصل میں کہاں چلتے ہیں — "Asia-Pacific" کا مطلب Sydney ہو سکتا ہے (آسٹریلیا کے لیے بہترین، ویتنام کے لیے خراب) یا سنگاپور (جنوب مشرقی ایشیا کے زیادہ تر حصوں کے لیے معقول)۔

لاگت کی ماڈلنگ اگلی آتی ہے۔ زیادہ تر پلیٹ فارمز فی ٹوکن چارج کرتے ہیں، لیکن ٹوکن کی گنتی فراہم کنندگان کے درمیان مختلف ہوتی ہے۔ ایک 1000-لفظ کا مضمون GPT-4 میں 750 ٹوکنز اور Claude میں 850 ٹوکنز ہو سکتا ہے۔ اپنی متوقع ماہانہ درخواست کی مقدار کو فی ٹوکن قیمت سے ضرب دیں، پھر اوور ہیڈ اور غیر متوقع استعمال کے اضافے کے لیے 30٪ شامل کریں۔ اگر یہ تعداد آپ کے بنیادی ڈھانچے کے بجٹ سے زیادہ ہے، تو آپ کو ایک مختلف نقطہ نظر کی ضرورت ہے۔ ہائبرڈ آرکیٹیکچرز پر غور کریں جو سادہ سوالات کے لیے چھوٹے ماڈلز استعمال کرتے ہیں اور پیچیدہ استدلال کے کاموں کے لیے مہنگے ماڈلز محفوظ رکھتے ہیں۔

زبان کی معاونت اکثر ڈویلپرز سے زیادہ اہم ہے۔ انگریزی پر مرکوز ماڈلز تھائی میں کوڈ تبصروں، انڈونیشی میں غلطی کے پیغامات، یا Singlish کو تکنیکی شرائط کے ساتھ ملاتے ہوئے صارف کی درخواستوں کے ساتھ جدوجہد کرتے ہیں۔ اپنے منتخب پلیٹ فارم کو اپنی ہدف کی زبانوں میں اصل صارف کی ان پٹ کے ساتھ پرتکرار کریں۔ "چینی کو سپورٹ کرتا ہے" اور "چینی تکنیکی دستاویزات پر اچھی کارکردگی" کے درمیان فرق بہت بڑا ہے۔

انضمام کی پیچیدگی اس بات کا تعین کرتی ہے کہ کتنی تیزی سے