شريحة Jalapeño من OpenAI: أجرأ خطوة لشركات التكنولوجيا الكبرى للابتعاد عن Nvidia
كشفت OpenAI للتو عن Jalapeño — شريحة استدلال مخصصة تم تطويرها بالشراكة مع Broadcom — وهي أوضح إشارة حتى الآن على أن اعتماد صناعة الذكاء الاصطناعي على مورد سيليكون واحد بدأ يتصدع.
شريحة Jalapeño من OpenAI: أجرأ خطوة لشركات التكنولوجيا الكبرى للابتعاد عن Nvidia
كشفت OpenAI للتو عن Jalapeño — شريحة استدلال مخصصة تم تطويرها بالشراكة مع Broadcom — وهي أوضح إشارة حتى الآن على أن اعتماد صناعة الذكاء الاصطناعي على مورد سيليكون واحد بدأ يتصدع. شريحة Jalapeño من OpenAI تمثل أجرأ خطوة للابتعاد عن Nvidia شهدناها حتى الآن، وتنضم إلى قائمة متنامية تضم Google و Apple و SpaceX. بالنسبة للمطورين والمؤسسين في جميع أنحاء آسيا، هذا ليس مجرد قصة سلسلة التوريد. إنها إعادة تشكيل أساسية لمن يتحكم في تكلفة وسرعة وإمكانية الوصول إلى بنية الذكاء الاصطناعي — وهذا له عواقب مباشرة على طريقة بنائك.
ما الذي حدث
هيمنت Nvidia على سوق شرائح الذكاء الاصطناعي لسنوات. أصبحت معالجات H100 و B200 الخاصة بها الركيزة الحسابية الافتراضية لتدريب وتشغيل نماذج اللغات الكبيرة، وأعطت هذه الهيمنة الشركة قوة تسعير استثنائية. امتدت قوائم الانتظار لأشهر. ارتفعت التكاليف. تم تخصيص جولات تمويل كاملة بصمت فقط لتأمين الوصول إلى معالجات الرسومات.
تغير شريحة Jalapeño من OpenAI هذا الحساب — على الأقل بالنسبة لـ OpenAI نفسها. وفقاً لبودكاست Equity من TechCrunch، فإن Jalapeño هي شريحة استدلال مخصصة، وليست شريحة تدريب. هذا التمييز مهم جداً. تدريب نموذج متقدم هو حدث حسابي ضخم لمرة واحدة (أو دوري). الاستدلال — تشغيل النموذج للإجابة على استفسارك أو توليد الكود أو تشغيل منتجك — يحدث مليارات المرات يومياً. الاستدلال هو حيث تكمن التكلفة التشغيلية الحقيقية، وهو حيث يؤتي السيليكون المخصص ثماره بسرعة.
Broadcom هي شريك التصنيع هنا، وهذا منطقي. تمتلك Broadcom خبرة عميقة في تصميم ASIC المخصص وتعمل بالفعل مع Google على وحدات معالجة Tensor (TPUs). تتبع OpenAI بشكل أساسي نفس الاستراتيجية: تصميم شريحة محسّنة لعبء العمل المحدد، تصنيعها على نطاق واسع، والتوقف عن دفع علاوة Nvidia مقابل القدرات التي لا تحتاجها.
هذا ليس انحرافاً عن Nvidia بالكامل. ستستمر OpenAI في استخدام أجهزة Nvidia لعمليات التدريب وربما لأعباء عمل استدلال معينة. لكن Jalapeño تشير إلى النية — نفس النية التي أظهرتها Google مع TPUs و Amazon مع Trainium و Inferentia و Meta مع شريحة MTIA الخاصة بها. عصر احتكار معالجات الرسومات الكامل ينتهي، والسيليكون المخصص يصبح الخندق التنافسي لأي شخص يشغل الذكاء الاصطناعي على نطاق واسع.
لماذا يهم هذا لآسيا
علاقة آسيا ببنية الذكاء الاصطناعي معقدة. من ناحية، المنطقة هي موطن بعض من أكثر التصنيع الدقيق للأجهزة الإلكترونية تطوراً في العالم — TSMC في تايوان و Samsung في كوريا الجنوبية وبيئة كثيفة من مصممي الشرائح ومتخصصي التغليف في جميع أنحاء المنطقة. من ناحية أخرى، تم تقييد الوصول إلى حوسبة الذكاء الاصطناعي المتقدمة من خلال ضوابط التصدير وأولويات التخصيص التي تفضل شركات البحث الأمريكية الكبرى والتكلفة الخام.
تسرع اتجاهات الشرائح المخصصة من انقسام يحدث بالفعل في تكنولوجيا آسيا. مختبرات الذكاء الاصطناعي الصينية — Baidu و Alibaba DAMO و HiSilicon من Huawei — بنت سيليكون ذكاء اصطناعي مخصص من الضرورة وليس الاختيار، منذ أن قطعت قيود التصدير الأمريكية الوصول إلى معالجات Nvidia عالية الأداء. هذا الاستثمار القسري يبدو الآن حكيماً. شرائح Ascend من Huawei، مهما كانت فجوة الأداء الحالية مقابل Nvidia، تمثل معرفة مؤسسية تتراكم بمرور الوقت.
بالنسبة لمؤسسي ومطوري جنوب شرق آسيا، الآثار أكثر فوراً وعملية. تكاليف الاستدلال السحابي هي قيد حقيقي للشركات الناشئة التي تبني منتجات أصلية للذكاء الاصطناعي في الأسواق حيث متوسط الإيرادات لكل مستخدم أقل من الولايات المتحدة أو أوروبا. إذا قدمت شريحة Jalapeño من OpenAI استدلالاً أرخص بشكل ملموس — والدوائس المتكاملة المخصصة عادة ما تفعل ذلك، لأنها تزيل الحمل الزائد من معمارية معالج الرسومات ذات الأغراض العامة — فإن هذا الخفض في التكلفة ينتقل إلى المصب. تنخفض أسعار API. تصبح منتجات الذكاء الاصطناعي ذات الهامش الرقيق قابلة للتطبيق. يتسع السوق القابل للعنوان لتطبيقات الذكاء الاصطناعي في جنوب شرق آسيا.
هناك أيضاً قراءة استراتيجية هنا لطموحات الذكاء الاصطناعي السيادي في آسيا. دول مثل سنغافورة واليابان وكوريا الجنوبية والهند تستثمر جميعها في البنية الأساسية الوطنية للذكاء الاصطناعي. إعلان Jalapeño هو نقطة بيانات تشير إلى أن السيليكون المخصص هو الطريق التي يسلكها لاعبو الذكاء الاصطناعي الجادون. يجب على الحكومات وصناديق الثروة السيادية في المنطقة التي لا تزال تفكر بحتة من حيث شراء مجموعات Nvidia أن تراقب هذا عن كثب.
التحول الأعمق يتعلق بالنفوذ. عندما تعمل كل شركة ذكاء اصطناعي على نفس أجهزة Nvidia، تضع Nvidia الشروط. مع تنويع مشهد الشرائح — OpenAI مع Jalapeño و Google مع TPUs و Amazon مع Trainium — يتوزع قوة التفاوض. هذا جيد للجميع الذين يشترون حوسبة، بما في ذلك المطورين الآسيويين الذين كانوا تاريخياً متلقين للأسعار في سوق البائع.
ماذا يعني هذا للمطورين
معظم المطورين لن يتفاعلوا مع Jalapeño بشكل مباشر. لن تقوم بتوفير مثيل Jalapeño على وحدة تحكم سحابية. ما ستشعر به هو التأثير اللاحق: زمن استدلال أسرع وتكاليف API أقل و — بمرور الوقت — قدرات نموذج جديدة لا تصبح قابلة للتطبيق اقتصادياً إلا عندما يصبح الاستدلال رخيصاً بما يكفي.
لكن هناك آثار هيكلية أكثر جدارة بالتفكير فيها إذا كنت تبني منتجات أصلية للذكاء الاصطناعي.
تحسين الاستدلال أصبح الآن مصدر قلق هندسي من الدرجة الأولى. مع بناء شركات الذكاء الاصطناعي لسيليكون استدلال مخصص، فإنها تطور أيضاً مكدسات البرامج التي تعمل عليها. تستثمر OpenAI و Google و Amazon بكثافة في تحسين الاستدلال — التكميم والفك التخمين المضاربة واستراتيجيات التجميع وإدارة ذاكرة التخزين المؤقت KV. المطورون الذين يفهمون هذه المفاهيم سيكونون في وضع أفضل لاستخراج الأداء من أي بنية أساسية تقع تحت مكدسهم. لا تحتاج إلى تصميم شرائح، لكن يجب أن تفهم لماذا يختلف زمن استدلال وكيفية تقليله.
قفل مزود النموذج هو خطر حقيقي، وهو يتغير شكله. إذا كان الاستدلال من OpenAI يعمل على Jalapeño واستدلال Google يعمل على TPUs، فإن ملفات الأداء والتكلفة الخاصة بـ APIs الخاصة بهم ستختلف بطرق ليست بحتة حول جودة النموذج. API أرخص بنسبة 30٪ لأنه يعمل على سيليكون مخصص هو منتج مختلف عن واحد أغلى بنسبة 30٪ على سعة معالج رسومات مستأجرة. يجب على المهندسين المعماريين الذين يبنون أنظمة متعددة النماذج أن يأخذوا هذا في الاعتبار.
طبقة التجريد مهمة أكثر من أي وقت مضى. عندما تتنوع البنية الأساسية، تزداد قيمة طبقة التجريد النظيفة فوقها. المنصات التي تسمح لك بتبديل مزودي النماذج وإدارة تكاليف API عبر المزودين والبناء دون أن تكون ملحوماً بخادم استدلال واحد تصبح مفيدة حقاً بدلاً من أن تكون مريحة فقط. البناء على MonstarX — منصة تطوير أصلية للذكاء الاصطناعي في آسيا — يعني أن منطق التطبيق الخاص بك لا يحتاج إلى الاهتمام بما إذا كان النموذج الذي تستدعيه يعمل على Jalapeño أو TPU أو مجموعة H100. يحدث اضطراب البنية الأساسية أسفل الكود الخاص بك.
نمذجة التكلفة لمنتجات الذكاء الاصطناعي تحتاج إلى أن تصبح أكثر تعقيداً. الآن، يعامل العديد من المؤسسين تكلفة الاستدلال كمدخل ثابت. مع قيام السيليكون المخصص بخفض تكاليف الاستدلال لبعض المزودين بينما يبقى الآخرون على معالجات رسومات ذات أغراض عامة، سيصبح مشهد التكلفة أكثر ديناميكية. قم ببناء مراقبة التكلفة في البنية الخاصة بك من اليوم الأول. تتبع التكلفة لكل رمز أو التكلفة لكل طلب حسب المزود والنموذج. قد لا يكون الأرخص اليوم هو الأرخص في ستة أشهر، وسيكون الفرق مهماً على نطاق واسع.
بالنسبة للمطورين في آسيا على وجه التحديد، النصيحة العملية هي البقاء محايداً من حيث المزود على مستوى البنية. ستستغرق موجة الشرائح المخصصة 18-36 شهراً لتتجلى بالكامل في تسعير API، لكن الشركات التي تبني المرونة الآن ستكون قادرة على الحد