lang-th

ชิป Jalapeño ของ OpenAI: การเคลื่อนตัวที่กล้าหาญที่สุดของ Big Tech ออกจาก Nvidia

OpenAI เพิ่งเปิดตัว Jalapeño — ชิปอนุมานแบบกำหนดเองที่สร้างขึ้นในความร่วมมือกับ Broadcom — และนี่คือสัญญาณที่ชัดเจนที่สุดจนถึงขณะนี้ว่าการพึ่งพาซัพพลายเชนของอุตสาหกรรม AI ต่อผู้จัดจำหน่ายซิลิคอนเพียงรายเดียวกำลังแตกหัก ชิป Jalapeño ของ OpenAI คือการเคลื่อนตัวที่กล้าหาญที่สุดออกจาก Nvidia ที่เราเคยเห็น และมันเข้าร่วมรายชื่อที่ยาวขึ้นซึ่งรวมถึง Google, Apple และ SpaceX สำหรับนักพัฒนาและผู้ก่อตั้งทั่วเอเชีย นี่ไม่ใช่เพียงเรื่องของห่วงโซ่อุปทาน มันคือการปรับโครงสร้างพื้นฐานของว่าใครควบคุมต้นทุน ความเร็ว และการเข้าถึงโครงสร้างพื้นฐาน AI — และนั่นมีผลกระทบโดยตรงต่อวิธีที่คุณสร้าง

เกิดอะไรขึ้น

Nvidia ครองตลาดชิป AI มาหลายปีแล้ว GPU H100 และตอนนี้ B200 ของมันกลายเป็นพื้นฐานการคำนวณเริ่มต้นสำหรับการฝึกและเรียกใช้โมเดลภาษาขนาดใหญ่ และการครองตลาดนั้นให้อำนาจการกำหนดราคาพิเศษแก่บริษัท รายชื่อรอคอยยาวนานหลายเดือน ต้นทุนพุ่งสูงขึ้น รอบการระดมทุนทั้งหมดถูกจัดสรรอย่างเงียบ ๆ เพียงเพื่อรักษาการเข้าถึง GPU

ชิป Jalapeño ของ OpenAI เปลี่ยนการคำนวณนั้น — อย่างน้อยสำหรับ OpenAI เอง ตามที่ TechCrunch's Equity podcast Jalapeño เป็นชิปอนุมานแบบกำหนดเองไม่ใช่ชิปการฝึก ความแตกต่างนี้มีความสำคัญอย่างมาก การฝึกโมเดลชั้นนำคือเหตุการณ์การคำนวณขนาดใหญ่ครั้งเดียว (หรือเป็นระยะ) อนุมาน — การเรียกใช้โมเดลเพื่อตอบคำถามของคุณ สร้างโค้ดของคุณ หรือขับเคลื่อนผลิตภัณฑ์ของคุณ — เกิดขึ้นหลายพันล้านครั้งต่อวัน อนุมานคือที่ที่ต้นทุนการดำเนินการจริงอยู่ และนี่คือที่ที่ซิลิคอนแบบกำหนดเองจ่ายออกมาเร็วที่สุด

Broadcom เป็นพันธมิตรการผลิตที่นี่ ซึ่งสมเหตุสมผล Broadcom มีประสบการณ์ลึกในการออกแบบ ASIC แบบกำหนดเองและทำงานกับ Google ในหน่วย Tensor Processing Units (TPUs) ของมันแล้ว OpenAI โดยพื้นฐานแล้วกำลังติดตามแผนเดียวกัน: ออกแบบชิปที่ปรับให้เหมาะสมสำหรับภาระงานเฉพาะของคุณ ผลิตในระดับ และหยุดจ่ายเบี้ยประกันภัย Nvidia สำหรับความสามารถที่คุณไม่ต้องการ

นี่ไม่ใช่การหันเหออกจาก Nvidia ทั้งหมด OpenAI จะยังคงใช้ฮาร์ดแวร์ Nvidia สำหรับการรันการฝึก และอาจจะสำหรับภาระงานอนุมานบางอย่าง แต่ Jalapeño บ่งชี้ถึงเจตนา — เจตนาเดียวกับที่ Google แสดงด้วย TPUs, Amazon ด้วย Trainium และ Inferentia และ Meta ด้วยชิป MTIA ของมัน ยุคของ GPU monoculture ทั้งหมดกำลังสิ้นสุด และซิลิคอนแบบกำหนดเองกำลังกลายเป็นคุ้มค่าการแข่งขันสำหรับใครก็ตามที่ดำเนินการ AI ในระดับ

ทำไมมันถึงสำคัญสำหรับเอเชีย

ความสัมพันธ์ของเอเชียกับโครงสร้างพื้นฐาน AI นั้นซับซ้อน ในด้านหนึ่ง ภูมิภาคนี้เป็นบ้านของการผลิตเซมิคอนดักเตอร์ที่ซับซ้อนที่สุดในโลก — TSMC ในไต้หวัน Samsung ในเกาหลีใต้ และระบบนิเวศที่หนาแน่นของนักออกแบบชิปและผู้เชี่ยวชาญด้านการบรรจุภัณฑ์ทั่วภูมิภาค ในทางกลับกัน การเข้าถึงการคำนวณ AI ที่ทันสมัยถูกจำกัดโดยการควบคุมการส่งออก ลำดับความสำคัญในการจัดสรรที่ชื่นชอบ hyperscalers ของสหรัฐอเมริกา และต้นทุนดิบ

แนวโน้มชิปแบบกำหนดเองเร่งการแยกตัวที่กำลังดำเนินการอยู่แล้วในเทคโนโลยีเอเชีย ห้องปฏิบัติการ AI ของจีน — Baidu, Alibaba DAMO, HiSilicon ของ Huawei — ได้สร้างซิลิคอน AI แบบกำหนดเองออกจากความจำเป็น ไม่ใช่ทางเลือก เนื่องจากข้อจำกัดการส่งออกของสหรัฐอเมริกาตัดการเข้าถึง GPU Nvidia ระดับสูง การลงทุนที่บังคับนั้นตอนนี้ดูเหมือนจะเป็นการคาดการณ์ล่วงหน้า ชิป Ascend ของ Huawei ไม่ว่าช่องว่างประสิทธิภาพปัจจุบันของพวกเขาเทียบกับ Nvidia เป็นตัวแทนของความรู้สถาบันที่เพิ่มขึ้นเมื่อเวลาผ่านไป

สำหรับผู้ก่อตั้งและนักพัฒนาในเอเชียตะวันออกเฉียงใต้ ผลกระทบนั้นทันทีและปฏิบัติมากขึ้น ต้นทุนอนุมานบนคลาวด์เป็นข้อจำกัดที่แท้จริงสำหรับสตาร์ทอัพที่สร้างผลิตภัณฑ์ที่เป็นเจ้าของ AI ในตลาดที่รายได้เฉลี่ยต่อผู้ใช้ต่ำกว่าในสหรัฐอเมริกาหรือยุโรป หากชิป Jalapeño ของ OpenAI ให้อนุมานที่ถูกกว่าอย่างมีความหมาย — และ ASIC แบบกำหนดเองโดยทั่วไปจะทำเช่นนั้น เพราะพวกเขาขจัดค่าใช้จ่ายของสถาปัตยกรรม GPU วัตถุประสงค์ทั่วไป — การลดต้นทุนนั้นไหลลงมา ราคา API ลดลง ผลิตภัณฑ์ AI ที่มีอัตรากำไรต่ำกว่ากลายเป็นไปได้ ตลาดที่สามารถแก้ไขได้สำหรับแอปพลิเคชันที่ขับเคลื่อนด้วย AI ในเอเชียตะวันออกเฉียงใต้ขยายตัว

นอกจากนี้ยังมีการอ่านเชิงกลยุทธ์ที่นี่สำหรับความทะเยาบายด้าน AI ของเอเชีย ประเทศเช่นสิงคโปร์ ญี่ปุ่น เกาหลีใต้ และอินเดียกำลังลงทุนในโครงสร้างพื้นฐาน AI ระดับชาติ ประกาศ Jalapeño เป็นจุดข้อมูลที่ซิลิคอนแบบกำหนดเองคือเส้นทางที่ผู้เล่น AI ที่จริงจังใช้ รัฐบาลและกองทุนอธิปไตยในภูมิภาคที่ยังคิดแต่เพียงในแง่ของการซื้อคลัสเตอร์ Nvidia ควรดูสิ่งนี้อย่างใกล้ชิด

การเปลี่ยนแปลงที่ลึกกว่านั้นเกี่ยวกับอำนาจ เมื่อบริษัท AI ทุกแห่งทำงานบนฮาร์ดแวร์ Nvidia เดียวกัน Nvidia จึงกำหนดเงื่อนไข เมื่อภูมิทัศน์ชิปหลากหลาย — OpenAI ด้วย Jalapeño, Google ด้วย TPUs, Amazon ด้วย Trainium — อำนาจการเจรจาจึงกระจายตัว นั่นเป็นสิ่งที่ดีสำหรับทุกคนที่ซื้อการคำนวณ รวมถึงนักพัฒนาเอเชียที่ในอดีตเป็นผู้รับราคาในตลาดของผู้ขาย

นี่หมายถึงอะไรสำหรับนักพัฒนา

นักพัฒนาส่วนใหญ่จะไม่โต้ตอบกับ Jalapeño โดยตรง คุณจะไม่จัดสรรอินสแตนซ์ Jalapeño บนคอนโซลคลาวด์ สิ่งที่คุณจะรู้สึกคือผลกระทบที่ตามมา: ความหน่วงการอนุมานที่เร็วขึ้น ต้นทุน API ที่ต่ำกว่า และ — เมื่อเวลาผ่านไป — ความสามารถของโมเดลใหม่ที่เป็นไปได้ทางเศรษฐกิจเท่านั้นเมื่ออนุมานราคาถูกพอ

แต่มีผลกระทบเชิงโครงสร้างที่คุ้มค่าที่จะคิดถึงหากคุณกำลังสร้างผลิตภัณฑ์ที่เป็นเจ้าของ AI

การปรับให้เหมาะสมของอนุมานตอนนี้เป็นข้อกังวลด้านวิศวกรรมชั้นหนึ่ง เมื่อบริษัท AI สร้างซิลิคอนอนุมานแบบกำหนดเอง พวกเขาก็พัฒนาสแต็กซอฟต์แวร์ที่ทำงานบนมันด้วย OpenAI, Google และ Amazon ลงทุนอย่างหนักในการปรับให้เหมาะสมของอนุมาน — การหาปริมาณ การถอดรหัสเชิงสัญชาตญาณ กลยุทธ์การจัดกลุ่ม การจัดการแคช KV นักพัฒนาที่เข้าใจแนวคิดเหล่านี้จะอยู่ในตำแหน่งที่ดีกว่าในการแยกประสิทธิภาพจากโครงสร้างพื้นฐานใด ๆ ที่นั่งอยู่ใต้สแต็กของพวกเขา คุณไม่จำเป็นต้องออกแบบชิป แต่คุณควรเข้าใจว่าเหตุใดความหน่วงการอนุมานจึงแตกต่างกันและวิธีลดให้เหลือน้อยที่สุด

การล็อกอินของผู้ให้บริการโมเดลเป็นความเสี่ยงที่แท้จริง และมันกำลังเปลี่ยนรูปร่าง หากอนุมานของ OpenAI ทำงานบน Jalapeño และของ Google ทำงานบน TPUs โปรไฟล์ประสิทธิภาพและต้นทุนของ API ของพวกเขาจะแตกต่างกันในลักษณะที่ไม่ได้เกี่ยวกับคุณภาพของโมเดลเพียงอย่างเดียว API ที่ถูกกว่า 30% เพราะมันทำงานบนซิลิคอนแบบกำหนดเองเป็นผลิตภัณฑ์ที่แตกต่างจากผลิตภัณฑ์ที่แพงกว่า 30% บนความจุ GPU ที่เช่า สถาปนิกที่สร้างระบบหลายโมเดลต้องคำนึงถึงสิ่งนี้

ชั้นนามธรรมมีความสำคัญมากกว่าที่เคยเป็นมา เมื่อโครงสร้างพื้นฐานหลากหลาย มูลค่าของชั้นนามธรรมที่สะอาดเหนือมันจะเพิ่มขึ้น แพลตฟอร์มที่ให้คุณสลับผู้ให้บริการโมเดล จัดการต้นทุน API ข้ามผู้ให้บริการ และสร้างโดยไม่ติดกับแบ็กเอนดอนุมานเพียงรายเดียวกลายเป็นสิ่งที่มีประโยชน์อย่างแท้จริงแทนที่จะเป็นเพียงสะดวก การสร้างบน MonstarX — แพลตฟอร์มการพัฒนา AI ที่เป็นเจ้าของของเอเชีย — หมายความว่าตรรมชาติของแอปพลิเคชันของคุณไม่จำเป็นต้องสนใจว่าโมเดลที่คุณเรียกใช้ทำงานบน Jalapeño, TPU หรือคลัสเตอร์ H100 การเปลี่ยนแปลงโครงสร้างพื้นฐานเกิดขึ้นใต้โค้ดของคุณ

การสร้างแบบจำลองต้นทุนสำหรับผลิตภัณฑ์ AI ต้องการให้ซับซ้อนมากขึ้น ตอนนี้ ผู้ก่อตั้งจำนวนมากถือว่าต้นทุนอนุมานเป็นอินพุตคงที่ เมื่อซิลิคอนแบบกำหนดเองลดต้นทุนอนุมานสำหรับผู้ให้บริการบางรายในขณะที่คนอื่น ๆ ยังคงอยู่บน GPU วัตถุประสงค์ทั่วไป ภูมิทัศน์ต้นทุนจะกลายเป็นพลวัตมากขึ้น สร้างการตรวจสอบต้นทุนลงในสถาปัตยกรรมของคุณตั้งแต่วันแรก ติดตามต้นทุนต่อโทเค็นหรือต้นทุนต่อคำขอตามผู้ให้บริการและโมเดล สิ่งที่ถูกที่สุดวันนี้อาจไม่ถูกที่สุดในหกเดือน และเดลต้าจะสำคัญในระดับ

สำหรับนักพัฒนาในเอเชียโดยเฉพาะ คำแนะนำเชิงปฏิบัติคือให้ยังคงเป็นอิสระจากผู้ให้บริการในระดับสถาปัตยกรรม คลื่นชิปแบบกำหนดเองจะใช้เวลา 18-36 เดือนเพื่อแสดงให้เห็นอย่างเต็มที่ในราคา API แต่บริษัทที่สร้างความยืดหยุ่นตอนนี้จะสามารถจำกัด