OpenAI-யின் Jalapeño சிப்: பெரிய தொழில்நுட்ப நிறுவனங்களின் Nvidia-விலிருந்து மிகவும்담대한நகர்வு

OpenAI சமீபத்தில் Jalapeño-ஐ வெளிப்படுத்தியது — Broadcom-உடன் கூட்டாக உருவாக்கப்பட்ட ஒரு தனிப்பயன் inference சிப் — மற்றும் இது AI தொழிலின் ஒரு ஒற்றை சிலிகான் சப்ளையரின் மீது சார்பு விரிசல் ஆகிறது என்பதற்கான தெளிவான சமிக்ஞை.

Share
Editorial illustration: A high-performance microchip positioned at the edge of a table or precipice, with dramatic side-ligh — MonstarX

OpenAI-யின் Jalapeño சிப்: பெரிய தொழில்நுட்ப நிறுவனங்களின் Nvidia-விலிருந்து மிகவும்담대한நகர்வு

OpenAI சமீபத்தில் Jalapeño-ஐ வெளிப்படுத்தியது — Broadcom-உடன் கூட்டாக உருவாக்கப்பட்ட ஒரு தனிப்பயன் inference சிப் — மற்றும் இது AI தொழிலின் ஒரு ஒற்றை சிலிகான் சப்ளையரின் மீது சார்பு விரிசல் ஆகிறது என்பதற்கான தெளிவான சமிக்ஞை. OpenAI-யின் Jalapeño சிப் Nvidia-விலிருந்து பெரிய தொழில்நுட்ப நிறுவனங்களின் மிகவும்담대한நகர்வு ஆகும், மேலும் இது Google, Apple, மற்றும் SpaceX உட்பட வளர்ந்து வரும் பட்டியலில் சேர்ந்துள்ளது. ஆசியா முழுவதும் உள்ள டெவலப்பர்கள் மற்றும் நிறுவனர்களுக்கு, இது வெறுமனே சப்ளை-சங்கிலி கதை அல்ல. இது AI உள்கட்டமைப்பின் செலவு, வேகம் மற்றும் அணுகல்தன்மையை யார் கட்டுப்படுத்துகிறார்கள் என்பதற்கான ஒரு அடிப்படை மறுசீரமைப்பு — மற்றும் இது நீங்கள் எவ்வாறு உருவாக்குகிறீர்கள் என்பதற்கு நேரடி விளைவுகளைக் கொண்டுள்ளது.

என்ன நடந்தது

Nvidia பல ஆண்டுகளாக AI சிப் சந்தையில் আধிபத்யம் செலுத்தி வருகிறது. அதன் H100 மற்றும் இப்போது B200 GPU-க்கள் பெரிய மொழி மாதிரிகளைப் பயிற்றுவிப்பதற்கும் இயக்குவதற்கும் இயல்புநிலை கணக்கீட்டு அடிப்படையாக மாறிவிட்டன, மேலும் அந்த ஆதிக்கம் நிறுவனத்திற்கு அসாதாரண விலை நির்ধারণ சக்தியைக் கொடுத்தது. காத்திருப்புப் பட்டியல்கள் மாதங்களுக்கு நீண்டுவிட்டன. செலவுகள் வெடித்துவிட்டன. முழு நிதி சுற்றுகளும் GPU அணுகல் பெறுவதற்கு மூலதனம் செய்யப்பட்டன.

OpenAI-யின் Jalapeño சிப் அந்த கணக்கீட்டை மாற்றுகிறது — குறைந்தபட்சம் OpenAI-க்கு. TechCrunch-இன் Equity podcast-ன் படி, Jalapeño ஒரு தனிப்பயன் inference சிப் ஆகும், பயிற்சி சிப் அல்ல. அந்த வேறுபாடு மிகவும் முக்கியமானது. ஒரு frontier மாதிரியைப் பயிற்றுவிப்பது ஒரு முறை (அல்லது குறிப்பிட்ட) பெரிய கணக்கீட்டு நிகழ்வு. Inference — உங்கள் கேள்விக்கு பதிலளிக்க, உங்கள் குறியீட்டை உருவாக்க, அல்லது உங்கள் தயாரிப்பை சக்தி வாய்ந்த மாதிரியை இயக்குவது — ஒரு நாளில் பில்லியன் முறை நிகழ்கிறது. Inference என்பது உண்மையான இயக்க செலவு வாழும் இடம், மேலும் இது தனிப்பயன் சிலிகான் வேகமாக பணம் செலுத்தும் இடம்.

Broadcom இங்கே உற்பादன பங்குதாரி ஆகும், இது அর্থপূর்ணமாக உள்ளது. Broadcom-க்கு தனிப்பயன் ASIC வடிவமைப்பে ஆழமான அভিজ்ஞதை உள்ளது மற்றும் ஏற்கனவே Google-உடன் அதன் Tensor Processing Units (TPU)-களில் வேலை செய்கிறது. OpenAI அடிப்படையில் அதே playbook-ஐ பின்பற்றுகிறது: உங்கள் குறிப்பிட்ட workload-க்கு অনুকூலமான ஒரு சிப்பை வடிவமைக்கவும், அதை அளவில் உற்பादிக்கவும், மற்றும் நீங்கள் தேவை இல்லாத திறன்களுக்கு Nvidia premium-ஐ செலுத்துவதை நிறுத்தவும்.

இது Nvidia-விலிருந்து முழுவதுமாக ஒரு pivot அல்ல. OpenAI பயிற்சி இயக்கங்களுக்கு மற்றும் சில inference workload-களுக்கு Nvidia hardware-ஐ பயன்படுத்தும். ஆனால் Jalapeño நோக்கத்தைக் குறிக்கிறது — Google TPU-களுடன் காட்டிய அதே நோக்கம், Amazon Trainium மற்றும் Inferentia-உடன், மற்றும் Meta அதன் MTIA சிப்-உடன். மொத்த GPU monoculture-இன் যুகம் முடிவடைகிறது, மற்றும் தனிப்பயன் சிலிகான் AI-ஐ அளவில் இயக்குபவர்களுக்கான போட்டி moat ஆக மாறுகிறது.

ஆசியாவுக்கு இது ஏன் முக்கியமானது

AI உள்கட்டமைப்புடன் ஆசியாவின் உறவு சிக்கலானது. ஒருபுறம், இந்த பிராந்தியம் உலகின் மிகவும் sophisticated semiconductor உற்பादனத்திற்கு வீடு — Taiwan-இல் TSMC, South Korea-இல் Samsung, மற்றும் பிராந்தியம் முழுவதும் சிப் வடிவமைப்பாளர்கள் மற்றும் packaging specialists-களின் ஒரு dense ecosystem. மறுபுறம், cutting-edge AI compute-க்கான அணுகல் ஏற்றுமதி கட்டுப்பாடுகள், US hyperscalers-களுக்கு சாதகமான allocation முன்னுரிமைகள், மற்றும் raw செலவு மூலம் கட்டுப்படுத்தப்பட்டுள்ளது.

தனிப்பயன் சிப் போக்கு ஆசியா தொழில்நுட்பத்தில் ஏற்கனவே நடந்து வரும் ஒரு bifurcation-ஐ முடுக்கிவிடுகிறது. சீன AI labs — Baidu, Alibaba DAMO, Huawei-யின் HiSilicon — தேர்வு அல்ல, தேவை மூலம் தனிப்பயன் AI சிலிகான் உருவாக்கி வருகின்றன, US ஏற்றுமதி கட்டுப்பாடுகள் high-end Nvidia GPU-க்களுக்கான அணுகல் வெட்டிவிட்டதால். அந்த forced investment இப்போது prescient தோற்றமளிக்கிறது. Huawei-யின் Ascend சிப்கள், Nvidia-க்கு எதுவாக அவற்றின் current performance gap, நிறுவன ஞானத்தைக் குறிக்கிறது இது காலப்போக்கில் கூட்டுகிறது.

Southeast Asian நிறுவனர்கள் மற்றும் டெவலப்பர்களுக்கு, தாக்கங்கள் மிகவும் உடனடி மற்றும் நடைமுறை. Cloud inference செலவுகள் AI-native தயாரிப்புகளை உருவாக்கும் startups-களுக்கு ஒரு உண்மையான கட்டுப்பாடு ஆகும் அங்கு சராசரி revenue per user US அல்லது Europe-ஐ விட குறைவு. OpenAI-யின் Jalapeño சிப் meaningfully மலிவான inference வழங்கினால் — மற்றும் தனிப்பயன் ASIC-கள பொதுவாக செய்கின்றன, ஏனெனில் அவை general-purpose GPU architecture-இன் overhead-ஐ நீக்குகின்றன — அந்த செலவு হ্রাস downstream-ஐ பாய়ে যায். API விலை நிர்ধারণ drops. Thinner-margin AI தயாரிப்புகள் viable ஆக மாறுகின்றன. Southeast Asia-இல் AI-powered applications-களுக்கான addressable சந்தை விரிவடைகிறது.

ஆசியாவின் sovereign AI ambitions-களுக்கான ஒரு strategic reading-ও உள்ளது. Singapore, Japan, South Korea, மற்றும் India போன்ற நாடுகள் அனைத்தும் national AI infrastructure-ல் முதலீடு செய்து வருகின்றன. Jalapeño announcement என்பது தனிப்பயன் சிலிகான் serious AI players-கள் எடுக்கும் பாதை என்பதற்கான ஒரு data point. பிராந்தியத்தில் Governments மற்றும் sovereign wealth funds-கள் இன்னும் Nvidia clusters-களை வாங்குவதற்கு பற்றி சிந்திக்கும் இவர்கள் இதை நெருக்கமாக பார்க்க வேண்டும்.

ஆழமான shift leverage பற்றி. ஒவ்வொரு AI நிறுவனமும் அதே Nvidia hardware-ல் இயங்கும் போது, Nvidia விதிமுறைகளை அமைக்கிறது. சிப் landscape-ஆ diversify ஆகும் போது — OpenAI Jalapeño-உடன், Google TPU-களுடன், Amazon Trainium-உடன் — negotiating சக்தி distribute ஆகிறது. அது compute-ஐ வாங்குபவர்கள் அனைவருக்கும் நல்லது, ஐতিহাসিকভাবে ஒரு seller-இன் சந்தையில் price-takers ஆக இருந்த Asian டெவலப்பர்கள் உட்பட.

டெவலப்பர்களுக்கு இது என்ன அர்த்தம்

பெரும்பாலான டெவலப்பர்கள் Jalapeño-உடன் நேரடியாக தொடர்பு கொள்ள மாட்டார்கள். நீங்கள் ஒரு cloud console-ல் Jalapeño instance-ஐ provision செய்ய மாட்டீர்கள். நீங்கள் உணர்வது downstream effect: வேகமான inference latency, குறைந்த API செலவுகள், மற்றும் — காலப்போக்கில் — புதிய model திறன்கள் இது inference போதுமான மலிவு ஆகும் போது மட்டுமே பொருளாதாரவியல் சாத்தியமாக ஆகிறது.

ஆனால் AI-native தயாரிப்புகளை உருவாக்கினால் நீங்கள் சிந்திக்க வேண்டிய மிகவும் structural தாக்கங்கள் உள்ளன.

Inference optimization இப்போது ஒரு first-class engineering concern. AI நிறுவனங்கள் தனிப்பயன் inference சிலிகான் உருவாக்கும் போது, அவை அதன் மீது இயக்கும் software stacks-ஐ உருவாக்கி வருகின்றன. OpenAI, Google, மற்றும் Amazon அனைத்தும் inference optimization-ல் பெரிதாக முதலீடு செய்து வருகின்றன — quantization, speculative decoding, batching strategies, KV cache management. இந்த concepts-ஐ புரிந்துகொள்ளும் டெவலப்பர்கள் அவற்றின் stack-க்கு கீழ் இருக்கும் எந்த உள்கட்டமைப்பிலிருந்தும் performance-ஐ பிரித்தெடுக்க சிறந்த நிலையில் இருப்பார்கள். நீங்கள் சிப்களை வடிவமைக்க வேண்டிய இல்லை, ஆனால் inference latency ஏன் மாறுபடுகிறது மற்றும் அதை எவ்வாறு minimize செய்வது என்பதை புரிந்துகொள்ள வேண்டும்.

Model-provider lock-in ஒரு உண்மையான ஆபத்து, மற்றும் இது வடிவம் மாற்றுகிறது. OpenAI-யின் inference Jalapeño-ல் இயங்கினால் மற்றும் Google-இன் TPU-களில் இயங்கினால், அவற்றின் API-களின் performance மற்றும் செலவு profiles-கள் model quality பற்றி மட்டுமல்ல வழிகளில் diverge ஆகும். ஒரு API இது 30% மலிவு ஆகும் ஏனெனில் இது தனிப்பயன் சிலிகான்-ல் இயங்கும் என்பது rented GPU capacity-ல் 30% மிகவும் விலையுயர்ந்த ஒன்றை விட ஒரு வேறு தயாரிப்பு. Multi-model systems-ஐ உருவாக்கும் Architects-கள் இதற்கு account செய்ய வேண்டும்.

Abstraction layer இப்போது எப்போதும் விட மிகவும் முக்கியமானது. உள்கட்டமைப்பு diversify ஆகும் போது, அதற்கு மேலே ஒரு clean abstraction layer-இன் மதிப்பு அதிகரிக்கிறது. Platforms இது உங்களை model providers-ஐ swap செய்ய, providers-ல் API செலவுகளை manage செய்ய, மற்றும் ஒரு ஒற்றை inference backend-க்கு welded இல்லாமல் உருவாக்க அனுமதிக்கிறது genuinely பயனுள்ள ஆக மாறுகிறது வெறுமனே convenient-க்கு பதிலாக. MonstarX-ல் உருவாக்குவது — ஆசியாவின் AI-native development platform — உங்கள் application logic-க்கு நீங்கள் அழைக்கும் model Jalapeño-ல் இயங்கினால், ஒரு TPU-ல், அல்லது ஒரு H100 cluster-ல் care செய்ய வேண்டிய இல்லை. உள்கட்டமைப்பு churn உங்கள் code-க்கு கீழ் நிகழ்கிறது.

AI தயாரிப்புகளுக்கான Cost modeling மிகவும் sophisticated ஆக வேண்டும். இப்போது, பல நிறுவனர்கள் inference செலவை ஒரு fixed input-ஆக treat செய்கிறார்கள். தனிப்பயன் சிலிகான் சில providers-களுக்கு inference செலவுகளை drive down செய்கிறது மற்றும் மற்றவர்கள் general-purpose GPU-களில் இருக்கிறார்கள், செலவு landscape மிகவும் dynamic ஆக ஆகும். day one-ல் உங்கள் architecture-ல் cost monitoring-ஐ build செய்யுங்கள். cost-per-token அல்லது cost-per-request-ஐ provider மற்றும் model-ல் track செய்யுங்கள். இன்று மலிவு ஆக இருப்பது ஆறு மாதங்களில் மலிவு இல்லாமல் இருக்கலாம், மற்றும் delta scale-ல் முக்கியமாக ஆகும்.

ஆசியாவில் டெவலப்பர்களுக்கு குறிப்பாக, நடைமுறை advice architecture level-ல் provider-agnostic ஆக இருக்க வேண்டும். தனிப்பயன் சிப் wave முழுவதுமாக API விலை நிர்ধারணে manifest ஆக 18-36 மாதங்கள் எடுக்கும், ஆனால் இப்போது flexibility-ஐ உருவாக்கும் நிறுவனங்கள் cap செய்ய முடியும்