Thinking Machines ต้องการสร้าง AI ที่จริงจังในการฟังขณะที่พูด

สตาร์ทอัพใหม่ของ Mira Murati เพิ่งเปิดตัวการแสดงตัวอย่างการวิจัยที่อาจเปลี่ยนแปลงวิธีที่นักพัฒนาโต้ตอบกับโมเดล AI Thinking Machines Lab ประกาศแบบจำลองการโต้ตอบ — AI ที่ประมวลผลอินพุตของคุณพร้อมกับการสร้างการตอบสนองในเวลาเดียวกัน

Share
Editorial illustration: A close-up of a telephone handset or headset with the earpiece and mouthpiece positioned symmetrical — MonstarX

Thinking Machines ต้องการสร้าง AI ที่จริงจังในการฟังขณะที่พูด

Thinking Machines ต้องการสร้าง AI ที่จริงจังในการฟังขณะที่พูด

สตาร์ทอัพใหม่ของ Mira Murati เพิ่งเปิดตัวการแสดงตัวอย่างการวิจัยที่อาจเปลี่ยนแปลงวิธีที่นักพัฒนาโต้ตอบกับโมเดล AI Thinking Machines Lab ประกาศ แบบจำลองการโต้ตอบ — AI ที่ประมวลผลอินพุตของคุณพร้อมกับการสร้างการตอบสนองในเวลาเดียวกัน ซึ่งขจัดการสลับตัวที่อึดอัดซึ่งกำหนดเครื่องมือพัฒนา AI ทุกตัวที่คุณใช้มาจนถึงตอนนี้ สำหรับนักพัฒนาในเอเชียที่สร้างแอปพลิเคชันแบบเรียลไทม์ การเปลี่ยนแปลงจากการประมวลผลแบบลำดับไปเป็นแบบพร้อมกันนั้นแสดงถึงมากกว่าการอัปเกรดทางเทคนิค มันเป็นการคิดใหม่อย่างพื้นฐานว่า แพลตฟอร์มพัฒนา AI-native ควรทำงานอย่างไร

เครื่องมือพัฒนา AI คืออะไร

เครื่องมือพัฒนา AI เป็นแพลตฟอร์ม เฟรมเวิร์ก และ API ที่ให้นักพัฒนาสามารถรวมความสามารถของแมชชีนเลิร์นนิงเข้าไปในแอปพลิเคชันโดยไม่ต้องสร้างโมเดลตั้งแต่เริ่มต้น ตั้งแต่ผู้ช่วยเสร็จสิ้นโค้ดเช่น GitHub Copilot ไปจนถึงแพลตฟอร์มแบบเต็มสแต็กที่จัดการทุกอย่างตั้งแต่การประมวลผลข้อมูลล่วงหน้าไปจนถึงการปรับใช้ ตลาดเอเชียได้เห็นการเติบโตอย่างรวดเร็วในหมวดหมู่นี้ โดยมีแพลตฟอร์มท้องถิ่นเกิดขึ้นเพื่อให้บริการแก่นักพัฒนาที่ต้องการโครงสร้างพื้นฐานที่มีเวลาแฝงต่ำและเฉพาะภูมิภาค

เครื่องมือพัฒนา AI แบบดั้งเดิมทำงานบนรอบการร้องขอ-การตอบสนอง คุณส่งพรอมต์ โมเดลประมวลผลอย่างสมบูรณ์ จากนั้นจึงสตรีมการตอบสนองกลับมา สถาปัตยกรรมนี้ใช้ได้กับหลายกรณีการใช้งาน แต่จะพังเมื่อคุณต้องการการโต้ตอบที่แท้จริง — ลองนึกถึงผู้ช่วยเสียงที่ไม่สามารถจัดการการขัดจังหวะได้ หรือแชตบอทที่บังคับให้คุณรอจนกว่าการตอบสนองทั้งหมดจะเสร็จสิ้นก่อนที่จะแก้ไขความเข้าใจผิด ข้อจำกัดทางเทคนิคไม่ใช่ความเร็วในการประมวลผล มันคือการออกแบบพื้นฐานที่ถือว่าการสนทนาเป็นชุดของธุรกรรมแยกต่างหากแทนที่จะเป็นการแลกเปลี่ยนอย่างต่อเนื่อง

วิธีการของ Thinking Machines Lab ท้าทายกระบวนทัศน์นี้ โมเดล TML-Interaction-Small ของพวกเขาบรรลุเวลาการตอบสนอง 0.40 วินาทีโดยประมวลผลอินพุตและสร้างเอาต์พุตพร้อมกัน — สิ่งที่วิศวกรเรียกว่า "full duplex" communication ตามที่ ประกาศบน TechCrunch นี้ตรงกับความเร็วการสนทนาของมนุษย์ธรรมชาติและมีประสิทธิภาพเหนือกว่าโมเดลที่เทียบเคียงได้จาก OpenAI และ Google ผลกระทบขยายออกไปนอกเหนือจากอินเทอร์เฟซเสียง แอปพลิเคชันใด ๆ ที่ต้องการข้อเสนอแนะ AI แบบเรียลไทม์ — สภาพแวดล้อมการเขียนโค้ดแบบร่วมมือ บริการแปลสดใจ เครื่องมือการแก้จุดบกพร่องแบบโต้ตอบ — อาจได้รับประโยชน์จากการเปลี่ยนแปลงสถาปัตยกรรมนี้

สำหรับนักพัฒนาในเอเชีย ซึ่งแอปพลิเคชันที่มุ่งเน้นบนมือถือมีอิทธิพลเหนือกว่าและสภาพเครือข่ายแตกต่างกันอย่างกว้างขวาง เวลาแฝงของการตอบสนองส่งผลโดยตรงต่อประสบการณ์ผู้ใช้ โมเดลที่สามารถเริ่มตอบสนองก่อนที่คุณจะพูดเสร็จจะลดความล่าช้าที่รับรู้ได้ ทำให้ปฏิสัมพันธ์ AI รู้สึกเหมือนการรอการตอบสนองจากเซิร์ฟเวอร์น้อยลงและเหมือนการพูดคุยกับเพื่อนร่วมงานมากขึ้น ความท้าทายคือการแสดงตัวอย่างการวิจัยนี้ยังไม่พร้อมใช้งานต่อสาธารณะ Thinking Machines Lab สัญญาว่าจะมีการแสดงตัวอย่างการวิจัยที่จำกัดในเดือนข้างหน้า พร้อมกับการเปิดตัวที่กว้างขึ้นในภายหลังในปีนี้ จนกว่าจะถึงเวลานั้น นักพัฒนาต้องการเครื่องมือที่ใช้ได้วันนี้

เครื่องมือพัฒนา AI ยอดนิยมสำหรับนักพัฒนาในเอเชียในปี 2026

ระบบนิเวศของนักพัฒนาในเอเชียมีข้อกำหนดเฉพาะที่แพลตฟอร์มทั่วโลกไม่ได้จัดการเสมอไป กฎระเบียบเรื่องการอยู่อาศัยของข้อมูลในประเทศเช่นสิงคโปร์และอินโดนีเซียต้องใช้การโฮสต์ในท้องถิ่น การสนับสนุนภาษาขยายไปนอกเหนือจากภาษาอังกฤษไปยังภาษาจีน ญี่ปุ่น เกาหลี บาฮาซา และภาษาท้องถิ่นหลายสิบภาษา โครงสร้างพื้นฐานการชำระเงินต้องจัดการทุกอย่างตั้งแต่บัตรเครดิตไปจนถึง GrabPay ไปจนถึง Alipay นี่คือสิ่งที่ใช้ได้จริงสำหรับนักพัฒนาที่สร้างในเอเชียตอนนี้

OpenAI API ยังคงเป็นมาตรฐานทองคำสำหรับความสามารถ AI ทั่วไป แต่เวลาแฝงจากเซิร์ฟเวอร์ที่ตั้งอยู่ในสหรัฐอเมริกาสามารถถึง 200-300ms สำหรับนักพัฒนาในเอเชียตะวันออกเฉียงใต้ รูปแบบการกำหนดราคา — $0.002 ต่อโทเค็น 1K สำหรับ GPT-4o mini — สมเหตุสมผลสำหรับตลาดตะวันตก แต่มีผลกระทบต่างกันเมื่อผู้ใช้เป้าหมายของคุณมีรายได้ $500-1000 ต่อเดือน อย่างไรก็ตาม คุณภาพของโมเดลและเอกสารที่ครอบคลุมทำให้เป็นตัวเลือกเริ่มต้นสำหรับการสร้างต้นแบบ

Anthropic Claude นำเสนอประสิทธิภาพที่เหนือกว่าในงานการให้เหตุผลที่ซับซ้อนและหน้าต่างบริบทที่ยาวขึ้น (โทเค็น 200K) ทำให้เหมาะสำหรับแอปพลิเคชันที่ต้องประมวลผลโค้ดเบสทั้งหมดหรือเอกสารยาว การเปิดตัวในเอเชีย-แปซิฟิกช้ากว่า OpenAI แต่ความพร้อมใช้งานกำลังปรับปรุง นักพัฒนาในสิงคโปร์และโตเกียวรายงานเวลาแฝงที่ยอมรับได้ ในขณะที่ผู้ที่อยู่ในจาการ์ตาหรือมะนิลายังคงเห็นการหมดเวลาเป็นครั้งคราว

Alibaba Cloud Tongyi Qianwen ครอบงำในจีนและกำลังขยายตัวไปทั่วเอเชียตะวันออกเฉียงใต้ด้วยศูนย์ข้อมูลท้องถิ่นในสิงคโปร์ มาเลเซีย และอินโดนีเซีย ประสิทธิภาพภาษาจีนเกินโมเดลตะวันตกอย่างมีนัยสำคัญ ราคาวิ่งประมาณ 30% ต่ำกว่า OpenAI สำหรับงานที่เทียบเคียงได้ การแลกเปลี่ยนคือเอกสารส่วนใหญ่เป็นภาษาจีนและเครื่องมือนักพัฒนาที่ยังไม่บอกเป็นเทียบกับแพลตฟอร์มสหรัฐอเมริกา

Google Gemini นำเสนอความสามารถแบบมัลติโมดัลและการรวมที่แน่นหนากับโครงสร้างพื้นฐาน Google Cloud ชั้นฟรีนั้นใจกว้าง — 1500 คำขอต่อวันสำหรับ Gemini 1.5 Flash — ทำให้น่าสนใจสำหรับสตาร์ทอัพระยะเริ่มต้น นักพัฒนาในเอเชียรายงานเวลาแฝงที่ดีกว่า OpenAI จากศูนย์ข้อมูลภูมิภาคของ Google แม้ว่าประสิทธิภาพของโมเดลจะล้าหลังเล็กน้อยเมื่อเทียบกับ GPT-4 ในงานการสร้างโค้ด

สิ่งที่ขาดหายไปจากภูมิทัศน์นี้คือแพลตฟอร์มที่สร้างขึ้นโดยเฉพาะสำหรับวิธีการทำงานของนักพัฒนาในเอเชีย ทีมส่วนใหญ่ไม่ได้เลือกระหว่าง OpenAI และ Anthropic โดยยึดตามคะแนนเกณฑ์มาตรฐาน พวกเขากำลังถาม: ฉันสามารถปรับใช้สิ่งนี้ในจาการ์ตาได้หรือไม่ มันจะทำงานกับสแต็ก Node.js ที่มีอยู่ของฉันหรือไม่ ฉันสามารถจ่ายได้หรือไม่เมื่อฉันถึง 10,000 ผู้ใช้ คำถามเชิงปฏิบัติเหล่านี้มีความสำคัญมากกว่าความสามารถของโมเดลทางทฤษฎี

วิธีเลือกเครื่องมือพัฒนา AI ที่เหมาะสมสำหรับสแต็กของคุณ

การเลือกเครื่องมือพัฒนา AI เริ่มต้นด้วยการทำความเข้าใจข้อกำหนดจริงของคุณ ไม่ใช่การไล่ตามการเปิดตัวโมเดลล่าสุด เริ่มต้นด้วยข้อจำกัดเวลาแฝง หากคุณกำลังสร้างแอปพลิเคชันเสียงแบบเรียลไทม์ คุณต้องการเวลาตอบสนองแบบ end-to-end ต่ำกว่า 500ms นี่จะลดตัวเลือกของคุณทันทีให้เหลือเพียงผู้ให้บริการที่มีโครงสร้างพื้นฐานภูมิภาค ตรวจสอบว่าเซิร์ฟเวอร์ของพวกเขาทำงานจริงที่ไหน — "Asia-Pacific" อาจหมายถึงซิดนีย์ (ดีสำหรับออสเตรเลีย แบสำหรับเวียดนาม) หรือสิงคโปร์ (ดีสำหรับเอเชียตะวันออกเฉียงใต้ส่วนใหญ่)

การสร้างแบบจำลองต้นทุนมาต่อไป แพลตฟอร์มส่วนใหญ่เรียกเก็บต่อโทเค็น แต่การนับโทเค็นแตกต่างกันไปตามผู้ให้บริการ บทความ 1000 คำอาจเป็น 750 โทเค็นใน GPT-4 และ 850 โทเค็นใน Claude คูณปริมาณคำขอรายเดือนที่คาดไว้ของคุณด้วยการกำหนดราคาต่อโทเค็น จากนั้นเพิ่ม 30% สำหรับค่าใช้จ่ายและการใช้งานที่ไม่คาดคิด หากตัวเลขนั้นเกินงบประมาณโครงสร้างพื้นฐานของคุณ คุณต้องการวิธีการที่แตกต่าง พิจารณาสถาปัตยกรรมไฮบริดที่ใช้โมเดลที่เล็กกว่าสำหรับการค้นหาอย่างง่ายและสงวนโมเดลที่มีราคาแพงสำหรับงานการให้เหตุผลที่ซับซ้อน

การสนับสนุนภาษามีความสำคัญมากกว่าที่นักพัฒนาส่วนใหญ่ตระหนัก โมเดลที่มุ่งเน้นภาษาอังกฤษมีปัญหากับความเห็นโค้ดในภาษาไทย ข้อความแสดงข้อผิดพลาดในภาษาอินโดนีเซีย หรือการค้นหาของผู้ใช้ที่ผสม Singlish กับคำศัพท์ทางเทคนิค ทดสอบแพลตฟอร์มที่คุณเลือกด้วยอินพุตผู้ใช้จริงในภาษาเป้าหมายของคุณก่อนที่จะยอมรับ ความแตกต่างระหว่าง "supports Chinese" และ "performs well on Chinese technical documentation" นั้นมีนัยสำคัญ

ความซับซ้อนของการรวมกำหนดว่าจะเร็วแค่ไหน