Dalam kajian Harvard, AI memberikan diagnosis bilik kecemasan yang lebih tepat daripada dua doktor manusia
Sebuah kajian Sekolah Perubatan Harvard menunjukkan model o1 OpenAI mengatasi prestasi dua doktor pakar dalam mendiagnosis 76 kes bilik kecemasan sebenar. Penyelidikan ini menandakan peralihan daripada penanda aras teori kepada data klinikal sebenar, membangkitkan soalan…
Dalam kajian Harvard, AI memberikan diagnosis bilik kecemasan yang lebih tepat daripada dua doktor manusia
Sebuah kajian Sekolah Perubatan Harvard yang diterbitkan minggu ini dalam Science menunjukkan model o1 OpenAI mengatasi prestasi dua doktor pakar perubatan dalaman dalam mendiagnosis 76 kes bilik kecemasan sebenar. Penyelidikan ini menandakan peralihan daripada penanda aras teori kepada data klinikal sebenar — dan membangkitkan soalan mendesak tentang bagaimana pembangun yang membina alat pembangunan AI Asia harus memikirkan tentang ketepatan model, ketelusan, dan penempatan dalam persekitaran berisiko tinggi. Bagi pembangun Asia yang menghantar platform penjagaan kesihatan, fintech, atau logistik berkuasa AI, implikasinya adalah segera: bar untuk "cukup baik" baru sahaja bergerak.
Apa yang Sebenarnya Diukur oleh Kajian Harvard
Penyelidik di Sekolah Perubatan Harvard dan Pusat Perubatan Beth Israel Deaconess menjalankan model o1 dan 4o OpenAI melalui satu siri ujian klinikal. Hasil utama: dalam satu set 76 kes bilik kecemasan, o1 mencapai ketepatan diagnosis yang lebih tinggi daripada dua doktor pakar perubatan dalaman. Kajian ini tidak hanya bergantung pada senario buku teks — ini adalah pesakit sebenar, dengan maklumat tidak lengkap, tekanan masa, dan semua kerumitan amalan klinikal sebenar.
Penyelidik mengukur prestasi merentasi pelbagai dimensi: ketepatan diagnosis, ketelusan penalaran, dan keupayaan menangani data yang samar atau bercanggah. Apa yang menonjol ialah kelebihan o1 bukanlah marginal. Model ini secara konsisten mengenal pasti diagnosis yang betul dalam kes di mana doktor manusia terlepas isyarat kritikal atau berlabuh terlalu awal pada satu hipotesis. Ini bukan tentang menggantikan doktor — kajian ini membingkai AI sebagai alat sokongan keputusan — tetapi ia menunjukkan bahawa model bahasa besar telah melepasi ambang dalam tugas penalaran dunia sebenar.
Bagi pembangun, pengambilan teknikal adalah jelas: model yang dilatih pada korpus data berstruktur dan tidak berstruktur yang luas kini dapat memadankan atau melampaui prestasi pakar manusia dalam domain sempit dan kompleks tinggi. Cabaran bukan sama ada AI boleh mendiagnosis — ia adalah bagaimana membina sistem yang mempersembahkan cadangan AI dengan cara yang boleh dipercayai dan diambil tindakan oleh ahli klinikal (atau pengguna akhir dalam mana-mana domain).
Mengapa Ini Penting bagi Pembangun Asia yang Membina Produk AI
Ekosistem pembangun Asia berada dalam kedudukan unik untuk memanfaatkan peralihan ini. Rantau ini menghadapi kekurangan akut profesional perubatan — WHO menganggarkan Asia Tenggara memerlukan 4.5 juta lagi pekerja penjagaan kesihatan menjelang 2030. Alat diagnostik berkuasa AI bukan kemewahan; ia adalah infrastruktur. Tetapi logik yang sama berlaku untuk teknologi undang-undang, nasihat kewangan, sokongan pelanggan, dan pengoptimuman logistik. Mana-mana domain di mana pertimbangan pakar adalah terhad dan mahal menjadi calon untuk peningkatan AI.
Kajian Harvard menawarkan cetak biru tentang cara mengesahkan sistem AI dalam persekitaran berisiko tinggi. Pembangun yang menghantar ciri AI tidak boleh bergantung pada penanda aras sintetik sahaja. Anda memerlukan kes ujian dunia sebenar, garis dasar pakar manusia, dan pelaporan telus tentang di mana model gagal. Ini amat penting di Asia, di mana rangka kerja kawal selia untuk AI masih berkembang. Rangka Kerja Tadbir Urus Model AI Singapura dan Akta Perlindungan Data Peribadi Thailand menetapkan nada, tetapi penguatkuasaan tidak sekata. Pembangun yang membina saluran pengesahan yang teguh sekarang akan mempunyai kelebihan kompetitif apabila peraturan menjadi lebih ketat.
Dari sudut pandangan produk, kajian ini juga menyoroti kepentingan kebolehjelasan. Model o1 tidak hanya mengeluarkan diagnosis — ia memberikan rantai penalaran yang boleh dinilai oleh ahli klinikal. Bagi pembangun yang bekerja dengan MonstarX atau platform serupa, ini bermakna merancang antara muka yang mendedahkan logik model, bukan hanya ramalan akhir. Pengguna perlu melihat mengapa AI membuat cadangan sebelum mereka akan mempercayainya dalam pengeluaran.
Seni Bina Teknikal di Sebalik Sistem AI Ketepatan Tinggi
Membina sistem AI yang berprestasi pada tahap yang diterangkan dalam kajian Harvard memerlukan lebih daripada akses kepada API model bahasa besar. Seni binanya penting. Penempatan yang berjaya menggabungkan pelbagai komponen: saluran data yang membersihkan dan menormalkan input, sistem penjanaan yang diperkaya pencarian (RAG) yang mendasarkan output model dalam pangkalan pengetahuan khusus domain, dan gelung maklum balas yang menangkap pembetulan pengguna dan melatih semula model secara berulang.
Bagi pembangun Asia, latensi dan kos adalah kekangan tambahan. Melayani model o1 OpenAI secara masa nyata untuk setiap pertanyaan pengguna tidak berdaya maju dari segi ekonomi bagi kebanyakan syarikat permulaan. Penyelesaiannya ialah seni bina hibrid: gunakan model yang lebih kecil dan lebih cepat untuk triase awal, tingkatkan kepada model yang lebih besar hanya apabila skor keyakinan jatuh di bawah ambang, dan cache pertanyaan biasa secara agresif. Di sinilah platform seperti penyambung menjadi penting — ia mengabstrakkan kerumitan perutean permintaan merentasi pelbagai penyedia model dan menguruskan logik fallback.
Satu lagi pelajaran daripada kajian: kejuruteraan cepat tidak mencukupi. Penyelidik tidak hanya memberi data pesakit mentah ke dalam model. Mereka menstruktur input sebagai persembahan kes separa formal, meniru cara doktor berkomunikasi semasa penyerahan. Bagi pembangun, ini bermakna melabur dalam praproses input — menukar data dunia sebenar yang berantakan ke dalam format yang memaksimalkan prestasi model. Dalam praktik, ini sering melibatkan penghurai khusus domain, saluran pengekstrakan entiti, dan lapisan pengesahan yang menangkap input yang salah bentuk sebelum ia mencapai model.
Pertimbangan Kawal Selia dan Etika untuk AI dalam Domain Berisiko Tinggi
Kajian Harvard akan mempercepatkan penelitian kawal selia terhadap AI dalam penjagaan kesihatan — dan secara lanjutan, mana-mana domain di mana ralat membawa akibat yang ketara. Di EU, Akta AI mengklasifikasikan AI perubatan sebagai "berisiko tinggi," memerlukan penilaian kesesuaian sebelum penempatan. Landskap kawal selia Asia lebih berpecah-belah, tetapi arahnya jelas: kerajaan mahukan ketelusan, kebolehaudit, dan akauntabiliti.
Bagi pembangun, ini bermakna membina dengan pematuhan dalam fikiran dari hari pertama. Catat setiap input dan output model. Kekalkan aliran kerja manusia-dalam-gelung untuk keputusan kritikal. Laksanakan pemutus litar yang menghentikan tindakan automatik apabila keyakinan model jatuh. Ini bukan hanya keperluan undang-undang — ia adalah amalan kejuruteraan yang baik. Sistem yang gagal dengan elegan dan memberikan jejak audit yang jelas lebih mudah untuk nyahpepijat, lebih mudah untuk diperbaiki, dan lebih mudah untuk dipertahankan apabila sesuatu berlaku salah.
Ada juga soalan tentang bias. Kajian Harvard memberi tumpuan kepada populasi hospital AS. Model yang dilatih terutamanya pada data perubatan Barat mungkin berprestasi kurang baik apabila digunakan untuk populasi Asia dengan prevalensi penyakit yang berbeza, penanda genetik, dan corak akses penjagaan kesihatan. Pembangun yang menghantar produk AI di Asia memerlukan data latihan terlokalisasi dan set pengesahan yang mencerminkan demografi yang mereka layani. Ini adalah kelebihan kompetitif: platform yang melabur dalam penalaan model khusus wilayah akan mengatasi prestasi penyelesaian generik.
Bagaimana Pembangun Boleh Menggunakan Wawasan Ini kepada Domain Bukan Perubatan
Prinsip daripada kajian Harvard diterjemahkan secara langsung kepada domain kompleks tinggi yang lain. Pertimbangkan semakan kontrak undang-undang: model yang mengenal pasti klausa berisiko memerlukan tahap ketepatan dan kebolehjelasan yang sama seperti AI diagnostik. Atau pengesanan penipuan kewangan: positif palsu membekukan transaksi yang sah, negatif palsu mendedahkan bank kepada kerugian. Dalam kedua-dua kes, model mesti berprestasi pada atau di atas tahap pakar manusia, dan pengguna mesti dapat menanyakan penalarannya.
Kuncinya ialah bermula dengan masalah yang sempit dan jelas di mana anda boleh mengumpul data kebenaran tanah. Jangan cuba membina pembantu AI tujuan umum. Bina alat yang menyelesaikan satu tugas khusus lebih baik daripada mana-mana manusia, kemudian berkembang dari sana. Ini adalah pendekatan vibe coding: lelaran cepat pada ciri berskop ketat