Harvard ஆய்வில், AI இரண்டு மனித மருத்துவர்களை விட அவசர அறை நோயறிதলில் அधिक துல்லியமாக செயல்பட்டது

Harvard Medical School இல் வெளியிடப்பட்ட ஆய்வு, OpenAI இன் o1 மாதிரி 76 உண்மையான அவசர அறை நோயாளிகளை நோயறிய இரண்டு மருத்துவ நிபுணர்களை விட சிறப்பாக செயல்பட்டது என்பதைக் காட்டுகிறது.

Share
Editorial illustration: A close-up of a clinical diagnostic instrument—perhaps an X-ray light box or medical chart—being exa — MonstarX

Harvard ஆய்வில், AI இரண்டு மனித மருத்துவர்களை விட அவசர அறை நோயறிதலில் அधिक துல்லியமாக செயல்பட்டது

Harvard Medical School இல் இந்த வாரம் Science இதழில் வெளியிடப்பட்ட ஆய்வு, OpenAI இன் o1 மாதிரி 76 உண்மையான அவசர அறை நோயாளிகளை நோயறிய இரண்டு மருத்துவ நிபுணர்களை விட சிறப்பாக செயல்பட்டது என்பதைக் காட்டுகிறது. இந்த গবைஷணம் கோட்பாட்டு அளவுகோல்களிலிருந்து உண்மையான மருத்துவ தரவுகளுக்கு மாறுவதைக் குறிக்கிறது — மேலும் AI development tools Asia ஐ உருவாக்கும் உருவாக்குநர்கள் மாதிரி துல்லியம், வெளிப்படைத்தன்மை மற்றும் உচ்ச-ஆபத்து சூழல்களில் பயன்பாடு பற்றி எவ்வாறு சிந்திக்க வேண்டும் என்பது பற்றி அவசரமான கேள்விகளை எழுப்புகிறது. ஆசிய உருவாக்குநர்கள் AI-இயக்கிய சுகாதாரம், ஃபின்டெக் அல்லது தளவாடங்கள் தளங்களை வழங்குபவர்களுக்கு, விளைவுகள் உடனடியாக உள்ளன: "போதுமானது" என்ற பட்டி இப்போது நகர்ந்துவிட்டது.

Harvard ஆய்வு உண்மையில் என்ன அளந்தது

Harvard Medical School மற்றும் Beth Israel Deaconess Medical Center இல் உள்ள ஆராய்ச்சியாளர்கள் OpenAI இன் o1 மற்றும் 4o மாதிரிகளை மருத்துவ சோதனைகளின் தொடரின் மூலம் இயக்கினர். தலைப்பு முடிவு: 76 அவசர அறை நோயாளிகளின் தொகுப்பில், o1 இரண்டு உள் மருத்துவ நிபுணர் மருத்துவர்களை விட அதிக நோயறிதல் துல்லியத்தை அடைந்தது. ஆய்வு பாடப்புத்தக ச情नारியோக்களை மட்டுமே நம்பவில்லை — இவை உண்மையான நோயாளிகள், முழுமையற்ற தகவல், நேர அழுத்தம் மற்றும் உண்மையான மருத்துவ பயிற்சியின் அனைத்து குழப்பங்களுடன்.

ஆராய்ச்சியாளர்கள் பல பரிமாணங்களில் செயல்திறனை அளந்தனர்: நோயறிதல் துல்லியம், பகுத்தறிவு வெளிப்படைத்தன்மை, மற்றும் தெளிவற்ற அல்லது முரண்பட்ட தரவைக் கையாளும் திறன். குறிப்பிடத்தக்க விஷயம் என்னவென்றால் o1 இன் நன்மை ஓரளவு இல்லை. மாதிரி மனித மருத்துவர்கள் முக்கியமான சமிக்ஞைகளை தவறவிட்டு அல்லது ஒரு ஒற்றை கருதுகோளில் மிக விரைவில் நங்கூரம் போட்ட சந்தர்ப்பங்களில் தொடர்ந்து சரியான நோயறிதல்களை அடையாளம் கண்டது. இது மருத்துவர்களை மாற்றுவது பற்றி இல்லை — ஆய்வு AI ஐ முடிவு-ஆதரவு கருவியாக வகுக்கிறது — ஆனால் இது பெரிய மொழி மாதிரிகள் உண்மையான-உலக பகுத்தறிவு பணிகளில் ஒரு வாசலைக் கடந்துவிட்டன என்பதை பரிந்துரைக்கிறது.

உருவாக்குநர்களுக்கு, தொழில்நுட்ப முடிவு தெளிவாக உள்ளது: கட்டமைக்கப்பட்ட மற்றும் கட்டமைக்கப்படாத தரவுகளின் பিரமாண கார்பஸ்களில் பயிற்றுவிக்கப்பட்ட மாதிரிகள் இப்போது குறுகிய, உচ்च-சிக்கலான களங்களில் மனித நிபுணர் செயல்திறனை பொருத்தி அல்லது மீறலாம். சவால் AI நோயறிய முடியுமா என்பது இல்லை — இது AI பரிந்துரைகளை மேற்பரப்பு செய்யும் அமைப்புகளை எவ்வாறு உருவாக்குவது என்பது பற்றி உள்ளது, மருத்துவர்கள் (அல்லது எந்த களத்திலும் இறுதி-ব்যবহாரிகள்) நம்பி செயல்பட முடியும்.

ஆசிய உருவாக்குநர்கள் AI தயாரிப்புகளை உருவாக்குவதற்கு இது ஏன் முக்கியமானது

ஆசியாவின் உருவாக்குநர் சுற்றுச்சூழல் இந்த மாற்றத்தை பயன்படுத்த தனித்துவமாக நிலைநிறுத்தப்பட்டுள்ளது. இந்த பகுதி மருத்துவ தொழிலாளர்களின் கடுமையான பற்றாக்குறையை எதிர்கொள்கிறது — WHO 2030 ஆம் ஆண்டளவில் தென்கிழக்கு ஆசியாவுக்கு 4.5 மில்லியன் கூடுதல் சுகாதாரப் பணியாளர்கள் தேவை என்று மதிப்பிடுகிறது. AI-இயக்கிய நோயறிதல் கருவிகள் ஒரு বিলாசிதம் அல்ல; அவை உள்கட்டமைப்பு. ஆனால் அதே தர்க்கம் சட்ட தொழில்நுட்பம், நிதி ஆலோசனை, வாடிக்கையாளர் ஆதரவு, மற்றும் தளவாடங்கள் உகப்பாக்கம் பொருந்தும். நிபுணர்판断் அரிதாக மற்றும் விலையுயர்ந்த எந்த களமும் AI பெருக்கத்திற்கான வேட்பாளர் ஆகிறது.

Harvard ஆய்வு உচ்ச-ஆபத்து சூழல்களில் AI அமைப்புகளை சரிபார்க்க எவ்வாறு வேண்டும் என்பதற்கான ஒரு வரைபடத்தை வழங்குகிறது. AI அம்சங்களை வழங்கும் உருவாக்குநர்கள் செயற்கை அளவுகோல்களை மட்டுமே நம்ப முடியாது. உங்களுக்கு உண்மையான-உலக சோதனை நிகழ்வுகள், மனித நிபுணர் அடிப்படைகள், மற்றும் மாதிரி தோல்விகளின் வெளிப்படையான அறிக்கை தேவை. இது ஆசியায் குறிப்பாக முக்கியமானது, AI க்கான ஒழுங்குமுறை கাঠামோ இன்னும் வளர்ந்து கொண்டிருக்கிறது. Singapore இன் Model AI Governance Framework மற்றும் Thailand இன் Personal Data Protection Act சுரம் அமைக்கிறது, ஆனால் அமலாக்கம் சீரற்றது. இப்போது வலுவான சரிபார்ப்பு பைப்லைன்களை உருவாக்கும் உருவாக்குநர்கள் ஒழுங்குமுறைகள் இறுக்கமாக இருக்கும் போது ஒரு போட்டி நன்மை இருக்கும்.

ஒரு தயாரிப்பு நிலைப்பாட்டிலிருந்து, ஆய்வு விளக்கத்தின் முக்கியத்துவத்தை முன்னிலைப்படுத்துகிறது. o1 மாதிரி வெறுமே ஒரு நோயறிதல் வெளியிடவில்லை — இது மருத்துவர்கள் மதிப்பீடு செய்யக்கூடிய பகுத்தறிவு சங்கிலிகளை வழங்கியது. MonstarX அல்லது இதேபோன்ற தளங்களுடன் பணிபுரியும் உருவாக்குநர்களுக்கு, இது மாதிரி தர্க்கத்தை வெளிப்படுத்தும் இடைமுகங்களை வடிவமைப்பது, வெறுமே চূড়ান்த முன்னறிவிப்புகளை அல்ல. ব்যবহারকாரிகள் AI ஒரு பரிந்துரை செய்ய முன் ஏன் என்பதைக் கண்ட வேண்டும் அவர்கள் உৎপாதனத்தில் அதை நம்பும் முன்.

உচ்ச-துல்லியம் AI அமைப்புகளுக்குப் பின்னால் உள்ள தொழில்நுட்ப স্থাপত்யம்

Harvard ஆய்வில் விவரிக்கப்பட்ட நிலையில் செயல்படும் AI அமைப்புகளை உருவாக்குவது ஒரு பெரிய மொழி மாதிரி API க்கு அணுகலை விட அதிகம் தேவை. স্থாপத்யம் முக்கியமானது. வெற்றிகரமான பயன்பாடுகள் பல கூறுகளை இணைக்கின்றன: தரவு பைப்லைன்கள் உள்ளீடுகளை சுத்தம் மற்றும் இயல்பாக்கம், retrieval-augmented generation (RAG) அமைப்புகள் மாதிரி வெளியீடுகளை களம்-குறிப்பிட்ட அறிவு அடிப்படைகளில் ஆधार, மற்றும் கருத்து loops பயனர் திருத்தங்களை பிடிக்கும் மற்றும் மாதிரிகளை iteratively மறுபயிற்சி.

ஆசிய உருவாக்குநர்களுக்கு, latency மற்றும் செலவு கூடுதல் கட்டுப்பாடுகள் உள்ளன. OpenAI இன் o1 மாதிரி ஒவ்வொரு பயனர் வினாவுக்கும் உண்மையான-நேரத்தில் வழங்குவது பெரும்பாலான startups க்கு பொருளாதாரமாக சாத்தியமற்றது. தீர்வு hybrid architectures: சிறிய, வேகமான மாதிரிகளை ஆரம்ப triage க்கு பயன்படுத்தவும், பெரிய மாதிரிகளுக்கு escalate செய்யவும் confidence scores ஒரு வாசல் கீழே விழும் போது மட்டுமே, மற்றும் பொதுவான வினாக்களை aggressively cache. இது connectors போன்ற தளங்கள் முக்கியமாக ஆகிறது — அவை பல மாதிரி வழங்குநர்களுக்கு கோரிக்கைகளை routing மற்றும் fallback தர்க்கத்தை நிர்வகிக்கும் சிக்கலতை abstract செய்கின்றன.

ஆய்விலிருந்து மற்றொரு பாடம்: prompt engineering போதுமானது அல்ல. ஆராய்ச்சியாளர்கள் வெறுமே raw நோயாளி தரவை மாதிரிக்குள் feed செய்யவில்லை. அவர்கள் உள்ளீடுகளை semi-formal case presentations ஆக கட்டமைத்தனர், மருத்துவர்கள் handoffs போது தொடர்பு கொள்ளும் விதத்தை模仿. உருவாக்குநர்களுக்கு, இது உள்ளீடு preprocessing இல் முதலீடு செய்ய பொருள் — messy உண்மையான-உலக தரவை மாதிரி செயல்திறனை maximize செய்யும் வடிவங்களாக மாற்றுவது. நடைமுறையில், இது பெரும்பாலும் களம்-குறிப்பிட்ட parsers, entity extraction pipelines, மற்றும் validation layers பொருந்தும் malformed உள்ளீடுகளை பிடிக்கும் முன் அவர்கள் மாதிரிக்கு reach.

உচ்ச-ஆபத்து களங்களில் AI க்கான ஒழுங்குமுறை மற்றும் நৈதிக பரிசீலனைகள்

Harvard ஆய்வு சுகாதாரத்தில் AI இன் ஒழுங்குமுறை scrutiny ஐ accelerate செய்யும் — மற்றும் extension மூலம், எந்த களமும் பிழைகள் குறிப்பிடத்தக்க விளைவுகளை carry. EU இல், AI Act மருத்துவ AI ஐ "high-risk" என வகுக்கிறது, பயன்பாட்டிற்கு முன் conformity assessments தேவை. ஆசியாவின் ஒழுங்குமுறை landscape மிகவும் fragmented, ஆனால் திசை தெளிவாக உள்ளது: அரசாங்கங்கள் வெளிப்படைத்தன்மை, auditability, மற்றும் accountability விரும்புகின்றன.

உருவாக்குநர்களுக்கு, இது compliance மனதில் வைத்து day one இலிருந்து உருவாக்குவது பொருள். ஒவ்வொரு மாதிரி உள்ளீடு மற்றும் வெளியீடு log. முக்கியமான முடிவுகளுக்கு human-in-the-loop workflows பராமரிக்கவும். circuit breakers implement செய்யவும் மாதிரி confidence drops போது automated செயல்களை halt. இவை வெறுமே சட்ட தேவைகள் அல்ல — அவை நல்ல engineering பயிற்சி. அமைப்புகள் gracefully தோல்வி மற்றும் clear audit trails வழங்கும் debug செய்ய எளிதாக, மேம்பட, மற்றும் defend செய்ய எளிதாக இருக்கும் போது ஏதாவது தவறு செய்கிறது.

bias இன் கேள்வியும் உள்ளது. Harvard ஆய்வு ஒரு U.S. hospital population மீது focused. மாதிரிகள் முதன்மையாக Western மருத்துவ தரவில் பயிற்றுவிக்கப்பட்ட ஆசிய populations க்கு பயன்படுத்தப்படும் போது underperform செய்யக்கூடும் வெவ்வேறு disease prevalence, genetic markers, மற்றும் healthcare access patterns உடன். ஆசியায் AI தயாரிப்புகளை வழங்கும் உருவாக்குநர்கள் localized பயிற்சி தரவு மற்றும் validation sets தேவை அவர்கள் serve demographics reflect. இது ஒரு போட்டி நன்மை: தளங்கள் region-specific மாதிரி tuning இல் முதலீடு செய்யும் generic தீர்வுகளை outperform செய்யும்.

உருவாக்குநர்கள் இந்த insights ஐ Non-Medical களங்களுக்கு எவ்வாறு பயன்படுத்தலாம்

Harvard ஆய்விலிருந்து கொள்கைகள் நேரடியாக மற்ற உচ்ச-சிக்கலான களங்களுக்கு மொழிபெயர்க்கின்றன. சட்ட ஒப்பந்த மதிப்பாய்வு கருத்தில் கொள்ளவும்: ஒரு மாதிரி risky clauses அடையாளம் செய்யும் நோயறிதல் AI ஆக அதே நிலை துல்லியம் மற்றும் விளக்கத்தை தேவை. அல்லது நிதி欺诈 detection: false positives freeze legitimate transactions, false negatives வங்கி expose losses க்கு. இரண்டு நிகழ்வுகளிலும், மாதிரி மனித நிபுணர் நிலை மீது அல்லது மேல் செயல்பட வேண்டும், மற்றும் ব்যবহারকாரிகள் அதன் பகுத்தறிவு interrogate முடிய வேண்டும்.

முக்கியமான விஷயம் narrow, well-defined சிக்கல் உடன் தொடங்க வேண்டும் நீங்கள் ground-truth தரவு சேகரிக்க முடியும். ஒரு general-purpose AI உதவி உருவாக்க முயற்சி செய்ய வேண்டாம். ஒரு கருவி உருவாக்கவும் ஒரு குறிப்பிட்ட பணி தீர்க்கும் எந்த மனிதனும் முடியும் சிறப்பாக, பின்னர் அங்கிருந்து விரிவாக. இது vibe coding அணுகுமுறை: tightly scoped features மீது rapid iteration.