হার্ভার্ড গবেষণায় দেখা গেছে, এআই দুজন মানব ডাক্তারের চেয়ে জরুরি বিভাগে আরও সঠিক রোগ নির্ণয় করেছে

হার্ভার্ড মেডিকেল স্কুলের একটি গবেষণা দেখায় যে OpenAI-এর o1 মডেল ৭৬টি বাস্তব জরুরি বিভাগের কেসে দুজন অভ্যন্তরীণ ওষুধ বিশেষজ্ঞকে ছাড়িয়ে গেছে। এই গবেষণা তাত্ত্বিক বেঞ্চমার্ক থেকে বাস্তব ক্লিনিকাল ডেটায় একটি পরিবর্তন চিহ্নিত করে এবং এশিয়ান ডেভেলপারদের জন্য গুরুত্বপূর্ণ প্রভাব…

Editorial illustration: A close-up of a clinical diagnostic instrument—perhaps an X-ray light box or medical chart—being exa — MonstarX

হার্ভার্ড গবেষণায় দেখা গেছে, এআই দুজন মানব ডাক্তারের চেয়ে জরুরি বিভাগে আরও সঠিক রোগ নির্ণয় করেছে

হার্ভার্ড মেডিকেল স্কুলের একটি গবেষণা এই সপ্তাহে Science জার্নালে প্রকাশিত হয়েছে যা দেখায় যে OpenAI-এর o1 মডেল ৭৬টি বাস্তব জরুরি বিভাগের কেসে দুজন অভ্যন্তরীণ ওষুধ বিশেষজ্ঞকে ছাড়িয়ে গেছে। এই গবেষণা তাত্ত্বিক বেঞ্চমার্ক থেকে বাস্তব ক্লিনিকাল ডেটায় একটি পরিবর্তন চিহ্নিত করে — এবং এমন জরুরি প্রশ্ন উত্থাপন করে যে এশিয়ায় এআই উন্নয়ন সরঞ্জাম তৈরিকারী ডেভেলপারদের মডেল নির্ভুলতা, স্বচ্ছতা এবং উচ্চ-ঝুঁকিপূর্ণ পরিবেশে স্থাপনা সম্পর্কে কীভাবে চিন্তা করা উচিত। এশিয়ান ডেভেলপারদের জন্য যারা এআই-চালিত স্বাস্থ্যসেবা, ফিনটেক বা লজিস্টিক্স প্ল্যাটফর্ম চালু করছেন, প্রভাবগুলি তাৎক্ষণিক: "যথেষ্ট ভাল" এর মানদণ্ড এখন পরিবর্তিত হয়েছে।

হার্ভার্ড গবেষণা আসলে কী পরিমাপ করেছে

হার্ভার্ড মেডিকেল স্কুল এবং বেথ ইসরায়েল ডিকোনেস মেডিকেল সেন্টারের গবেষকরা OpenAI-এর o1 এবং 4o মডেলগুলিকে ক্লিনিকাল পরীক্ষার একটি ব্যাপক সিরিজের মধ্য দিয়ে চালিয়েছেন। শিরোনাম ফলাফল: ৭৬টি জরুরি বিভাগের কেসের একটি সেটে, o1 দুজন অভ্যন্তরীণ ওষুধ বিশেষজ্ঞের চেয়ে বেশি রোগ নির্ণয়ের নির্ভুলতা অর্জন করেছে। গবেষণা শুধুমাত্র পাঠ্যপুস্তকের পরিস্থিতির উপর নির্ভর করেনি — এগুলি বাস্তব রোগী ছিল, অসম্পূর্ণ তথ্য সহ, সময়ের চাপ এবং বাস্তব ক্লিনিকাল অনুশীলনের সমস্ত জটিলতা সহ।

গবেষকরা একাধিক মাত্রা জুড়ে কর্মক্ষমতা পরিমাপ করেছেন: রোগ নির্ণয়ের নির্ভুলতা, যুক্তির স্বচ্ছতা এবং অস্পষ্ট বা পরস্পরবিরোধী ডেটা পরিচালনা করার ক্ষমতা। যা দাঁড়িয়ে আছে তা হল o1-এর সুবিধা সীমান্তিক ছিল না। মডেলটি ধারাবাহিকভাবে সঠিক রোগ নির্ণয় চিহ্নিত করেছে এমন কেসগুলিতে যেখানে মানব ডাক্তাররা গুরুত্বপূর্ণ সংকেত মিস করেছেন বা একটি একক অনুমানে খুব তাড়াতাড়ি নোঙর করেছেন। এটি ডাক্তারদের প্রতিস্থাপনের বিষয়ে ছিল না — গবেষণা এআইকে একটি সিদ্ধান্ত-সহায়তা সরঞ্জাম হিসাবে ফ্রেম করে — তবে এটি পরামর্শ দেয় যে বড় ভাষা মডেলগুলি বাস্তব-বিশ্বের যুক্তি কাজে একটি থ্রেশহোল্ড অতিক্রম করেছে।

ডেভেলপারদের জন্য, প্রযুক্তিগত উপসংহার স্পষ্ট: বিশাল কর্পাসের কাঠামোগত এবং অকাঠামোগত ডেটায় প্রশিক্ষিত মডেলগুলি এখন সংকীর্ণ, উচ্চ-জটিলতার ডোমেনে মানব বিশেষজ্ঞ কর্মক্ষমতার সাথে মেলে বা অতিক্রম করতে পারে। চ্যালেঞ্জ হল এআই নির্ণয় করতে পারে কিনা তা নয় — এটি এমন সিস্টেম তৈরি করা যা এআই সুপারিশগুলি এমনভাবে প্রকাশ করে যা ক্লিনিশিয়ান (বা যেকোনো ডোমেনে শেষ-ব্যবহারকারী) বিশ্বাস করতে এবং কাজ করতে পারে।

এশিয়ান ডেভেলপারদের জন্য এআই পণ্য তৈরি করার সময় এটি কেন গুরুত্বপূর্ণ

এশিয়ার ডেভেলপার ইকোসিস্টেম এই পরিবর্তনকে কাজে লাগানোর জন্য অনন্যভাবে অবস্থান করা হয়েছে। অঞ্চলটি চিকিৎসা পেশাদারদের তীব্র ঘাটতির সম্মুখীন — WHO অনুমান করে যে দক্ষিণ-পূর্ব এশিয়ার ২০৩০ সালের মধ্যে ৪.৫ মিলিয়ন আরও স্বাস্থ্যসেবা কর্মী প্রয়োজন। এআই-চালিত ডায়াগনস্টিক সরঞ্জাম একটি বিলাসিতা নয়; এগুলি অবকাঠামো। তবে একই যুক্তি আইনি প্রযুক্তি, আর্থিক পরামর্শ, গ্রাহক সহায়তা এবং লজিস্টিক্স অপ্টিমাইজেশনের জন্য প্রযোজ্য। যেকোনো ডোমেন যেখানে বিশেষজ্ঞ বিচার বিরল এবং ব্যয়বহুল এআই বৃদ্ধির জন্য একটি প্রার্থী হয়ে ওঠে।

হার্ভার্ড গবেষণা উচ্চ-ঝুঁকিপূর্ণ পরিবেশে এআই সিস্টেম যাচাই করার জন্য একটি ব্লুপ্রিন্ট অফার করে। এআই বৈশিষ্ট্য চালু করা ডেভেলপাররা একা সিন্থেটিক বেঞ্চমার্কের উপর নির্ভর করতে পারে না। আপনার বাস্তব-বিশ্বের পরীক্ষার কেস, মানব বিশেষজ্ঞ বেসলাইন এবং মডেলটি কোথায় ব্যর্থ হয় তার স্বচ্ছ রিপোর্টিং প্রয়োজন। এটি এশিয়ায় বিশেষভাবে গুরুত্বপূর্ণ, যেখানে এআই-এর জন্য নিয়ন্ত্রক কাঠামো এখনও উদীয়মান। সিঙ্গাপুরের মডেল এআই গভর্নেন্স ফ্রেমওয়ার্ক এবং থাইল্যান্ডের ব্যক্তিগত ডেটা সুরক্ষা আইন টোন সেট করে, তবে প্রয়োগ অসমান। যে ডেভেলপাররা এখন শক্তিশালী যাচাইকরণ পাইপলাইন তৈরি করে তারা যখন নিয়মকানুন কঠোর হয় তখন প্রতিযোগিতামূলক সুবিধা পাবে।

পণ্য দৃষ্টিকোণ থেকে, গবেষণা ব্যাখ্যাযোগ্যতার গুরুত্বও হাইলাইট করে। o1 মডেল শুধুমাত্র একটি রোগ নির্ণয় আউটপুট করেনি — এটি যুক্তির শৃঙ্খল প্রদান করেছে যা ক্লিনিশিয়ানরা মূল্যায়ন করতে পারে। MonstarX বা অনুরূপ প্ল্যাটফর্মগুলির সাথে কাজ করা ডেভেলপারদের জন্য, এর অর্থ এমন ইন্টারফেস ডিজাইন করা যা মডেল লজিক প্রকাশ করে, শুধুমাত্র চূড়ান্ত পূর্বাভাস নয়। ব্যবহারকারীদের উৎপাদনে এটি বিশ্বাস করার আগে এআই কেন একটি সুপারিশ করেছে তা দেখতে হবে।

উচ্চ-নির্ভুলতা এআই সিস্টেমের পিছনে প্রযুক্তিগত আর্কিটেকচার

হার্ভার্ড গবেষণায় বর্ণিত স্তরে কাজ করে এমন এআই সিস্টেম তৈরি করার জন্য একটি বড় ভাষা মডেল এপিআই-তে অ্যাক্সেসের চেয়ে বেশি প্রয়োজন। আর্কিটেকচার গুরুত্বপূর্ণ। সফল স্থাপনাগুলি একাধিক উপাদান একত্রিত করে: ডেটা পাইপলাইন যা ইনপুটগুলি পরিষ্কার এবং স্বাভাবিক করে, পুনরুদ্ধার-বর্ধিত প্রজন্ম (RAG) সিস্টেম যা মডেল আউটপুটগুলিকে ডোমেন-নির্দিষ্ট জ্ঞান ভিত্তিতে ভিত্তি করে এবং প্রতিক্রিয়া লুপ যা ব্যবহারকারীর সংশোধনগুলি ক্যাপচার করে এবং পুনরাবৃত্তিমূলকভাবে মডেলগুলি পুনরায় প্রশিক্ষণ দেয়।

এশিয়ান ডেভেলপারদের জন্য, লেটেন্সি এবং খরচ অতিরিক্ত সীমাবদ্ধতা। প্রতিটি ব্যবহারকারীর প্রশ্নের জন্য রিয়েল-টাইমে OpenAI-এর o1 মডেল পরিবেশন করা বেশিরভাগ স্টার্টআপের জন্য অর্থনৈতিকভাবে কার্যকর নয়। সমাধান হল হাইব্রিড আর্কিটেকচার: প্রাথমিক ট্রিয়েজের জন্য ছোট, দ্রুত মডেল ব্যবহার করুন, শুধুমাত্র যখন আত্মবিশ্বাসের স্কোর একটি থ্রেশহোল্ডের নিচে পড়ে তখনই বড় মডেলগুলিতে এস্কেলেট করুন এবং সাধারণ প্রশ্নগুলি আক্রমণাত্মকভাবে ক্যাশ করুন। এটি যেখানে সংযোগকারীগুলি গুরুত্বপূর্ণ হয়ে ওঠে — তারা একাধিক মডেল প্রদানকারী জুড়ে অনুরোধগুলি রুট করার এবং ফলব্যাক লজিক পরিচালনার জটিলতা বিমূর্ত করে।

গবেষণা থেকে আরেকটি পাঠ: প্রম্পট ইঞ্জিনিয়ারিং যথেষ্ট নয়। গবেষকরা শুধুমাত্র কাঁচা রোগীর ডেটা মডেলে ফিড করেননি। তারা ইনপুটগুলিকে আধা-আনুষ্ঠানিক কেস উপস্থাপনা হিসাবে কাঠামোবদ্ধ করেছে, যা ডাক্তাররা হ্যান্ডঅফের সময় যোগাযোগ করে তা অনুকরণ করে। ডেভেলপারদের জন্য, এর অর্থ ইনপুট প্রি-প্রসেসিংয়ে বিনিয়োগ করা — জগাখিচুড়ি বাস্তব-বিশ্বের ডেটা এমন ফর্ম্যাটে রূপান্তরিত করা যা মডেল কর্মক্ষমতা সর্বাধিক করে। অনুশীলনে, এতে প্রায়শই ডোমেন-নির্দিষ্ট পার্সার, সত্তা নিষ্কাশন পাইপলাইন এবং যাচাইকরণ স্তর জড়িত যা মডেলে পৌঁছানোর আগে ত্রুটিপূর্ণ ইনপুটগুলি ধরে।

উচ্চ-ঝুঁকিপূর্ণ ডোমেনে এআই-এর জন্য নিয়ন্ত্রক এবং নৈতিক বিবেচনা

হার্ভার্ড গবেষণা স্বাস্থ্যসেবায় এআই-এর নিয়ন্ত্রক তদন্ত ত্বরান্বিত করবে — এবং সম্প্রসারণে, যেকোনো ডোমেন যেখানে ত্রুটিগুলির উল্লেখযোগ্য পরিণতি রয়েছে। ইউরোপীয় ইউনিয়নে, এআই অ্যাক্ট চিকিৎসা এআইকে "উচ্চ-ঝুঁকি" হিসাবে শ্রেণীবদ্ধ করে, স্থাপনার আগে সম্মতি মূল্যায়ন প্রয়োজন। এশিয়ার নিয়ন্ত্রক ল্যান্ডস্কেপ আরও খণ্ডিত, তবে দিকটি স্পষ্ট: সরকারগুলি স্বচ্ছতা, অডিটযোগ্যতা এবং জবাবদিহিতা চায়।

ডেভেলপারদের জন্য, এর অর্থ প্রথম দিন থেকে সম্মতি মাথায় রেখে তৈরি করা। প্রতিটি মডেল ইনপুট এবং আউটপুট লগ করুন। গুরুত্বপূর্ণ সিদ্ধান্তের জন্য মানব-ইন-দ্য-লুপ ওয়ার্কফ্লো বজায় রাখুন। সার্কিট ব্রেকার প্রয়োগ করুন যা মডেল আত্মবিশ্বাস হ্রাস পেলে স্বয়ংক্রিয় ক্রিয়াগুলি থামিয়ে দেয়। এগুলি শুধুমাত্র আইনি প্রয়োজনীয়তা নয় — এগুলি ভাল ইঞ্জিনিয়ারিং অনুশীলন। যে সিস্টেমগুলি সুন্দরভাবে ব্যর্থ হয় এবং স্পষ্ট অডিট ট্রেইল প্রদান করে তা ডিবাগ করা সহজ, উন্নত করা সহজ এবং কিছু ভুল হলে রক্ষা করা সহজ।

পক্ষপাতের প্রশ্নও রয়েছে। হার্ভার্ড গবেষণা একটি মার্কিন হাসপাতাল জনসংখ্যার উপর দৃষ্টি নিবদ্ধ করেছে। প্রাথমিকভাবে পশ্চিমা চিকিৎসা ডেটায় প্রশিক্ষিত মডেলগুলি এশিয়ান জনসংখ্যায় প্রয়োগ করার সময় কম কর্মক্ষমতা দেখাতে পারে যাদের বিভিন্ন রোগের প্রাধান্য, জেনেটিক মার্কার এবং স্বাস্থ্যসেবা অ্যাক্সেস প্যাটার্ন রয়েছে। এশিয়ায় এআই পণ্য চালু করা ডেভেলপারদের স্থানীয়করণ প্রশিক্ষণ ডেটা এবং যাচাইকরণ সেটের প্রয়োজন যা তারা যে জনসংখ্যা পরিবেশন করে তা প্রতিফলিত করে। এটি একটি প্রতিযোগিতামূলক সুবিধা: প্ল্যাটফর্মগুলি যা অঞ্চল-নির্দিষ্ট মডেল টিউনিংয়ে বিনিয়োগ করে তারা সাধারণ সমাধানগুলিকে ছাড়িয়ে যাবে।

ডেভেলপাররা কীভাবে এই অন্তর্দৃষ্টিগুলি অ-চিকিৎসা ডোমেনে প্রয়োগ করতে পারে

হার্ভার্ড গবেষণা থেকে নীতিগুলি সরাসরি অন্যান্য উচ্চ-জটিলতার ডোমেনে অনুবাদ করে। আইনি চুক্তি পর্যালোচনা বিবেচনা করুন: একটি মডেল যা ঝুঁকিপূর্ণ ধারাগুলি চিহ্নিত করে একটি ডায়াগনস্টিক এআই-এর মতো একই স্তরের নির্ভুলতা এবং ব্যাখ্যাযোগ্যতার প্রয়োজন। বা আর্থিক জালিয়াতি সনাক্তকরণ: মিথ্যা ইতিবাচকগুলি বৈধ লেনদেন হিমায়িত করে, মিথ্যা নেতিবাচকগুলি ব্যাংককে ক্ষতির সংস্পর্শে রাখে। উভয় ক্ষেত্রেই, মডেলটি মানব বিশেষজ্ঞ স্তরে বা তার উপরে কর্মক্ষমতা করতে হবে এবং ব্যবহারকারীরা এর যুক্তি জিজ্ঞাসা করতে সক্ষম হতে হবে।

চাবিকাঠি হল একটি সংকীর্ণ, সুসংজ্ঞায়িত সমস্যা দিয়ে শুরু করা যেখানে আপনি গ্রাউন্ড-ট্রুথ ডেটা সংগ্রহ করতে পারেন। একটি সাধারণ-উদ্দেশ্য এআই সহায়ক তৈরি করার চেষ্টা করবেন না। এমন একটি সরঞ্জাম তৈরি করুন যা একটি নির্দিষ্ট কাজ যেকোনো মানুষের চেয়ে ভাল সমাধান করে, তারপর সেখান থেকে প্রসারিত করুন। এটি ভাইব কোডিং পদ্ধতি: কঠোরভাবে সীমাবদ্ধ বৈশিষ্ট্যগুলিতে দ্রুত পুনরাবৃত্তি।