হার্ভার্ড গবেষণায় দেখা গেছে, এআই দুজন মানব ডাক্তারের চেয়ে জরুরি বিভাগে আরও সঠিক রোগ নির্ণয় করেছে
হার্ভার্ড মেডিকেল স্কুলের একটি গবেষণা দেখায় যে OpenAI-এর o1 মডেল ৭৬টি বাস্তব জরুরি বিভাগের কেসে দুজন অভ্যন্তরীণ ওষুধ বিশেষজ্ঞকে ছাড়িয়ে গেছে। এই গবেষণা তাত্ত্বিক বেঞ্চমার্ক থেকে বাস্তব ক্লিনিকাল ডেটায় একটি পরিবর্তন চিহ্নিত করে এবং এশিয়ান ডেভেলপারদের জন্য গুরুত্বপূর্ণ প্রভাব…
হার্ভার্ড গবেষণায় দেখা গেছে, এআই দুজন মানব ডাক্তারের চেয়ে জরুরি বিভাগে আরও সঠিক রোগ নির্ণয় করেছে
হার্ভার্ড মেডিকেল স্কুলের একটি গবেষণা এই সপ্তাহে Science জার্নালে প্রকাশিত হয়েছে যা দেখায় যে OpenAI-এর o1 মডেল ৭৬টি বাস্তব জরুরি বিভাগের কেসে দুজন অভ্যন্তরীণ ওষুধ বিশেষজ্ঞকে ছাড়িয়ে গেছে। এই গবেষণা তাত্ত্বিক বেঞ্চমার্ক থেকে বাস্তব ক্লিনিকাল ডেটায় একটি পরিবর্তন চিহ্নিত করে — এবং এমন জরুরি প্রশ্ন উত্থাপন করে যে এশিয়ায় এআই উন্নয়ন সরঞ্জাম তৈরিকারী ডেভেলপারদের মডেল নির্ভুলতা, স্বচ্ছতা এবং উচ্চ-ঝুঁকিপূর্ণ পরিবেশে স্থাপনা সম্পর্কে কীভাবে চিন্তা করা উচিত। এশিয়ান ডেভেলপারদের জন্য যারা এআই-চালিত স্বাস্থ্যসেবা, ফিনটেক বা লজিস্টিক্স প্ল্যাটফর্ম চালু করছেন, প্রভাবগুলি তাৎক্ষণিক: "যথেষ্ট ভাল" এর মানদণ্ড এখন পরিবর্তিত হয়েছে।
হার্ভার্ড গবেষণা আসলে কী পরিমাপ করেছে
হার্ভার্ড মেডিকেল স্কুল এবং বেথ ইসরায়েল ডিকোনেস মেডিকেল সেন্টারের গবেষকরা OpenAI-এর o1 এবং 4o মডেলগুলিকে ক্লিনিকাল পরীক্ষার একটি ব্যাপক সিরিজের মধ্য দিয়ে চালিয়েছেন। শিরোনাম ফলাফল: ৭৬টি জরুরি বিভাগের কেসের একটি সেটে, o1 দুজন অভ্যন্তরীণ ওষুধ বিশেষজ্ঞের চেয়ে বেশি রোগ নির্ণয়ের নির্ভুলতা অর্জন করেছে। গবেষণা শুধুমাত্র পাঠ্যপুস্তকের পরিস্থিতির উপর নির্ভর করেনি — এগুলি বাস্তব রোগী ছিল, অসম্পূর্ণ তথ্য সহ, সময়ের চাপ এবং বাস্তব ক্লিনিকাল অনুশীলনের সমস্ত জটিলতা সহ।
গবেষকরা একাধিক মাত্রা জুড়ে কর্মক্ষমতা পরিমাপ করেছেন: রোগ নির্ণয়ের নির্ভুলতা, যুক্তির স্বচ্ছতা এবং অস্পষ্ট বা পরস্পরবিরোধী ডেটা পরিচালনা করার ক্ষমতা। যা দাঁড়িয়ে আছে তা হল o1-এর সুবিধা সীমান্তিক ছিল না। মডেলটি ধারাবাহিকভাবে সঠিক রোগ নির্ণয় চিহ্নিত করেছে এমন কেসগুলিতে যেখানে মানব ডাক্তাররা গুরুত্বপূর্ণ সংকেত মিস করেছেন বা একটি একক অনুমানে খুব তাড়াতাড়ি নোঙর করেছেন। এটি ডাক্তারদের প্রতিস্থাপনের বিষয়ে ছিল না — গবেষণা এআইকে একটি সিদ্ধান্ত-সহায়তা সরঞ্জাম হিসাবে ফ্রেম করে — তবে এটি পরামর্শ দেয় যে বড় ভাষা মডেলগুলি বাস্তব-বিশ্বের যুক্তি কাজে একটি থ্রেশহোল্ড অতিক্রম করেছে।
ডেভেলপারদের জন্য, প্রযুক্তিগত উপসংহার স্পষ্ট: বিশাল কর্পাসের কাঠামোগত এবং অকাঠামোগত ডেটায় প্রশিক্ষিত মডেলগুলি এখন সংকীর্ণ, উচ্চ-জটিলতার ডোমেনে মানব বিশেষজ্ঞ কর্মক্ষমতার সাথে মেলে বা অতিক্রম করতে পারে। চ্যালেঞ্জ হল এআই নির্ণয় করতে পারে কিনা তা নয় — এটি এমন সিস্টেম তৈরি করা যা এআই সুপারিশগুলি এমনভাবে প্রকাশ করে যা ক্লিনিশিয়ান (বা যেকোনো ডোমেনে শেষ-ব্যবহারকারী) বিশ্বাস করতে এবং কাজ করতে পারে।
এশিয়ান ডেভেলপারদের জন্য এআই পণ্য তৈরি করার সময় এটি কেন গুরুত্বপূর্ণ
এশিয়ার ডেভেলপার ইকোসিস্টেম এই পরিবর্তনকে কাজে লাগানোর জন্য অনন্যভাবে অবস্থান করা হয়েছে। অঞ্চলটি চিকিৎসা পেশাদারদের তীব্র ঘাটতির সম্মুখীন — WHO অনুমান করে যে দক্ষিণ-পূর্ব এশিয়ার ২০৩০ সালের মধ্যে ৪.৫ মিলিয়ন আরও স্বাস্থ্যসেবা কর্মী প্রয়োজন। এআই-চালিত ডায়াগনস্টিক সরঞ্জাম একটি বিলাসিতা নয়; এগুলি অবকাঠামো। তবে একই যুক্তি আইনি প্রযুক্তি, আর্থিক পরামর্শ, গ্রাহক সহায়তা এবং লজিস্টিক্স অপ্টিমাইজেশনের জন্য প্রযোজ্য। যেকোনো ডোমেন যেখানে বিশেষজ্ঞ বিচার বিরল এবং ব্যয়বহুল এআই বৃদ্ধির জন্য একটি প্রার্থী হয়ে ওঠে।
হার্ভার্ড গবেষণা উচ্চ-ঝুঁকিপূর্ণ পরিবেশে এআই সিস্টেম যাচাই করার জন্য একটি ব্লুপ্রিন্ট অফার করে। এআই বৈশিষ্ট্য চালু করা ডেভেলপাররা একা সিন্থেটিক বেঞ্চমার্কের উপর নির্ভর করতে পারে না। আপনার বাস্তব-বিশ্বের পরীক্ষার কেস, মানব বিশেষজ্ঞ বেসলাইন এবং মডেলটি কোথায় ব্যর্থ হয় তার স্বচ্ছ রিপোর্টিং প্রয়োজন। এটি এশিয়ায় বিশেষভাবে গুরুত্বপূর্ণ, যেখানে এআই-এর জন্য নিয়ন্ত্রক কাঠামো এখনও উদীয়মান। সিঙ্গাপুরের মডেল এআই গভর্নেন্স ফ্রেমওয়ার্ক এবং থাইল্যান্ডের ব্যক্তিগত ডেটা সুরক্ষা আইন টোন সেট করে, তবে প্রয়োগ অসমান। যে ডেভেলপাররা এখন শক্তিশালী যাচাইকরণ পাইপলাইন তৈরি করে তারা যখন নিয়মকানুন কঠোর হয় তখন প্রতিযোগিতামূলক সুবিধা পাবে।
পণ্য দৃষ্টিকোণ থেকে, গবেষণা ব্যাখ্যাযোগ্যতার গুরুত্বও হাইলাইট করে। o1 মডেল শুধুমাত্র একটি রোগ নির্ণয় আউটপুট করেনি — এটি যুক্তির শৃঙ্খল প্রদান করেছে যা ক্লিনিশিয়ানরা মূল্যায়ন করতে পারে। MonstarX বা অনুরূপ প্ল্যাটফর্মগুলির সাথে কাজ করা ডেভেলপারদের জন্য, এর অর্থ এমন ইন্টারফেস ডিজাইন করা যা মডেল লজিক প্রকাশ করে, শুধুমাত্র চূড়ান্ত পূর্বাভাস নয়। ব্যবহারকারীদের উৎপাদনে এটি বিশ্বাস করার আগে এআই কেন একটি সুপারিশ করেছে তা দেখতে হবে।
উচ্চ-নির্ভুলতা এআই সিস্টেমের পিছনে প্রযুক্তিগত আর্কিটেকচার
হার্ভার্ড গবেষণায় বর্ণিত স্তরে কাজ করে এমন এআই সিস্টেম তৈরি করার জন্য একটি বড় ভাষা মডেল এপিআই-তে অ্যাক্সেসের চেয়ে বেশি প্রয়োজন। আর্কিটেকচার গুরুত্বপূর্ণ। সফল স্থাপনাগুলি একাধিক উপাদান একত্রিত করে: ডেটা পাইপলাইন যা ইনপুটগুলি পরিষ্কার এবং স্বাভাবিক করে, পুনরুদ্ধার-বর্ধিত প্রজন্ম (RAG) সিস্টেম যা মডেল আউটপুটগুলিকে ডোমেন-নির্দিষ্ট জ্ঞান ভিত্তিতে ভিত্তি করে এবং প্রতিক্রিয়া লুপ যা ব্যবহারকারীর সংশোধনগুলি ক্যাপচার করে এবং পুনরাবৃত্তিমূলকভাবে মডেলগুলি পুনরায় প্রশিক্ষণ দেয়।
এশিয়ান ডেভেলপারদের জন্য, লেটেন্সি এবং খরচ অতিরিক্ত সীমাবদ্ধতা। প্রতিটি ব্যবহারকারীর প্রশ্নের জন্য রিয়েল-টাইমে OpenAI-এর o1 মডেল পরিবেশন করা বেশিরভাগ স্টার্টআপের জন্য অর্থনৈতিকভাবে কার্যকর নয়। সমাধান হল হাইব্রিড আর্কিটেকচার: প্রাথমিক ট্রিয়েজের জন্য ছোট, দ্রুত মডেল ব্যবহার করুন, শুধুমাত্র যখন আত্মবিশ্বাসের স্কোর একটি থ্রেশহোল্ডের নিচে পড়ে তখনই বড় মডেলগুলিতে এস্কেলেট করুন এবং সাধারণ প্রশ্নগুলি আক্রমণাত্মকভাবে ক্যাশ করুন। এটি যেখানে সংযোগকারীগুলি গুরুত্বপূর্ণ হয়ে ওঠে — তারা একাধিক মডেল প্রদানকারী জুড়ে অনুরোধগুলি রুট করার এবং ফলব্যাক লজিক পরিচালনার জটিলতা বিমূর্ত করে।
গবেষণা থেকে আরেকটি পাঠ: প্রম্পট ইঞ্জিনিয়ারিং যথেষ্ট নয়। গবেষকরা শুধুমাত্র কাঁচা রোগীর ডেটা মডেলে ফিড করেননি। তারা ইনপুটগুলিকে আধা-আনুষ্ঠানিক কেস উপস্থাপনা হিসাবে কাঠামোবদ্ধ করেছে, যা ডাক্তাররা হ্যান্ডঅফের সময় যোগাযোগ করে তা অনুকরণ করে। ডেভেলপারদের জন্য, এর অর্থ ইনপুট প্রি-প্রসেসিংয়ে বিনিয়োগ করা — জগাখিচুড়ি বাস্তব-বিশ্বের ডেটা এমন ফর্ম্যাটে রূপান্তরিত করা যা মডেল কর্মক্ষমতা সর্বাধিক করে। অনুশীলনে, এতে প্রায়শই ডোমেন-নির্দিষ্ট পার্সার, সত্তা নিষ্কাশন পাইপলাইন এবং যাচাইকরণ স্তর জড়িত যা মডেলে পৌঁছানোর আগে ত্রুটিপূর্ণ ইনপুটগুলি ধরে।
উচ্চ-ঝুঁকিপূর্ণ ডোমেনে এআই-এর জন্য নিয়ন্ত্রক এবং নৈতিক বিবেচনা
হার্ভার্ড গবেষণা স্বাস্থ্যসেবায় এআই-এর নিয়ন্ত্রক তদন্ত ত্বরান্বিত করবে — এবং সম্প্রসারণে, যেকোনো ডোমেন যেখানে ত্রুটিগুলির উল্লেখযোগ্য পরিণতি রয়েছে। ইউরোপীয় ইউনিয়নে, এআই অ্যাক্ট চিকিৎসা এআইকে "উচ্চ-ঝুঁকি" হিসাবে শ্রেণীবদ্ধ করে, স্থাপনার আগে সম্মতি মূল্যায়ন প্রয়োজন। এশিয়ার নিয়ন্ত্রক ল্যান্ডস্কেপ আরও খণ্ডিত, তবে দিকটি স্পষ্ট: সরকারগুলি স্বচ্ছতা, অডিটযোগ্যতা এবং জবাবদিহিতা চায়।
ডেভেলপারদের জন্য, এর অর্থ প্রথম দিন থেকে সম্মতি মাথায় রেখে তৈরি করা। প্রতিটি মডেল ইনপুট এবং আউটপুট লগ করুন। গুরুত্বপূর্ণ সিদ্ধান্তের জন্য মানব-ইন-দ্য-লুপ ওয়ার্কফ্লো বজায় রাখুন। সার্কিট ব্রেকার প্রয়োগ করুন যা মডেল আত্মবিশ্বাস হ্রাস পেলে স্বয়ংক্রিয় ক্রিয়াগুলি থামিয়ে দেয়। এগুলি শুধুমাত্র আইনি প্রয়োজনীয়তা নয় — এগুলি ভাল ইঞ্জিনিয়ারিং অনুশীলন। যে সিস্টেমগুলি সুন্দরভাবে ব্যর্থ হয় এবং স্পষ্ট অডিট ট্রেইল প্রদান করে তা ডিবাগ করা সহজ, উন্নত করা সহজ এবং কিছু ভুল হলে রক্ষা করা সহজ।
পক্ষপাতের প্রশ্নও রয়েছে। হার্ভার্ড গবেষণা একটি মার্কিন হাসপাতাল জনসংখ্যার উপর দৃষ্টি নিবদ্ধ করেছে। প্রাথমিকভাবে পশ্চিমা চিকিৎসা ডেটায় প্রশিক্ষিত মডেলগুলি এশিয়ান জনসংখ্যায় প্রয়োগ করার সময় কম কর্মক্ষমতা দেখাতে পারে যাদের বিভিন্ন রোগের প্রাধান্য, জেনেটিক মার্কার এবং স্বাস্থ্যসেবা অ্যাক্সেস প্যাটার্ন রয়েছে। এশিয়ায় এআই পণ্য চালু করা ডেভেলপারদের স্থানীয়করণ প্রশিক্ষণ ডেটা এবং যাচাইকরণ সেটের প্রয়োজন যা তারা যে জনসংখ্যা পরিবেশন করে তা প্রতিফলিত করে। এটি একটি প্রতিযোগিতামূলক সুবিধা: প্ল্যাটফর্মগুলি যা অঞ্চল-নির্দিষ্ট মডেল টিউনিংয়ে বিনিয়োগ করে তারা সাধারণ সমাধানগুলিকে ছাড়িয়ে যাবে।
ডেভেলপাররা কীভাবে এই অন্তর্দৃষ্টিগুলি অ-চিকিৎসা ডোমেনে প্রয়োগ করতে পারে
হার্ভার্ড গবেষণা থেকে নীতিগুলি সরাসরি অন্যান্য উচ্চ-জটিলতার ডোমেনে অনুবাদ করে। আইনি চুক্তি পর্যালোচনা বিবেচনা করুন: একটি মডেল যা ঝুঁকিপূর্ণ ধারাগুলি চিহ্নিত করে একটি ডায়াগনস্টিক এআই-এর মতো একই স্তরের নির্ভুলতা এবং ব্যাখ্যাযোগ্যতার প্রয়োজন। বা আর্থিক জালিয়াতি সনাক্তকরণ: মিথ্যা ইতিবাচকগুলি বৈধ লেনদেন হিমায়িত করে, মিথ্যা নেতিবাচকগুলি ব্যাংককে ক্ষতির সংস্পর্শে রাখে। উভয় ক্ষেত্রেই, মডেলটি মানব বিশেষজ্ঞ স্তরে বা তার উপরে কর্মক্ষমতা করতে হবে এবং ব্যবহারকারীরা এর যুক্তি জিজ্ঞাসা করতে সক্ষম হতে হবে।
চাবিকাঠি হল একটি সংকীর্ণ, সুসংজ্ঞায়িত সমস্যা দিয়ে শুরু করা যেখানে আপনি গ্রাউন্ড-ট্রুথ ডেটা সংগ্রহ করতে পারেন। একটি সাধারণ-উদ্দেশ্য এআই সহায়ক তৈরি করার চেষ্টা করবেন না। এমন একটি সরঞ্জাম তৈরি করুন যা একটি নির্দিষ্ট কাজ যেকোনো মানুষের চেয়ে ভাল সমাধান করে, তারপর সেখান থেকে প্রসারিত করুন। এটি ভাইব কোডিং পদ্ধতি: কঠোরভাবে সীমাবদ্ধ বৈশিষ্ট্যগুলিতে দ্রুত পুনরাবৃত্তি।