Studimi zbulon se inteligjenca artificiale dështon në diagnozën parësore të pacientit në më shumë se 80% të rasteve

Publikuar 09:40 14 April, 2026

Modelet e gjuhës së inteligjencës artificiale dështojnë të prodhojnë një diagnozë të hershme të përshtatshme në më shumë se 80% të rasteve, duke sugjeruar se ato nuk janë ende të sigurta për përdorim klinik pa mbikëqyrje, sipas një studimi të ri. Inteligjenca artificiale gjeneruese (IA) ende nuk i ka proceset e arsyetimit të nevojshme për përdorim të sigurt klinik, ka zbuluar një studim i ri.

Chatbot-et e inteligjencës artificiale kanë përmirësuar saktësinë e tyre diagnostikuese kur u paraqiten informacione të plota klinike, por prapë nuk kanë arritur të prodhojnë një diagnozë diferenciale të përshtatshme në më shumë se 80% të rasteve, sipas studiuesve në Mass General Brigham, një rrjet spitalor dhe kërkimor jofitimprurës me seli në Boston dhe një nga sistemet më të mëdha shëndetësore në Shtetet e Bashkuara.

Rezultatet e studimit, të botuara në revistën mjekësore Open të JAMA Network me qasje të hapur , zbuluan se modelet e gjuhës së madhe (LLM) nuk arrijnë të arrijnë arsyetimin e kërkuar për përdorim klinik. “Pavarësisht përmirësimeve të vazhdueshme, modelet e gatshme për përdorim të madh gjuhësor nuk janë gati për zbatim të pambikëqyrur në nivel klinik”, tha Marc Succi, bashkautor i studimit.

Ai shtoi se inteligjenca artificiale ende nuk mund ta përsërisë diagnozën diferenciale, e cila është thelbësore për arsyetimin klinik dhe të cilën ai e konsideron “artin e mjekësisë”.

Diagnoza diferenciale është hapi i parë për profesionistët e kujdesit shëndetësor për të identifikuar një gjendje, duke e ndarë atë nga të tjerat me simptoma të ngjashme. Si u testuan modelet Ekipi i kërkimit analizoi funksionimin e 21 LLM-ve, duke përfshirë versionet më të fundit të disponueshme të Claude, DeepSeek, Gemini, GPT dhe Grok. Ata vlerësuan LLM-të në 29 skica klinike të standardizuara duke përdorur një mjet të zhvilluar rishtazi të quajtur PrIME-LLM.

Mjeti vlerëson aftësinë e një modeli në faza të ndryshme të arsyetimit klinik: kryerjen e një diagnoze fillestare, urdhërimin e testeve të përshtatshme, arritjen në një diagnozë përfundimtare dhe planifikimin e trajtimit. Për të simuluar se si zhvillohen rastet klinike, studiuesit i dhanë gradualisht modeleve informacion, duke filluar me bazat si mosha, seksi dhe simptomat e pacientit, përpara se të shtonin gjetjet e ekzaminimit fizik dhe rezultatet laboratorike.

Një diagnozë diferenciale është thelbësore në një mjedis klinik real për të avancuar në hapin tjetër. Megjithatë, në studim, modeleve iu dha informacion shtesë në mënyrë që ata të mund të vazhdonin në fazën tjetër edhe nëse dështonin në hapin e diagnozës diferenciale. Studiuesit zbuluan se modelet gjuhësore arritën saktësi të lartë në diagnozat përfundimtare, por performuan dobët në gjenerimin e diagnozave diferenciale dhe në përballimin e pasigurisë.

Autorja e studimit, Arya Rao, vuri në dukje se duke vlerësuar të diplomuarit në LLM në një mënyrë hap pas hapi, hulumtimi tejkalon trajtimin e tyre si persona që i nënshtrohen testit dhe i vendos ata në pozicionin e një mjeku.

“Këto modele janë të shkëlqyera në përcaktimin e një diagnoze përfundimtare pasi të dhënat janë të plota, por ato kanë vështirësi në fillimin e hapur të një rasti, kur nuk ka shumë informacion”, shtoi ajo.

Studiuesit zbuluan se të gjitha modelet dështuan të prodhonin një diagnozë diferenciale të përshtatshme në më shumë se 80% të rasteve. Në diagnozën përfundimtare, shkalla e suksesit varionte nga rreth 60% në mbi 90%, varësisht nga modeli. Shumica e LLM-ve treguan saktësi të përmirësuar kur iu ofruan rezultate laboratorike dhe imazhe, përveç tekstit. Rezultatet identifikuan një grup me performancën më të lartë që përfshinte Grok 4, GPT-5, GPT-4.5, Claude 4.5 Opus, Gemini 3.0 Flash dhe Gemini 3.0 Pro.

Profesionistët mjekësorë janë ende të rëndësishëm Megjithatë, autorët vunë re se, pavarësisht përmirësimeve të bazuara në versione dhe avantazheve në modelet e optimizuara për arsyetim, LLM-të e gatshme nuk e kanë arritur ende nivelin e inteligjencës së kërkuar për vendosje të sigurt dhe mbeten të kufizuara në demonstrimin e arsyetimit të avancuar klinik.

“Rezultatet tona përforcojnë faktin se modelet e mëdha gjuhësore në kujdesin shëndetësor vazhdojnë të kërkojnë një ‘njeri në dijeni’ dhe mbikëqyrje shumë të ngushtë”, vuri në dukje Succi.

Susana Manso García, anëtare e grupit të punës për Inteligjencën Artificiale dhe Shëndetin Dixhital të Shoqatës Spanjolle të Mjekësisë Familjare dhe Komunitare, e cila nuk ishte e përfshirë në studim, tha se gjetjet mbartin një mesazh të qartë për publikun.

“Vetë studimi këmbëngul se ato [modelet gjuhësore] nuk duhet të përdoren për të marrë vendime klinike pa mbikëqyrje. Prandaj, ndërsa inteligjenca artificiale përfaqëson një mjet premtues, gjykimi klinik njerëzor mbetet i domosdoshëm”, tha ajo.

“Rekomandimi për publikun është që t’i përdorin këto teknologji me kujdes dhe, kur përballen me ndonjë shqetësim shëndetësor, të konsultohen gjithmonë me një profesionist të kujdesit shëndetësor.”/Euronews.com