Система штучного інтелекту o1-preview від OpenAI показала вищу точність у постановці діагнозів, ніж люди, під час серії клінічних тестів. Особливо помітною перевага моделі стала у складних і рідкісних медичних випадках.
Дослідження проводили на основі клінічних сценаріїв із перевіреної медичної бази. Модель o1-preview, представлена у 2024 році, правильно визначала діагноз у 89% випадків. Для порівняння, GPT-4 продемонструвала результат у 73%.
Розробники відносять o1-preview до так званих «міркуючих» моделей. Перед формуванням відповіді система аналізує кілька можливих варіантів, перевіряє гіпотези та уточнює висновки — за принципом, схожим на клінічне мислення лікаря.
Найкращі результати модель показала у складних ситуаціях — зокрема при рідкісних інфекціях, аутоімунних захворюваннях легень, ураженнях печінки та серцевих патологіях. У низці завдань система перевершила не лише GPT-4, а й групу практикуючих лікарів. Також ШІ ефективніше визначав подальші дії: необхідні аналізи, тактику лікування та рішення в нестандартних ситуаціях.
Окрему частину дослідження провели на реальних даних із приймального відділення лікарні в Бостоні. Під час аналізу 70 клінічних випадків модель показала кращі результати за двох досвідчених медиків у сортуванні пацієнтів за терміновістю, аналізі симптомів, роботі з медичними записами та ухваленні рішень щодо госпіталізації або виписки.
.
Під час «сліпої» перевірки незалежні експерти не змогли стабільно відрізнити відповіді нейромережі від висновків лікарів. Найбільшу перевагу система демонструвала на початковому етапі, коли інформації про пацієнта було небагато, а рішення потрібно було ухвалювати швидко.
Водночас дослідники наголошують: результати не означають, що штучний інтелект готовий повністю замінити лікарів. У межах експерименту модель працювала лише з текстовими даними й не могла оцінити фізичний стан пацієнта, поведінку, дихання чи реакцію під час огляду.
Фахівці вважають, що подібні системи наразі варто розглядати як інструмент підтримки для медиків, а не як повноцінну альтернативу. Попереду — додаткові клінічні випробування, під час яких перевірятимуть точність, безпеку та надійність рішень ШІ в реальних умовах.
