Ключевые выводы
- Модель OpenAI o1 правильно диагностировала 67 % случаев при первичном триаже, превзойдя двух врачей (55 % и 50 %).
- На всех этапах диагностики o1 показывал либо лучшую, либо сопоставимую точность с врачами, особенно когда информации было мало.
- Исследователи подчеркивают необходимость проспективных клинических испытаний и создания нормативных рамок ответственности за решения ИИ.
Ожидание, что ИИ заменит врачей в экстренной помощи, пока преждевременно, но результаты показывают, что модели уже способны дополнять клиницистов, особенно в самые критичные моменты.
Что исследовали учёные и почему это важно
Команда из Гарвардской медицинской школы и Beth Israel Deaconess Medical Center провела эксперимент, где сравнивали два больших языковых модели OpenAI – o1 и 4o – с реальными врачами‑триажистами. 76 пациентов, попавших в отделение скорой помощи, стали «полем битвы» для ИИ и людей.
Главный вопрос был прост: сможет ли ИИ предложить диагноз быстрее и точнее врача, когда у него на руках лишь те же записи из электронных медкарт, что и у врача? Ответ оказался неожиданно позитивным.
Исследователи специально не «подчищали» данные – модель получала ту же информацию, что и врач в момент триажа. Это важный момент, потому что часто ИИ «обучают» на уже отфильтрованных данных, что делает сравнение нечестным.
Полученные результаты открывают путь к новым клиническим протоколам, где ИИ будет первой линией подсказки, а врач – окончательным арбитром.
Как именно сравнивали точность диагностики
Для каждой из 76 историй два врачa‑триажиста сделали независимые заключения. Затем их решения оценили два других врача, которые не знали, чьи выводы – человеческие или машинные.
Модели o1 и 4o генерировали свои диагнозы в реальном времени, используя только текстовые данные: жалобы пациента, результаты первичных осмотров, лабораторные аналоги, если они уже были сделаны.
Оценка «точный или близкий диагноз» дала такие цифры: o1 – 67 % случаев, врач 1 – 55 %, врач 2 – 50 %. На остальных этапах (например, после получения анализов) o1 оставался в плюсе или хотя бы не отставал от врачей.
Особенно заметна разница была в моменте «первого касания» – когда у врача и у ИИ почти нет данных, а от правильного решения зависит жизнь пациента.
Что говорят авторы исследования
«Мы протестировали ИИ против всех известных нам бенчмарков, и он превзошёл как прежние модели, так и базовые показатели врачей», – заявил Арджун Манрай, руководитель AI‑лаборатории в Harvard Medical School и один из авторов статьи.
Однако в пресс‑релизе команды подчеркнули, что ИИ пока не готов принимать решения «жизнь‑или‑смерть» без человеческого контроля. Главное – необходимость проспективных, то есть «вживую», испытаний в реальных клинических условиях.
Адам Родман, врач Beth Israel и со‑автор исследования, отметил отсутствие формального механизма ответственности за диагнозы, предложенные ИИ. Пациенты, по‑прежнему, хотят, чтобы за важными решениями стояли люди.
Исследователи также указали, что пока ИИ адекватно работает только с текстовыми данными. Обработка изображений (рентген, КТ) пока не входит в его компетенции.
Какие ограничения у текущих моделей
Текстовая природа входных данных – главный узкий момент. Когда дело доходит до визуального анализа (например, интерпретации лучей), современный GPT‑подобный ИИ пока «слеп».
Кроме того, модели обучаются на огромных корпусах публичных и медицинских данных, но их «понимание» ограничено статистическими паттернами, а не реальными клиническими рассуждениями.
Наконец, без надёжной системы аудита и логирования нельзя гарантировать, что ИИ не будет делать систематических ошибок в редких или сложных случаях.
Перспективы: что может поменяться в ближайшие годы
Если последующие проспективные испытания подтвердят результаты, мы можем увидеть интеграцию ИИ‑подсказок в электронные медкарты. Врач получит «всплывающее» предложение диагноза в момент ввода жалоб пациента.
Это потенциально ускорит процесс триажа, уменьшит нагрузку на медперсонал и, главное, сократит количество пропущенных экстренных состояний.
Но рост применения потребует новых нормативов: как фиксировать, кто несёт ответственность за ошибку ИИ? Как обеспечить прозрачность алгоритма перед пациентом?
Ответы на эти вопросы находят в работе регуляторов, страховых компаний и медицинских ассоциаций.
Справка
OpenAI o1 – крупная языковая модель, запущенная в начале 2024 года, оптимизированная для сложных выводов и логических цепочек. Является более «глубокой» по сравнению с предыдущими версиями, умеет проводить несколько шагов рассуждения.
OpenAI 4o – модель‑мультимодальная, способная работать не только с текстом, но и с простыми изображениями. В данном исследовании использовалась только её текстовая часть.
Harvard Medical School (HMS) – одна из старейших и самых влиятельных медицинских школ в мире, основана в 1782 году. Ведёт активные исследования в области цифровой медицины и ИИ.
Beth Israel Deaconess Medical Center (BIDMC) – академический госпиталь при HMS, известный клиническими исследованиями в области кардиологии, онкологии и экстренной медицины.
Арджун Манрай (Arjun Manrai) – профессор биостатистики в HMS, руководитель AI‑лаборатории, удостоен нескольких наград за вклад в развитие медицинской информатики.
Адам Родман (Adam Rodman) – врач‑триажист в BIDMC, соавтор исследования, активно участвует в проектах по внедрению цифровых инструментов в клиническую практику.
Искусственный интеллект уже не фантастика, а реальный помощник в кабинете врача. Сейчас он умеет предложить диагностику быстрее, а в ближайшие годы – станет неотъемлемой частью спасения жизней.







