Ключевые выводы
- ArXiv ввёл «один‑ударный» запрет на публикацию статей, где обнаружены недоказанные результаты, сгенерированные LLM, с годовой блокировкой аккаунта.
- Нарушители должны будут сначала публиковаться в рецензируемом журнале, прежде чем возвращаться к arXiv.
- Правила нацелены не на запрет ИИ, а на полную ответственность авторов за любой контент, включая ссылки, цитаты и формулировки, созданные ИИ.
ArXiv, ставший главной площадкой для быстрых публикаций в компьютерных науках и математике, решил ужесточить политику в отношении искусственного интеллекта, чтобы защитить научную достоверность.
Почему arXiv начал «чистку» ИИ‑контента?
В последние годы открытый репозиторий arXiv превратился в основной источник новых исследований, особенно в CS и математике. Несмотря на то, что публикации появляются до традиционного рецензирования, они всё чаще используют большие языковые модели (LLM) для генерации текста. Это привело к росту «мягких» статей: ссылки‑фантазии, неправильные формулировки и даже полностью вымышленные результаты.
Для борьбы с этим arXiv уже требовал от новых авторов «эндорсмента» от уже опубликованного исследователя. Теперь, после перехода в статус независимой некоммерческой организации, проект получил возможность инвестировать в более серьёзные меры контроля.
Новые правила от Томаса Диттерича
Во вторник (5 июня 2025) Томас Диттерих, глава компьютерного раздела arXiv, опубликовал твит, где заявил, что если в статье найдены неопровержимые доказательства того, что результаты не проверялись после генерации ИИ, «мы не можем доверять ни одной части работы». Доказательства включают:
- «Галлюцинаторные» (выдуманные) ссылки;
- Прямые комментарии в тексте, указывающие на работу LLM;
- Отсутствие проверок полученных выводов.
Если такие сигналы обнаружены, авторам грозит годовая блокировка аккаунта, после которой любые новые предзаписи должны проходить предварительное одобрение в рецензируемом журнале.
Что считается нарушением?
Ни один из пунктов не запрещает полностью использовать LLM. Главное требование – полная ответственность за материал, независимо от его происхождения. Таким образом, если автор копирует из ИИ:
- неподходящий язык;
- плагиат;
- смещённые данные;
- ошибки в формулах;
- неверные ссылки;
- вводящий в заблуждение вывод;
– всё это считается нарушением, и санкции применяются одинаково.
Как будет работать процесс контроля?
Модераторы arXiv обязаны отметить подозрительные места и передать их на рассмотрение секционному председателю. При подтверждении фактов применяется «один‑ударный» штраф. Авторы могут подать апелляцию, предоставив доказательства проверки и исправления ошибок.
Эта система схожа с традиционной системой «первого предупреждения», но теперь в ней явно прописан срок блокировки и условие последующей публикации в проверенном журнале.
Контекст: рост «фантомных» ссылок в науке
Недавние исследования в области медицины показали, что количество вымышленных цитат стремительно растёт, и многие из них могут быть следствием использования LLM. Аналогичная проблема наблюдается и в юридических публикациях, где ИИ создал фиктивные судебные решения.
Эти примеры подтверждают, что проблема не относится к отдельным дисциплинам – она становится системной. Поэтому новые меры arXiv — попытка задать «этичный компас» для всей академической среды.
Что изменится для исследователей?
Для большинства авторов нововведения не станут ощутимыми, если они уже проверяют текст, ссылки и выводы. Однако тем, кто полагается исключительно на автогенерацию, придётся:
- Тщательно проверять каждую ссылку, выдуманную ИИ;
- Сохранять оригиналы запросов к LLM и результаты проверки;
- Готовить «протокол проверок», который можно будет представить модераторам.
Соблюдение этих пунктов поможет избежать штрафов и сохранить доступ к популярному репозиторию.
Справка
ArXiv — открытый репозиторий препринтов, основанный в 1991 году при Кортнском университете. Изначально использовался физиками, но сейчас охватывает более 180 тем. За 20 лет существования он стал главным источником новых работ в CS и математике.
Томас Диттерих — профессор Университета Беркли, специалист в области машинного обучения, председатель компьютерного раздела arXiv с 2023 года. Выступает за этичное использование ИИ в науке.
LLM (Large Language Model) — большие языковые модели, такие как GPT‑4, Claude и Llama 2, способные генерировать связный текст по запросу. Их применение в науке растёт, но сопровождается риском «галлюцинаций».
Эндорсмент (endorsement) — система рекомендаций, требуемая arXiv от новых авторов: уже опубликованный автор подтверждает, что новый пользователь понимает правила платформы.
Фантомные (выдуманные) ссылки — цитаты, которые не существуют в реальном мире, часто генерируются ИИ. Они могут вводить в заблуждение рецензентов и читателей.
Итоги просты: если вы доверяете ИИ, проверяйте всё вручную. Иначе аркадные штрафы arXiv могут убрать ваш доступ к главному научному «складищу».







