Arxiv Ужёcт Усилил Контроль За Ии‑Текстами: Новые Правила, Штрафы И Запрет «Мошеннических» Статей

Ключевые выводы

  • ArXiv ввёл «один‑ударный» запрет на публикацию статей, где обнаружены недоказанные результаты, сгенерированные LLM, с годовой блокировкой аккаунта.
  • Нарушители должны будут сначала публиковаться в рецензируемом журнале, прежде чем возвращаться к arXiv.
  • Правила нацелены не на запрет ИИ, а на полную ответственность авторов за любой контент, включая ссылки, цитаты и формулировки, созданные ИИ.
ArXiv, ставший главной площадкой для быстрых публикаций в компьютерных науках и математике, решил ужесточить политику в отношении искусственного интеллекта, чтобы защитить научную достоверность.

Почему arXiv начал «чистку» ИИ‑контента?

В последние годы открытый репозиторий arXiv превратился в основной источник новых исследований, особенно в CS и математике. Несмотря на то, что публикации появляются до традиционного рецензирования, они всё чаще используют большие языковые модели (LLM) для генерации текста. Это привело к росту «мягких» статей: ссылки‑фантазии, неправильные формулировки и даже полностью вымышленные результаты.

Для борьбы с этим arXiv уже требовал от новых авторов «эндорсмента» от уже опубликованного исследователя. Теперь, после перехода в статус независимой некоммерческой организации, проект получил возможность инвестировать в более серьёзные меры контроля.

Новые правила от Томаса Диттерича

Во вторник (5 июня 2025) Томас Диттерих, глава компьютерного раздела arXiv, опубликовал твит, где заявил, что если в статье найдены неопровержимые доказательства того, что результаты не проверялись после генерации ИИ, «мы не можем доверять ни одной части работы». Доказательства включают:

  • «Галлюцинаторные» (выдуманные) ссылки;
  • Прямые комментарии в тексте, указывающие на работу LLM;
  • Отсутствие проверок полученных выводов.

Если такие сигналы обнаружены, авторам грозит годовая блокировка аккаунта, после которой любые новые предзаписи должны проходить предварительное одобрение в рецензируемом журнале.

Что считается нарушением?

Ни один из пунктов не запрещает полностью использовать LLM. Главное требование – полная ответственность за материал, независимо от его происхождения. Таким образом, если автор копирует из ИИ:

  • неподходящий язык;
  • плагиат;
  • смещённые данные;
  • ошибки в формулах;
  • неверные ссылки;
  • вводящий в заблуждение вывод;

– всё это считается нарушением, и санкции применяются одинаково.

Как будет работать процесс контроля?

Модераторы arXiv обязаны отметить подозрительные места и передать их на рассмотрение секционному председателю. При подтверждении фактов применяется «один‑ударный» штраф. Авторы могут подать апелляцию, предоставив доказательства проверки и исправления ошибок.

Эта система схожа с традиционной системой «первого предупреждения», но теперь в ней явно прописан срок блокировки и условие последующей публикации в проверенном журнале.

Контекст: рост «фантомных» ссылок в науке

Недавние исследования в области медицины показали, что количество вымышленных цитат стремительно растёт, и многие из них могут быть следствием использования LLM. Аналогичная проблема наблюдается и в юридических публикациях, где ИИ создал фиктивные судебные решения.

Эти примеры подтверждают, что проблема не относится к отдельным дисциплинам – она становится системной. Поэтому новые меры arXiv — попытка задать «этичный компас» для всей академической среды.

Что изменится для исследователей?

Для большинства авторов нововведения не станут ощутимыми, если они уже проверяют текст, ссылки и выводы. Однако тем, кто полагается исключительно на автогенерацию, придётся:

  1. Тщательно проверять каждую ссылку, выдуманную ИИ;
  2. Сохранять оригиналы запросов к LLM и результаты проверки;
  3. Готовить «протокол проверок», который можно будет представить модераторам.

Соблюдение этих пунктов поможет избежать штрафов и сохранить доступ к популярному репозиторию.

Справка

ArXiv — открытый репозиторий препринтов, основанный в 1991 году при Кортнском университете. Изначально использовался физиками, но сейчас охватывает более 180 тем. За 20 лет существования он стал главным источником новых работ в CS и математике.

Томас Диттерих — профессор Университета Беркли, специалист в области машинного обучения, председатель компьютерного раздела arXiv с 2023 года. Выступает за этичное использование ИИ в науке.

LLM (Large Language Model) — большие языковые модели, такие как GPT‑4, Claude и Llama 2, способные генерировать связный текст по запросу. Их применение в науке растёт, но сопровождается риском «галлюцинаций».

Эндорсмент (endorsement) — система рекомендаций, требуемая arXiv от новых авторов: уже опубликованный автор подтверждает, что новый пользователь понимает правила платформы.

Фантомные (выдуманные) ссылки — цитаты, которые не существуют в реальном мире, часто генерируются ИИ. Они могут вводить в заблуждение рецензентов и читателей.

Итоги просты: если вы доверяете ИИ, проверяйте всё вручную. Иначе аркадные штрафы arXiv могут убрать ваш доступ к главному научному «складищу».

Интересно почитать :

Звёздный старт: какие проекты с Y Combinator Winter 2026 Demo Day заставили
инвесторов бороться за участие
Звёздный старт: какие проекты с Y Combinator Winter 2026 Demo Day заставили инвесторов бороться за участие

Ключевые выводы На зимнем Demo Day Y Combinator 2026 инвесторы выделили стартапы, получившие минимум две "лайков" от разных венчурных фондов. Типичная оценка "простых" стартаповbatch составила около $30 млн — вдвое …

Как обновления моделей изображений в мобильных AI‑приложениях удваивают
скачивания и влияют на доход
Как обновления моделей изображений в мобильных AI‑приложениях удваивают скачивания и влияют на доход

Ключевые выводы Релизы новых моделей генерации изображений увеличивают скачивания мобильных AI‑приложений в среднем в 6,5 раз по сравнению с обычными обновлениями. Самый заметный скачок – у Google Gemini (модель Nano Banana) …

Cameo и TikTok объединились: как интеграция поможет блогерам зарабатывать больше
в 2025 году
Cameo и TikTok объединились: как интеграция поможет блогерам зарабатывать больше в 2025 году

Ключевые выводы Cameo интегрировал сервис заказа персонализированных видео в приложение TikTok для создателей из США. Цель партнёрства — увеличить доходы блогеров и упростить для фанатов процесс заказа видео прямо из …

Meta вводит плату за AI-чатботы в WhatsApp для разработчиков в Италии
Meta вводит плату за AI-чатботы в WhatsApp для разработчиков в Италии

С февраля разработчики в Италии столкнутся с новыми расходами за использование AI-ботов в WhatsApp. Компания Meta впервые вводит плату за нестандартные ответы искусственного интеллекта в бизнес-версии мессенджера. Решение последовало после …

SolarSquare готовится к раунду Series C: новые инвесторы, удвоение оценки и рост
резидентного рынка солнечной энергии в Индии
SolarSquare готовится к раунду Series C: новые инвесторы, удвоение оценки и рост резидентного рынка солнечной энергии в Индии

Ключевые выводы SolarSquare привлек внимание B Capital и Lightspeed Venture Partners, которые готовятся совместно возглавить раунд Series C на сумму $55‑60 млн. Оценка стартапа может вырасти до $450‑500 млн, что …

Shorts и подкасты на большом экране: почему YouTube завоёвывает гостиную
Shorts и подкасты на большом экране: почему YouTube завоёвывает гостиную

Ключевые выводы YouTube Shorts собирает более 2 млрд часов просмотров в месяц на телевизорах. Гостиная стала самым быстрорастущим экраном для платформы; пользователи смотрят более 200 млн часов YouTube‑контента ежедневно в …

ФильтрИзбранноеМеню43750 ₽
Top