Arxiv Ужёcт Усилил Контроль За Ии‑Текстами: Новые Правила, Штрафы И Запрет «Мошеннических» Статей

Ключевые выводы

  • ArXiv ввёл «один‑ударный» запрет на публикацию статей, где обнаружены недоказанные результаты, сгенерированные LLM, с годовой блокировкой аккаунта.
  • Нарушители должны будут сначала публиковаться в рецензируемом журнале, прежде чем возвращаться к arXiv.
  • Правила нацелены не на запрет ИИ, а на полную ответственность авторов за любой контент, включая ссылки, цитаты и формулировки, созданные ИИ.
ArXiv, ставший главной площадкой для быстрых публикаций в компьютерных науках и математике, решил ужесточить политику в отношении искусственного интеллекта, чтобы защитить научную достоверность.

Почему arXiv начал «чистку» ИИ‑контента?

В последние годы открытый репозиторий arXiv превратился в основной источник новых исследований, особенно в CS и математике. Несмотря на то, что публикации появляются до традиционного рецензирования, они всё чаще используют большие языковые модели (LLM) для генерации текста. Это привело к росту «мягких» статей: ссылки‑фантазии, неправильные формулировки и даже полностью вымышленные результаты.

Для борьбы с этим arXiv уже требовал от новых авторов «эндорсмента» от уже опубликованного исследователя. Теперь, после перехода в статус независимой некоммерческой организации, проект получил возможность инвестировать в более серьёзные меры контроля.

Новые правила от Томаса Диттерича

Во вторник (5 июня 2025) Томас Диттерих, глава компьютерного раздела arXiv, опубликовал твит, где заявил, что если в статье найдены неопровержимые доказательства того, что результаты не проверялись после генерации ИИ, «мы не можем доверять ни одной части работы». Доказательства включают:

  • «Галлюцинаторные» (выдуманные) ссылки;
  • Прямые комментарии в тексте, указывающие на работу LLM;
  • Отсутствие проверок полученных выводов.

Если такие сигналы обнаружены, авторам грозит годовая блокировка аккаунта, после которой любые новые предзаписи должны проходить предварительное одобрение в рецензируемом журнале.

Что считается нарушением?

Ни один из пунктов не запрещает полностью использовать LLM. Главное требование – полная ответственность за материал, независимо от его происхождения. Таким образом, если автор копирует из ИИ:

  • неподходящий язык;
  • плагиат;
  • смещённые данные;
  • ошибки в формулах;
  • неверные ссылки;
  • вводящий в заблуждение вывод;

– всё это считается нарушением, и санкции применяются одинаково.

Как будет работать процесс контроля?

Модераторы arXiv обязаны отметить подозрительные места и передать их на рассмотрение секционному председателю. При подтверждении фактов применяется «один‑ударный» штраф. Авторы могут подать апелляцию, предоставив доказательства проверки и исправления ошибок.

Эта система схожа с традиционной системой «первого предупреждения», но теперь в ней явно прописан срок блокировки и условие последующей публикации в проверенном журнале.

Контекст: рост «фантомных» ссылок в науке

Недавние исследования в области медицины показали, что количество вымышленных цитат стремительно растёт, и многие из них могут быть следствием использования LLM. Аналогичная проблема наблюдается и в юридических публикациях, где ИИ создал фиктивные судебные решения.

Эти примеры подтверждают, что проблема не относится к отдельным дисциплинам – она становится системной. Поэтому новые меры arXiv — попытка задать «этичный компас» для всей академической среды.

Что изменится для исследователей?

Для большинства авторов нововведения не станут ощутимыми, если они уже проверяют текст, ссылки и выводы. Однако тем, кто полагается исключительно на автогенерацию, придётся:

  1. Тщательно проверять каждую ссылку, выдуманную ИИ;
  2. Сохранять оригиналы запросов к LLM и результаты проверки;
  3. Готовить «протокол проверок», который можно будет представить модераторам.

Соблюдение этих пунктов поможет избежать штрафов и сохранить доступ к популярному репозиторию.

Справка

ArXiv — открытый репозиторий препринтов, основанный в 1991 году при Кортнском университете. Изначально использовался физиками, но сейчас охватывает более 180 тем. За 20 лет существования он стал главным источником новых работ в CS и математике.

Томас Диттерих — профессор Университета Беркли, специалист в области машинного обучения, председатель компьютерного раздела arXiv с 2023 года. Выступает за этичное использование ИИ в науке.

LLM (Large Language Model) — большие языковые модели, такие как GPT‑4, Claude и Llama 2, способные генерировать связный текст по запросу. Их применение в науке растёт, но сопровождается риском «галлюцинаций».

Эндорсмент (endorsement) — система рекомендаций, требуемая arXiv от новых авторов: уже опубликованный автор подтверждает, что новый пользователь понимает правила платформы.

Фантомные (выдуманные) ссылки — цитаты, которые не существуют в реальном мире, часто генерируются ИИ. Они могут вводить в заблуждение рецензентов и читателей.

Итоги просты: если вы доверяете ИИ, проверяйте всё вручную. Иначе аркадные штрафы arXiv могут убрать ваш доступ к главному научному «складищу».

Интересно почитать :

Нуро получила разрешение на тестирование беспилотных Lucid Gravity SUV в
Калифорнии – что дальше?
Нуро получила разрешение на тестирование беспилотных Lucid Gravity SUV в Калифорнии – что дальше?

Ключевые выводы Калифорнийское DMV изменило разрешение Нуро, позволив тестировать автономные SUV Lucid Gravity без оператора. Для полноценного запуска роботакси Uber понадобятся ещё два разрешения: от Комиссии по общественным услугам и …

Смягчение запрета США: Anthropic снова выпускает модель Claude Mythos 5 для
ограниченного круга правительственных и корпоративных клиентов
Смягчение запрета США: Anthropic снова выпускает модель Claude Mythos 5 для ограниченного круга правительственных и корпоративных клиентов

Ключевые выводы Правительство США разрешило доступ к модели Claude Mythos 5 более чем 100 избранным агентствам и крупным компаниям, включая их иностранных сотрудников. Запрет, введённый в начале июня, оставил без …

Сбой в интеграции Notion и Anthropic: что произошло и почему это важно
Сбой в интеграции Notion и Anthropic: что произошло и почему это важно

Ключевые выводы В начале воскресенья Notion временно отключила все модели Anthropic из‑за падения производительности Opus 4.7 и 4.8. Сбой длился около 12 часов, после чего службы восстановили доступ к моделям. …

Entire привлекает рекордные $60 млн на управление кодом от ИИ – как новый
инструмент изменит разработку
Entire привлекает рекордные $60 млн на управление кодом от ИИ – как новый инструмент изменит разработку

Ключевые выводы Стартап Entire получил рекордные $60 млн посевного финансирования при оценке в $300 млн Основатель – Томас Домке, экс-CEO GitHub, создавший Copilot Решение помогает контролировать код, сгенерированный ИИ-агентами Первый …

Ставится ли искусственный интеллект дороже людей? Реальные цифры расходов
американских компаний
Ставится ли искусственный интеллект дороже людей? Реальные цифры расходов американских компаний

Ключевые выводы Только 1 % компаний‑«AI‑pilled» тратят в среднем $7 500 на ИИ за одного сотрудника в месяц, что примерно вдвое ниже средней зарплаты инженера‑программиста ($16 000). Для большинства фирм …

Amazon, Meta и другие крупные игроки выступают против доминирования PhonePe и
Google Pay в системе UPI
Amazon, Meta и другие крупные игроки выступают против доминирования PhonePe и Google Pay в системе UPI

Ключевые выводы Amazon, Meta, Flipkart и другие компании планируют обсудить с NPCI ограничения монополизации UPI‑сервиса крупнейшими игроками PhonePe и Google Pay. PhonePe и Google Pay контролируют около 80 % всех …

ФильтрИзбранноеМеню43750 ₽
Top