Arxiv Ужёcт Усилил Контроль За Ии‑Текстами: Новые Правила, Штрафы И Запрет «Мошеннических» Статей

TechLand 16 мая 2026 г. 18:54 88 Время чтения: 1 минут.

Arxiv Ужёcт Усилил Контроль За Ии‑Текстами: Новые Правила, Штрафы И Запрет
«Мошеннических» Статей

Ключевые выводы
Почему arXiv начал «чистку» ИИ‑контента?
Новые правила от Томаса Диттерича
Что считается нарушением?
Как будет работать процесс контроля?
Контекст: рост «фантомных» ссылок в науке
Что изменится для исследователей?
Справка

Ключевые выводы

ArXiv ввёл «один‑ударный» запрет на публикацию статей, где обнаружены недоказанные результаты, сгенерированные LLM, с годовой блокировкой аккаунта.
Нарушители должны будут сначала публиковаться в рецензируемом журнале, прежде чем возвращаться к arXiv.
Правила нацелены не на запрет ИИ, а на полную ответственность авторов за любой контент, включая ссылки, цитаты и формулировки, созданные ИИ.

ArXiv, ставший главной площадкой для быстрых публикаций в компьютерных науках и математике, решил ужесточить политику в отношении искусственного интеллекта, чтобы защитить научную достоверность.

Почему arXiv начал «чистку» ИИ‑контента?

В последние годы открытый репозиторий arXiv превратился в основной источник новых исследований, особенно в CS и математике. Несмотря на то, что публикации появляются до традиционного рецензирования, они всё чаще используют большие языковые модели (LLM) для генерации текста. Это привело к росту «мягких» статей: ссылки‑фантазии, неправильные формулировки и даже полностью вымышленные результаты.

Для борьбы с этим arXiv уже требовал от новых авторов «эндорсмента» от уже опубликованного исследователя. Теперь, после перехода в статус независимой некоммерческой организации, проект получил возможность инвестировать в более серьёзные меры контроля.

Новые правила от Томаса Диттерича

Во вторник (5 июня 2025) Томас Диттерих, глава компьютерного раздела arXiv, опубликовал твит, где заявил, что если в статье найдены неопровержимые доказательства того, что результаты не проверялись после генерации ИИ, «мы не можем доверять ни одной части работы». Доказательства включают:

«Галлюцинаторные» (выдуманные) ссылки;
Прямые комментарии в тексте, указывающие на работу LLM;
Отсутствие проверок полученных выводов.

Если такие сигналы обнаружены, авторам грозит годовая блокировка аккаунта, после которой любые новые предзаписи должны проходить предварительное одобрение в рецензируемом журнале.

Что считается нарушением?

Ни один из пунктов не запрещает полностью использовать LLM. Главное требование – полная ответственность за материал, независимо от его происхождения. Таким образом, если автор копирует из ИИ:

неподходящий язык;
плагиат;
смещённые данные;
ошибки в формулах;
неверные ссылки;
вводящий в заблуждение вывод;

– всё это считается нарушением, и санкции применяются одинаково.

Как будет работать процесс контроля?

Модераторы arXiv обязаны отметить подозрительные места и передать их на рассмотрение секционному председателю. При подтверждении фактов применяется «один‑ударный» штраф. Авторы могут подать апелляцию, предоставив доказательства проверки и исправления ошибок.

Эта система схожа с традиционной системой «первого предупреждения», но теперь в ней явно прописан срок блокировки и условие последующей публикации в проверенном журнале.

Контекст: рост «фантомных» ссылок в науке

Недавние исследования в области медицины показали, что количество вымышленных цитат стремительно растёт, и многие из них могут быть следствием использования LLM. Аналогичная проблема наблюдается и в юридических публикациях, где ИИ создал фиктивные судебные решения.

Эти примеры подтверждают, что проблема не относится к отдельным дисциплинам – она становится системной. Поэтому новые меры arXiv — попытка задать «этичный компас» для всей академической среды.

Что изменится для исследователей?

Для большинства авторов нововведения не станут ощутимыми, если они уже проверяют текст, ссылки и выводы. Однако тем, кто полагается исключительно на автогенерацию, придётся:

Тщательно проверять каждую ссылку, выдуманную ИИ;
Сохранять оригиналы запросов к LLM и результаты проверки;
Готовить «протокол проверок», который можно будет представить модераторам.

Соблюдение этих пунктов поможет избежать штрафов и сохранить доступ к популярному репозиторию.

Справка

ArXiv — открытый репозиторий препринтов, основанный в 1991 году при Кортнском университете. Изначально использовался физиками, но сейчас охватывает более 180 тем. За 20 лет существования он стал главным источником новых работ в CS и математике.

Томас Диттерих — профессор Университета Беркли, специалист в области машинного обучения, председатель компьютерного раздела arXiv с 2023 года. Выступает за этичное использование ИИ в науке.

LLM (Large Language Model) — большие языковые модели, такие как GPT‑4, Claude и Llama 2, способные генерировать связный текст по запросу. Их применение в науке растёт, но сопровождается риском «галлюцинаций».

Эндорсмент (endorsement) — система рекомендаций, требуемая arXiv от новых авторов: уже опубликованный автор подтверждает, что новый пользователь понимает правила платформы.

Фантомные (выдуманные) ссылки — цитаты, которые не существуют в реальном мире, часто генерируются ИИ. Они могут вводить в заблуждение рецензентов и читателей.

Итоги просты: если вы доверяете ИИ, проверяйте всё вручную. Иначе аркадные штрафы arXiv могут убрать ваш доступ к главному научному «складищу».

Интересно почитать :

Microsoft запускает собственный чип для AI: Maia 200 выходит на арену

В Microsoft произошло тихое, но значимое событие — их первые собственные AI-чипы Maia 200 начали работу в дата-центрах. Это не просто техническая новинка, а стратегический шаг в гонке за лидерство …

Хакеры украли данные у более чем десятка компаний через уязвимость в Anodot: что происходит и как защититься

Ключевые выводы Группа ShinyHunters получила токены доступа к облачным хранилищам через взлом Anodot и украла данные минимум у 12 компаний. Среди пострадавших – Snowflake (провайдер облачных данных) и Rockstar Games, …

Трамп обсуждает государственный пакет акций в компаниях ИИ: что это значит для американцев

Ключевые выводы Трамп заявил, что обсуждает с руководителями ИИ‑компаний передачу части акций государству, чтобы американцы могли участвовать в росте отрасли. OpenAI рассматривает создание «Public Wealth Fund», из которого доход может …

Google AI Plus стал дешевле: цена $4,99 и удвоенный объём хранилища – что это значит для пользователей?

Ключевые выводы Google снизил ежемесячную стоимость AI Plus с $7,99 до $4,99 и увеличил хранилище с 200 ГБ до 400 ГБ. Сокращение цены – первый ощутимый шаг к «ценовой войне» …

Меридит Уиттакер о чат‑ботах: «Это не друзья, а просто код» – что это значит для пользователей Signal

Ключевые выводы Меридит Уиттакер считает чат‑ботов, включая ChatGPT и Claude, инструментами без сознания, а не «друзьями». Она открыто использует ИИ лишь для форматирования, но избегает задавать вопросы, чтобы не «заслонять» …

Base44 запускает собственный LLM: как стартап из Силиконовой долины бросил вызов крупным AI‑гигантам

Ключевые выводы Base44, купленный Wix за $80 млн, выпустил свою первую крупную языковую модель — Base1, обученную на данных реальных пользователей платформы. Собственная модель обещает снизить задержки, расходы на инференс …