Ключевые выводы
- Токен‑бюджеты и количество сгенерированных строк кода показывают лишь часть картины; главный показатель – доля кода, оставшегося в продакшене без доработок.
- Исследования Waydev, GitClear, Faros AI и Jellyfish показывают рост «code churn» от 9,4‑х до 861 % при активном использовании AI‑агентов.
- Для менеджеров важнее отслеживать метрики качества (acceptance rate, post‑review churn) и стоимость токенов, а не только объём выданного кода.
AI‑ассистенты меняют способ написания кода, но без правильных метрик их «производительность» может вводить в заблуждение. Давайте разберём, какие цифры действительно важны для инженерных менеджеров.
Почему измерять токены – плохая идея?
В крупных технологических компаниях часто гордятся тем, сколько токенов (единиц вычислительных ресурсов) используют их инженеры. Это выглядит как показатель «эффективности», но на самом деле измеряется лишь входной ресурс, а не результат.
Токены – это расход энергии, а не качество кода. Если цель – ускорить выпуск фич, то важнее понять, сколько из сгенерированного кода действительно попадает в главный репозиторий без дополнительных правок.
Слишком большой фокус на токенах может даже подтолкнуть команды к неоправданному росту расходов, ведь каждый токен стоит денег.
Поэтому менеджерам стоит переключиться с измерения input (токены, строки) на измерение output (acceptance rate, post‑review churn, стоимость поддержки).
Что показывают аналитические компании?
Ниже – основные выводы из исследований четырёх компаний, работающих в сфере «developer productivity insight».
Waydev опубликовал данные от 50 клиентов (10 000+ инженеров). Они видят «принятие» AI‑кода на уровне 80‑90 %, но реальный показатель падает до 10‑30 % после учёта доработок в последующие недели.
GitClear в январе 2024‑го сообщил, что обычные пользователи AI пишут в среднем в 9,4 раза больше кода, но при этом их «code churn» (удалённые строки) выше в 2‑3 раза, чем у тех, кто не использует AI.
Faros AI проанализировал два года данных и обнаружил рост churn‑а на 861 % при высокой доле AI‑кодинга. Это значит, что добавленное количество строк почти полностью компенсируется их последующим удалением.
Jellyfish исследовал 7 548 инженеров в 1‑м квартале 2026 года. Самые «токенные» разработчики делают в два раза больше pull‑request’ов, но их стоимость в токенах в 10 раз выше, а прирост продуктивности – почти нулевой.
Код‑хлам: почему растёт количество правок?
AI‑ассистенты (Claude Code, Cursor, Codex) генерируют готовый синтаксис, но часто упускают бизнес‑логику, архитектурные ограничения и стилистические правила проекта. Поэтому инженерам приходится возвращаться к «принятому» коду, исправлять баги и убирать технический долг.
Старшие разработчики обычно более критичны к AI‑генерации: они реже принимают такой код, но когда принимают – правки минимальны. Младшие же инженеры часто соглашаются на AI‑решения, а затем тратят часы на рефакторинг.
Таким образом, рост объёма кода сопровождается ростом количества конфликтов в ветках, увеличением времени на code review и накоплением долговой техники.
Что измерять, чтобы понять реальную эффективность?
Ниже – набор метрик, которые помогают увидеть полную картину.
- Acceptance rate (сразу принятый AI‑код) – процент PR, принятых без доработок.
- Post‑review churn – сколько строк удалили/изменили в течение 1‑2 недель после merge.
- Cost per accepted line – затраты токенов на каждую строку кода, оставшуюся в продакшене.
- Time to production – среднее время от генерации AI‑фрагмента до его деплоя.
- Technical debt index – оценка роста долговой техники, связанная с AI‑кодом.
Комбинируя эти показатели, менеджеры могут понять, где AI приносит реальную ценность, а где – лишь «шум».
Практические рекомендации для менеджеров
1. **Внедрить дашборд метрик** – используйте платформы Waydev, GitClear или собственные BI‑решения, чтобы в реальном времени видеть acceptance rate и post‑review churn.
2. **Установить лимит токенов, а не «бадж»** – ограничьте расход токенов на проект, а не на отдельного разработчика, чтобы избежать «гонки токенов».
3. **Обучать инженеров работе с AI** – проводите воркшопы, показывающие типичные ошибки и способы их исправления без лишних правок.
4. **Разделять метрики по уровням** – сравнивайте senior и junior группы отдельно, чтобы увидеть разницу в эффективности принятия AI‑кода.
5. **Отслеживать стоимость поддержки** – учитывайте не только затраты на генерацию кода, но и расходы на последующий рефакторинг и тестирование.
Справка
Waydev – аналитическая платформа, основанная в 2017 году, специализируется на измерении продуктивности разработчиков. Компания обслуживает более 50 клиентов и более 10 000 инженеров, предоставляя метрики accept rate, cycle time и cost per PR.
Alex Circei – со‑основатель и CEO Waydev. До основания Waydev работал в сфере HR‑технологий и ранее писал для нескольких стартапов в сфере аналитики.
GitClear – сервис, фокусирующийся на измерении code churn и технического долга. В 2024‑м году выпустил отчёт, где AI‑пользователи показали в 9,4 раз больше кода, но сдвиг в churn более чем вдвое.
Faros AI – платформа инженерной аналитики, основанная в 2019 году, использует машинное обучение для предсказания производительности команд. Их исследование 2026‑го показало рост churn‑а на 861 % при высокой AI‑адопции.
Jellyfish – платформа «intelligence» для AI‑интегрированных команд, основанная в 2020‑м. Анализ 7 548 инженеров подтверждает, что рост token‑budget не приводит к пропорциональному росту результата.
Claude Code, Cursor, Codex – современные AI‑кодинг‑ассистенты. Claude Code от Anthropic, Cursor от стартапа Cursor, а Codex – модель от OpenAI, использующаясь в GitHub Copilot. Все они генерируют готовый код, но часто требуют последующего дораспределения.
Итог прост: количество токенов и строк кода – лишь первая часть истории. Чтобы действительно знать, помогает ли AI‑ассистент, измеряйте качество, стоимость и количество доработок после внедрения кода.






