Ключевые выводы
- Рост цен на инференс заставляет компании переосмыслить выбор моделей и отдать предпочтение более дешёвым вариантам.
- По прогнозу сооснователя Coinbase Брайана Армстронга, в течение 12‑18 месяцев 80 % нагрузок перейдут на модели, стоящие в 99 % дешевле.
- Тесты юридического сервиса Harvey показали, что переход на комбинацию Claude Opus и Fireworks GLM 5.1 снизил затраты в 3 раз без потери качества.
- Смещение фокуса с «чем больше — тем лучше» на «какова эффективность за цену» может ударить по доходам крупных лабораторий вроде OpenAI и Anthropic.
- Вопрос, готова ли индустрия массово перейти к небольшим моделям, останется открытым до тех пор, пока не появятся масштабные кейсы‑доказательства.
В эпоху, когда токены стоят всё дороже, разумный выбор модели становится критическим фактором конкурентоспособности. В статье мы разберём, почему крупнейшие игроки могут утратить своё преимущество и какие возможности открываются перед малым и средним бизнесом.
Секретный драйвер: рост стоимости инференса
Искусственный интеллект долгое время рос на основе простой идеи: чем больше модель, тем мощнее её результаты, и победит та, что покажет самую высокую точность. Эта «скейлинговая» формула работала, пока инвесторы субсидировали вычислительные ресурсы. Сейчас цены на токены растут, а субсидии уменьшаются, и пользователи вынуждены искать более экономичные варианты.
Новые бюджеты заставляют компании рассматривать “модели‑экономичнее”. Слишком дорогие запросы к GPT‑5.5 или к продукции Anthropic уже не могут покрываться в долгосрочной перспективе, особенно в масштабных проектах.
Примером такой смены будет недавний тест юридического ИИ‑инструмента Harvey. Вместе с платформой инференса Fireworks AI они заменили часть тяжёлых запросов на Claude Opus и GLM 5.1. Результат — в три раза меньше расходов, а качество осталось на прежнем уровне.
Таким образом, стоимость становится новым параметром сравнения моделей, а не только их «IQ».
Прогноз от Брайана Армстронга: 80 % нагрузок перейдут на дешёвые модели
Брайан Армстронг, сооснователь Coinbase и известный инвестор в области ИИ, поделился смелым предсказанием в своём посте в X:
«Спрос на интеллект почти бесконечен, но 80 % рабочих нагрузок будет работать на 99 % более дешевых моделях в течение 12‑18 месяцев».
Оставшиеся 20 % всё ещё будут требовать самых новых и мощных моделей, где важна «максимальная интеллектуальная эффективность». Если это сбудется, то крупные лаборатории, такие как OpenAI и Anthropic, могут ощутить серьёзный финансовый удар именно в момент их подготовки к IPO.
Для большинства компаний это будет шанс сэкономить без потери качества, а для стартапов — возможность конкурировать с крупными игроками, используя доступные модели.
Крупные модели против мелких: где правда?
Традиционно компании выбирали модели по принципу «по умолчанию — самая передовая». Теперь же появляется реальная возможность подменить их более лёгкими, если они удовлетворяют требованиям к качеству.
Переход от GPT‑5.5 к DeepSeek V4 Flash может сэкономить десятки тысяч долларов в год, но иногда достаточно просто переключиться на GPT‑5.4‑mini, который предлагает почти такой же уровень надёжности при существенно меньших расходах.
Важно отметить, что конкурентная борьба сейчас происходит не столько между «закрытыми» и «открытыми» моделями, сколько между «большими» и «маленькими». Независимо от того, победят ли китайские модели или открытые репозитории, суть остаётся той же: клиент ищет оптимальное соотношение цены и качества.
Почему масштабные модели всё ещё нужны?
В некоторых задачах – исследовательская работа, генерация кода, глубинный анализ данных – «чем больше, тем лучше» пока остаётся актуальным. Такие сценарии требуют максимального объёма контекста и способности находить нестандартные решения.
Но даже в этих случаях можно комбинировать подход: использовать большую модель только для «трудных» запросов, а простые операции отдавать экономичным альтернативам. Такой гибридный режим уже проверен в практике Harvey и может стать отраслевым стандартом.
Влияние на рынок и будущие IPO
Если большая часть нагрузки перейдёт к дешёвым моделям, доходы крупнейших лабораторий могут сократиться на десятки процентов. Это создаст давление на их планируемые IPO, поскольку инвесторы будут требовать доказательства дальнейшего роста доходов.
С другой стороны, появление массового спроса на «экономичные ИИ‑решения» откроет новые возможности для компаний‑посредников, которые специализируются на кастомизации и обслуживании мелких моделей.
Тонкая грань между экономией и потерей качества станет критической точкой принятия решений для руководителей IT‑отделов.
Что делать компаниям прямо сейчас?
1. **Аудит текущих расходов** – измерьте, сколько вы тратите на запросы к крупным моделям. 2. **Тестовые пилоты** – попробуйте заменить часть запросов на более лёгкие модели и сравните метрики качества. 3. **Гибридные стратегии** – используйте большую модель только для сложных задач, а простые операции перенесите на дешёвые альтернативы. 4. **Следите за ценами токенов** – они быстро меняются, и своевременная реакция может сэкономить значительные суммы.
Эти шаги помогут не только выжить в условиях растущих расходов, но и получить конкурентное преимущество за счёт более эффективного использования ИИ‑ресурсов.
Справка
OpenAI – американская исследовательская компания, основанная в 2015 году, создатель GPT‑серии. Среди достижений – GPT‑4, ChatGPT и DALL·E. Компания привлекла более 10 млрд долларов инвестиций и готовится к IPO.
Anthropic – стартап в области ИИ, основанный в 2021 году бывшими сотрудниками OpenAI. Разработал Claude, серию моделей, ориентированных на безопасность и интерпретируемость.
Coinbase – крупнейшая в США криптовалютная биржа, основанная в 2012 году. Брайан Армстронг, сооснователь и бывший CTO, активно инвестирует в ИИ‑технологии.
Harvey – юридический ИИ‑сервис, предоставляющий помощь в составлении договоров и анализе правовых документов. В 2024 году провёл тест, заменив часть запросов на более дешёвые модели, сократив расходы в 3 раза.
Fireworks AI – платформа инференса, предлагающая гибкие тарифы и поддержку открытых моделей. Сотрудничает с различными поставщиками, предоставляя API для интеграции в бизнес‑приложения.
Итог ясен: в скором времени большинство компаний будет искать баланс между качеством и стоимостью, а крупные модели могут стать лишь нишевым инструментом для самых требовательных задач.








