Почему Крупные Языковые Модели Могут Потерять Лидерство: Переход К Дешевым Ии‑Решениям

Ключевые выводы

  • Рост цен на инференс заставляет компании переосмыслить выбор моделей и отдать предпочтение более дешёвым вариантам.
  • По прогнозу сооснователя Coinbase Брайана Армстронга, в течение 12‑18 месяцев 80 % нагрузок перейдут на модели, стоящие в 99 % дешевле.
  • Тесты юридического сервиса Harvey показали, что переход на комбинацию Claude Opus и Fireworks GLM 5.1 снизил затраты в 3 раз без потери качества.
  • Смещение фокуса с «чем больше — тем лучше» на «какова эффективность за цену» может ударить по доходам крупных лабораторий вроде OpenAI и Anthropic.
  • Вопрос, готова ли индустрия массово перейти к небольшим моделям, останется открытым до тех пор, пока не появятся масштабные кейсы‑доказательства.
В эпоху, когда токены стоят всё дороже, разумный выбор модели становится критическим фактором конкурентоспособности. В статье мы разберём, почему крупнейшие игроки могут утратить своё преимущество и какие возможности открываются перед малым и средним бизнесом.

Секретный драйвер: рост стоимости инференса

Искусственный интеллект долгое время рос на основе простой идеи: чем больше модель, тем мощнее её результаты, и победит та, что покажет самую высокую точность. Эта «скейлинговая» формула работала, пока инвесторы субсидировали вычислительные ресурсы. Сейчас цены на токены растут, а субсидии уменьшаются, и пользователи вынуждены искать более экономичные варианты.

Новые бюджеты заставляют компании рассматривать “модели‑экономичнее”. Слишком дорогие запросы к GPT‑5.5 или к продукции Anthropic уже не могут покрываться в долгосрочной перспективе, особенно в масштабных проектах.

Примером такой смены будет недавний тест юридического ИИ‑инструмента Harvey. Вместе с платформой инференса Fireworks AI они заменили часть тяжёлых запросов на Claude Opus и GLM 5.1. Результат — в три раза меньше расходов, а качество осталось на прежнем уровне.

Таким образом, стоимость становится новым параметром сравнения моделей, а не только их «IQ».

Прогноз от Брайана Армстронга: 80 % нагрузок перейдут на дешёвые модели

Брайан Армстронг, сооснователь Coinbase и известный инвестор в области ИИ, поделился смелым предсказанием в своём посте в X:

«Спрос на интеллект почти бесконечен, но 80 % рабочих нагрузок будет работать на 99 % более дешевых моделях в течение 12‑18 месяцев».

Оставшиеся 20 % всё ещё будут требовать самых новых и мощных моделей, где важна «максимальная интеллектуальная эффективность». Если это сбудется, то крупные лаборатории, такие как OpenAI и Anthropic, могут ощутить серьёзный финансовый удар именно в момент их подготовки к IPO.

Для большинства компаний это будет шанс сэкономить без потери качества, а для стартапов — возможность конкурировать с крупными игроками, используя доступные модели.

Крупные модели против мелких: где правда?

Традиционно компании выбирали модели по принципу «по умолчанию — самая передовая». Теперь же появляется реальная возможность подменить их более лёгкими, если они удовлетворяют требованиям к качеству.

Переход от GPT‑5.5 к DeepSeek V4 Flash может сэкономить десятки тысяч долларов в год, но иногда достаточно просто переключиться на GPT‑5.4‑mini, который предлагает почти такой же уровень надёжности при существенно меньших расходах.

Важно отметить, что конкурентная борьба сейчас происходит не столько между «закрытыми» и «открытыми» моделями, сколько между «большими» и «маленькими». Независимо от того, победят ли китайские модели или открытые репозитории, суть остаётся той же: клиент ищет оптимальное соотношение цены и качества.

Почему масштабные модели всё ещё нужны?

В некоторых задачах – исследовательская работа, генерация кода, глубинный анализ данных – «чем больше, тем лучше» пока остаётся актуальным. Такие сценарии требуют максимального объёма контекста и способности находить нестандартные решения.

Но даже в этих случаях можно комбинировать подход: использовать большую модель только для «трудных» запросов, а простые операции отдавать экономичным альтернативам. Такой гибридный режим уже проверен в практике Harvey и может стать отраслевым стандартом.

Влияние на рынок и будущие IPO

Если большая часть нагрузки перейдёт к дешёвым моделям, доходы крупнейших лабораторий могут сократиться на десятки процентов. Это создаст давление на их планируемые IPO, поскольку инвесторы будут требовать доказательства дальнейшего роста доходов.

С другой стороны, появление массового спроса на «экономичные ИИ‑решения» откроет новые возможности для компаний‑посредников, которые специализируются на кастомизации и обслуживании мелких моделей.

Тонкая грань между экономией и потерей качества станет критической точкой принятия решений для руководителей IT‑отделов.

Что делать компаниям прямо сейчас?

1. **Аудит текущих расходов** – измерьте, сколько вы тратите на запросы к крупным моделям. 2. **Тестовые пилоты** – попробуйте заменить часть запросов на более лёгкие модели и сравните метрики качества. 3. **Гибридные стратегии** – используйте большую модель только для сложных задач, а простые операции перенесите на дешёвые альтернативы. 4. **Следите за ценами токенов** – они быстро меняются, и своевременная реакция может сэкономить значительные суммы.

Эти шаги помогут не только выжить в условиях растущих расходов, но и получить конкурентное преимущество за счёт более эффективного использования ИИ‑ресурсов.

Справка

OpenAI – американская исследовательская компания, основанная в 2015 году, создатель GPT‑серии. Среди достижений – GPT‑4, ChatGPT и DALL·E. Компания привлекла более 10 млрд долларов инвестиций и готовится к IPO.

Anthropic – стартап в области ИИ, основанный в 2021 году бывшими сотрудниками OpenAI. Разработал Claude, серию моделей, ориентированных на безопасность и интерпретируемость.

Coinbase – крупнейшая в США криптовалютная биржа, основанная в 2012 году. Брайан Армстронг, сооснователь и бывший CTO, активно инвестирует в ИИ‑технологии.

Harvey – юридический ИИ‑сервис, предоставляющий помощь в составлении договоров и анализе правовых документов. В 2024 году провёл тест, заменив часть запросов на более дешёвые модели, сократив расходы в 3 раза.

Fireworks AI – платформа инференса, предлагающая гибкие тарифы и поддержку открытых моделей. Сотрудничает с различными поставщиками, предоставляя API для интеграции в бизнес‑приложения.

Итог ясен: в скором времени большинство компаний будет искать баланс между качеством и стоимостью, а крупные модели могут стать лишь нишевым инструментом для самых требовательных задач.

Интересно почитать :

Тео Бейкер выпускает книгу «Как править миром»: откровенный взгляд на Станфорд и
Силиконову долину
Тео Бейкер выпускает книгу «Как править миром»: откровенный взгляд на Станфорд и Силиконову долину

Ключевые выводы Тео Бейкер, выпускник Станфорда, получил книжный контракт и премию Джордж Полк за расследовательскую журналистику. «Как править миром» раскрывает, как в Станфорде устроена система венчурных инвестиций: от «pre‑idea funding» …

Alexa Podcasts — как Amazon превратил голосового помощника в генератор подкастов
за считанные минуты
Alexa Podcasts — как Amazon превратил голосового помощника в генератор подкастов за считанные минуты

Ключевые выводы Amazon добавил в Alexa+ функцию «Alexa Podcasts», позволяющую создавать подкасты по запросу за несколько минут. Сервис использует ИИ‑генерацию голоса, а также партнерства с более чем 200 новостными источниками …

Эридy: как ветеран интернет-эпохи создаёт новую эру ИИ-сетей
Эридy: как ветеран интернет-эпохи создаёт новую эру ИИ-сетей

Ключевые выводы Эридy привлёк $230 млн в рамках серии A для создания нового поколения ИИ-сетевых чипов Основатель Drew Perkins изобрёл протокол PPP, который стал частью TCP/IP Новые чипы Эридy интегрируют …

X Тестирует Новый Формат Рекламы: Встроенные Рекомендации под Постами
X Тестирует Новый Формат Рекламы: Встроенные Рекомендации под Постами

Ключевые выводы X тестирует новый формат рекламы, встраивая рекомендации под посты, ссылающиеся на компанию или её продукты Тестовый рекламный блок "Get Starlink" появился под постом о сервисе спутникового интернета Глава …

Смерть работника на складе Rivian: расследование OSHA и проблемы безопасности в
автопроме
Смерть работника на складе Rivian: расследование OSHA и проблемы безопасности в автопроме

Ключевые выводы OSHA начало расследование смерти работника на складе Rivian в Иллинойсе Инцидент произошел 6 марта 2026 года, работник погиб от травм, полученных между прицепом и погрузочной площадкой 61-летний Kevin …

Как стартап ScaleOps экономит до 80% расходов на облако, устраняя «простой» GPU
и решая проблему статичных настроек Kubernetes
Как стартап ScaleOps экономит до 80% расходов на облако, устраняя «простой» GPU и решая проблему статичных настроек Kubernetes

Ключевые выводы Компании тратят миллионы на GPU и облачные ресурсы, но до 80% этих мощностей простаивает из-за неэффективного ручного управления и статичных настроек в Kubernetes. Израильский стартап ScaleOps, основанный бывшим …

ФильтрИзбранноеМеню43750 ₽
Top