- Ключевые выводы
- Почему GPU простаивают, а счета растут: корень проблемы в «статике»
- ScaleOps: автономный пилот для вашего облака
- Основатель Yodar Shafrir: «Проблема шире, чем GPUs»
- Кто ещё в этой игре: Cast AI, Kubecost, Spot
- Финансы, клиенты и рост: 450% год-к-году
- Что дальше: полностью автономная инфраструктура
- Справка
Ключевые выводы
- Компании тратят миллионы на GPU и облачные ресурсы, но до 80% этих мощностей простаивает из-за неэффективного ручного управления и статичных настроек в Kubernetes.
- Израильский стартап ScaleOps, основанный бывшим инженером Run:ai, создал полностью автономную платформу, которая в реальном времени перераспределяет вычислительные ресурсы, снижая затраты на 80% без простоев.
- Сервис привлёк $130 млн на оценке $800 млн благодаря решению «боли» DevOps-команд: он не только показывает проблемы, но и автоматически исправляет их, понимая контекст каждой AI-задачи.
- Клиенты — крупные компании вроде Adobe, Salesforce и Wiz, которые используют Kubernetes для production-сред и устали от постоянной ручной настройки под меняющиеся нагрузки.
- ScaleOps принципиально отличается от конкурентов (Cast AI, Kubecost, Spot) тем, что с самого начала заточен под production-автономию и не требует полумер — система сама принимает решения по ресурсам.
Представьте: вы купили мощный гоночный автомобиль, но ездите только на первой передаче и на 10% мощности. Вот что происходит с GPU в большинстве компаний. Их используют, но ресурсы распределены хаотично, и большая часть мощностей простаивает, генерируя гигантские счета от облачных провайдеров. Проблема не в нехватке железа, а в неспособности им грамотно управлять в реальном времени.
Почему GPU простаивают, а счета растут: корень проблемы в «статике»
Взрывной рост AI создал невиданный спрос на графические процессоры (GPU). Но за этим стоит неочевидная проблема: огромные массивы этих дорогих чипов часто работают вполсилы или вообще простаивают. Причины — в архитектуре управления. Большинство компаний используют Kubernetes для оркестрации контейнеров, но его настройки по умолчанию статичны. Вы задаёте лимиты CPU, памяти, GPU «на все времена», а реальная нагрузка на AI-модели (особенно на этапе inference, то есть работы с пользователями) меняется от секунды к секунде.
В результате: либо задачи «упираются» в нехватку ресурсов и тормозят, либо, наоборот, выделено в разы больше, чем нужно, и мощь гигантского GPU тратится впустую. DevOps-инженеры вынуждены вручную быстро реагировать на алерты, договариваться с командами data science и менять настройки. Это постоянный firefighting, который никогда не заканчивается и не масштабируется.
Существующие инструменты (вроде Kubecost) хороши для отчётности и анализа, но они не решают проблему. Они показывают, где утечка, но не закрывают её автоматически. Отсюда — недоверие инженеров к таким системам, которые могут «сломать» production, если вмешаются без понимания контекста.
ScaleOps: автономный пилот для вашего облака
ScaleOps позиционирует себя как решение не вторичное, а фундаментальное. Платформа не просто мониторит, а полностью автономно управляет всей цепочкой ресурсов — от вычислительных ядер и памяти до storage и сети — в реальном времени. Ключевое отличие: она «понимает» контекст каждой рабочей нагрузки (workload).
Как это работает? Агент ScaleOps интегрируется в ваш кластер Kubernetes. Он непрерывно анализирует, сколько ресурсов на самом деле нужна каждой задаче: запросу к AI-модели, пакетному обучению, инференс-сервису. И на этой основе динамически перераспределяет выделение GPU, CPU и памяти между всеми задачами, без остановки работы. Система не просто «угадывает» — она использует модели, обученные на миллионах событий в production-средах.
По словам компании, такой подход сокращает затраты на инфраструктуру AI и облако на 40–80%. При этом производительность задач не падает, а наоборот, становится стабильнее, потому что системе не нужно стоять в очередях на перегруженных нодах.
Основатель Yodar Shafrir: «Проблема шире, чем GPUs»
За идеей ScaleOps стоит личный опыт её соучредителя и CEO, Йодара Шафрира. До этого он был инженером в Run:ai — израильском стартапе по оркестрации GPU, который недавно купила Nvidia. Он видел, как даже с инструментами типа Run:ai клиенты мучаются с production-нагрузками, особенно с inference, который по природе своей скачкообразен.
«Я понял, что проблема не только в GPU, — рассказывает Шаффар. — Она тянется за всю цепочку: вычисления, память, хранилища, сеть. Паттерны повторялись: команды не могут эффективно управлять ресурсами, потому что системы (вроде Kubernetes) требуют постоянных ручных правок под меняющийся спрос. Нужен не мониторинг, а автономное решение, которое само адаптируется».
Шаффар и его команда собрали экспертов из芋ных (cloud-native) инженеров и data scientist’ов, чтобы построить платформу «с нуля для production». Их убеждение: если система действительно автономна и контекстно-зависима, доверие инженеров придёт само. А без доверия никакая автоматизация не приживётся в ответственных системах.
Кто ещё в этой игре: Cast AI, Kubecost, Spot
Рынок оптимизации облачных затрат и управления ресурсами уже謝謝 several игроков. Cast AI автоматически подбирает оптимальные типы инстансов и настраивает автоскейлинг. Kubecost (купленный IBM) — это в первую очередь платформа видимости и рекомендаций по стоимости. Spot (купленный NetApp) фокусируется на оптимизации спотовых (preemptible) инстансов в облаке.
ScaleOps, однако, считает, что у всех них есть общий недостаток: они либо требуют ручного подтверждения действий (что не решает проблему нехватки времени инженеров), либо работают без полного контекста приложения. «Вы можете получить рекомендацию «увеличьте лимит GPU», — поясняет Шаффар, — но если это происходит в пиковый момент inference, простое увеличение может привести к выбору более дорогого типа инстанса, а не к перераспределению внутри кластера. Наша система видит всю картину: и что нужно приложению, и какие ресурсы свободны, и как изменился спрос за последние секунды».
Финансы, клиенты и рост: 450% год-к-году
ScaleOps привлёк $130 млн в серии C под руководством Insight Partners. Это случилось через полтора года после раунда Series B ($58 млн), что показывает устойчивый интерес инвесторов к автономным инфраструктурным решениям. Общее финансирование теперь около $210 млн. Оценка в $800 млн — серьёзная, но не головокружительная для компании с таким влиянием на затраты клиентов.
Рост компании впечатляет: за год выручка увеличилась на 450%, а штат — втрое. К концу года планируют ещё тройной прирост команды. Клиентская база — это enterprise-компании, работающие с Kubernetes в production, из разных регионов (США, Европа, Индия). Среди них упоминаются Adobe, Wiz, DocuSign, Salesforce, Coupa. Это важный сигнал: крупные игроки с сложными AI/ML-рабочими нагрузками доверяют ScaleOps свою инфраструктуру.
Что дальше: полностью автономная инфраструктура
Деньги из нового раунда пойдут на развитие продукта. Цель — двигаться к полностью автономной инфраструктуре, где система не только управляет ресурсами, но и прогнозирует спрос, предотвращает потенциальные «тормоза» и самозапускает оптимизации. Это следующий логичный шаг после текущей автоматизации в реальном времени.
Миссия ScaleOps становится критически важной: спрос на вычисления для AI только растёт, и инструменты, которые экономят 20-30%, уже не конкурентоспособны. Компании, у которых счета на облако взлетают до небес, готовы платить за решения, которые гарантируют возврат инвестиций (ROI) в разы. Автономность — это не про «замену инженеров», а про освобождение их времени от рутины для решения сложных архитектурных задач.
Справка
ScaleOps: Компания основана в 2022 году в Нью-Йорке с R&D в Израиле. Платформа предназначена для автоматического управления ресурсами в Kubernetes-кластерах, ориентирована на production-среды с AI/ML нагрузками. Среди клиентов — Fortune 500-компании. Утверждает экономию до 80% затрат на вычислительные ресурсы. Всего привлекла ~$210 млн. Ключевое преимущество — полностью автономная работа без ручной конфигурации.
Йодар Шаффар (Yodar Shafrir): Израильский предприниматель и инженер. До ScaleOps работал в Run:ai (приобретена Nvidia), где отвечал за взаимодействие с клиентами и видел проблемы управления GPU в production. Более 15 лет опыта в cloud-native и инфраструктурных технологиях. По инициативе Saw Problems масштабирования AI рабочих нагрузок. В ScaleOps является CEO и техническим лидером.
Run:ai: Израильский стартап (основан в 2017), создававший платформу для оркестрации и виртуализации GPU в Kubernetes. Позволяла разделять GPU между несколькими задачами и обеспечивать приоритезацию. Была приобретена Nvidia в апреле 2024 года. Считается флагманом в области GPU orchestration. Её технология стала стандартом, но ScaleOps полагает, что даже с Run:ai остаются пробелы в автономном управлении ресурсами end-to-end.
Kubernetes (K8s): Опенсорсная система оркестрации контейнеров, изначально разработанная в Google. Стала де-факто стандартом для развёртывания и управления распределёнными приложениями. Её ключевая особенность — декларативная модель и статические конфигурации (YAML-файлы). Это гибкость, но и проблема: для динамичных AI-нагрузок статичные лимиты resources/limits приводят к неэффективному использованию. Многочисленные расширения (operators) пытаются решить эту проблему, но ScaleOps заявляет, что только полностью автономный слой может решить её scale.
GPU (Graphics Processing Unit): Специализированный процессор, изначально для рендеринга графики, но теперь критически важный для AI/ML (обучение и вывод моделей) и высокопроизводительных вычислений. В облаке — самый дорогой и дефицитный ресурс. Неэффективное использование GPU (низкий утилизационный процент) напрямую ведёт к огромным операционным расходам. Управление GPU в multi-tenant Kubernetes-средах — одна из самых сложных инфраструктурных задач.
В итоге, ScaleOps предлагает не просто «оптимизатор», а систему-пилота для облака. Она закрывает разрыв между возможностями Kubernetes (гибкость) и потребностями динамичного AI (автономность). Пока многие бьются с ручными настройками, этот стартап решил поставить автомобиль на автопилот. И если его обещания о 80% экономии подтвердятся на масштабах, это может изменить экономику всего AI-индустрии.








