Patronus Ai: Как Цифровые Симуляции Делают Агентных Ии Надёжнее И Готовыми К Реальным Задачам

Ключевые выводы

  • Patronus AI предлагает «цифровые миры», где агентные ИИ проходят стресс‑тесты, похожие на автотесты Waymo.
  • Стартап привлек $50 млн в Series B, суммарный фонд $70 млн, а его клиентская база охватывает почти все ведущие AI‑лаборатории.
  • Технология позволяет проверять сложные, многократные задачи (от разработки ПО до финансового анализа) без участия человека.
Искусственный интеллект быстро переходит от простого ответа на вопросы к самостоятельному выполнению многошаговых процессов. Но без надёжного тестирования такие “агенты” рискуют делать короткие ухищрения и давать неверные результаты. Здесь на сцену выходит Patronus AI – компания, которая создала виртуальные лаборатории, где ИИ можно проверить в любой, даже экстремальной, ситуации.

Почему простые бенчмарки уже не работают

Традиционные тесты измеряют, насколько ИИ хорошо отвечает на заранее определённые вопросы. Это помогает понять «способность к языку», но ничего не говорит о том, сможет ли агент выполнить реальную задачу, скажем, забронировать билет или подготовить финансовый отчёт. В реальном мире ошибки часто скрыты в цепочке действий, а не в одном‑единственном ответе.

Более того, даже «агент‑ориентированные» бенчмарки могут быть «игрой в угадайку» – модель получает высокий балл, просто находя обходные пути, а не решая задачу правильно. Поэтому инвесторы и исследователи начали искать более строгие способы проверки.

Patronus AI построил решение, которое берёт на вооружение опыт автопилотов: сначала создаётся цифровая копия среды, потом агент проходит через неё, сталкиваясь с редкими и непредвиденными ситуациями. Такой подход позволяет увидеть, где модель «хакнула» процесс и где действительно работает.

Результат – возможность оценить надёжность ИИ в масштабе от часа до недель непрерывной работы без человеческого надзора.

Как работают «цифровые миры» Patronus

Компания называет свою технологию «digital world models». По сути, это программные реплики веб‑сайтов, внутренних систем компаний и даже бизнес‑процессов. Внутри этих реплик агент обучается с помощью reinforcement learning: каждый успешно завершённый шаг отдаёт награду, ошибка – штраф.

Сценарий выглядит так:

  1. Создаётся модель среды (например, платёжная система банка).
  2. ИИ получает задание (например, выполнить трансфер $10 000).
  3. Агент последовательно взаимодействует с элементами среды, получая обратную связь.
  4. Система фиксирует, где агент ищет «короткие пути», а где следует протоколу.

Такой цикл повторяется сотни раз, пока модель не научится действовать без ошибок. По словам со‑основателей, они уже тестируют агентов, способных работать непрерывно 10 часов, 10 дней и даже 10 недель.

Кому уже нужны такие проверки?

Сейчас Patronus обслуживает две основные отрасли – разработку программного обеспечения и финансы. В первой сфере модели проверяют, умеют ли они правильно собирать код, запускать тесты и подавать запросы в CI/CD. Во второй – способны ли ИИ делать расчёты, генерировать отчёты и соблюдать регуляторные правила.

Но команда уже смотрит дальше. По словам со‑основателя Ананда Каннапан, в планах – верификация «неверифицируемых» задач: например, оценка творческих решений или поддержка клиентского сервиса в условиях, где результат сложно формализовать.

Среди клиентов – почти все ведущие AI‑лаборатории, а также стартапы, которые хотят «продать» свои агенты крупным корпорациям. Как отметил Гленн Соломон из Notable Capital, спрос на такие симуляции «почти несъедобный».

Финансирование и рост компании

Patronus AI стартовал в 2023 году, когда два бывших исследователя Meta* AI – Ананд Каннапан и Ребекка Цян – решили, что нужна более надёжная проверка агентных моделей. За первый год доход вырос в 15 раз, что привлекло внимание инвесторов.

В четверг компания объявила о завершении раунда Series B на $50 млн. Во главе стоял Greenfield Partners, а также Notable Capital, Lightspeed, Datadog и Samsung. С учётом предыдущих инвестиций общая сумма финансирования теперь $70 млн.

Эти деньги идут на расширение инфраструктуры симуляций, а также на привлечение новых отраслевых экспертов, чтобы покрыть такие направления, как медицина и логистика.

Конкурентный ландшафт

На рынке уже существуют компании, предлагающие человеческие наборы данных для обучения (например, Mercor, Surge). Их подход – собрать людей, которые оценят поведение модели, а затем скорректировать её. Patronus же делает ставку на полностью автоматическую оценку: агент проходит тест без вмешательства человека, а система сама фиксирует отклонения.

Кроме того, многие крупные AI‑лаборатории пытаются построить собственные внутренние платформы тестирования. Patronus позиционирует себя как более гибкую и готовую к использованию «из коробки» альтернативу.

Что это значит для будущего агентных ИИ?

Если агентные модели будут проходить такие тщательные проверки, пользователи смогут доверять им более сложные задачи – от планирования поездок до проведения финансовых аудитов. Это, в свою очередь, ускорит коммерциализацию ИИ‑ассистентов и уменьшит риски ошибок в критически важных процессах.

В итоге, цифровые миры становятся тем «полигоном», где ИИ получает «пилотный» опыт, прежде чем выйти в реальный мир. И пока конкуренты пытаются догнать, Patronus уже собирает данные, обучает новые модели и расширяет границы проверяемых сценариев.

Справка

Patronus AI – стартап из Сан‑Франциско, основанный в 2023 году бывшими исследователями Meta* AI – Анандом Каннапаном и Ребеккой Цян. Компания создает «digital world models», т.е. программные копии веб‑сайтов и внутренних систем для тестирования агентных ИИ. За первый год выручка выросла в 15 раз, а в 2024‑м году был закрыт раунд Series B на $50 млн, доведя общий капитал до $70 млн.

Ананд Каннапан – со‑основатель и CEO Patronus AI, ранее работал в исследовательском отделе Meta* AI, где занимался развитием больших языковых моделей. Он известен своими публикациями о применении reinforcement learning в задачах с множеством шагов.

Ребекка Цян – со‑основатель и CTO Patronus AI, бывший старший исследователь в Meta* AI. Специализируется на построении симуляций и цифровых копий реальных систем, а также на интеграции RL‑алгоритмов в бизнес‑процессы.

Greenfield Partners – венчурный фонд, ведущий инвестор в Series B Patronus AI. Фонд фокусируется на компаниях, разрабатывающих инфраструктуру и инструменты для ИИ‑разработки.

Reinforcement Learning (RL) – метод машинного обучения, где агент получает награды за правильные действия и штрафы за ошибки. Patronus использует RL, чтобы «научить» ИИ выполнять задачи в своих цифровых мирах.

Waymo – компания, разрабатывающая автопилоты для автомобилей. Waymo обучает свои системы в синтетических мирах, создавая опасные сценарии, которые редко встречаются в реальном мире. Patronus сравнивает свой подход именно с этим методом.

Сейчас агентные ИИ находятся на пороге масштабного применения, но без надёжного тестирования они могут стать источником ошибок. Patronus AI предлагает практический способ проверить их в безопасной, но реальной‑похоже среде. Если вы хотите, чтобы ваш ИИ действительно «делал» а не просто «отвечал», стоит обратить внимание на такую проверку.

Примечания:

  • * Meta признана экстремистской организацией и запрещена в РФ

Интересно почитать :

Что такое храповый механизм трещотки в наборах инструментов и как он работает
Что такое храповый механизм трещотки в наборах инструментов и как он работает

Кратко: Храповый механизм состоит из храпового колеса и собачки – это всё, что определяет угол шагов и грузоподъёмность. Угол поворота = 360° ÷ кол‑во зубьев; 24 зуба ≈ 15°, 72 …

Неожиданный поворот: как Luminar продала лидарный бизнес MicroVision вопреки
новой заявке
Неожиданный поворот: как Luminar продала лидарный бизнес MicroVision вопреки новой заявке

Судьба лидарного подразделения компании Luminar решилась в последние минуты перед финальным одобрением сделки. Буквально за час до того, как суд по делам о банкротстве должен был утвердить продажу активов за …

Meta покупает стартап Assured Robot Intelligence: что это значит для будущего
гуманоидных роботов
Meta покупает стартап Assured Robot Intelligence: что это значит для будущего гуманоидных роботов

Ключевые выводы Meta официально приобрела стартап Assured Robot Intelligence (ARI), специализирующийся на моделях ИИ для гуманоидных роботов. Команда ARI, включая со‑основателей Сяолонга Вана и Леррела Пинто, переходит в исследовательское подразделение …

Как вымышленные образы ИИ влияют на реальное поведение моделей: новые выводы
Anthropic
Как вымышленные образы ИИ влияют на реальное поведение моделей: новые выводы Anthropic

Ключевые выводы Вымышленные истории, где ИИ изображаются как злобные и стремящиеся к самосохранению, способны усиливать «агентную несогласованность» в реальных моделях. Anthropic продемонстрировала, что добавление текстов о «конституции» ИИ и примерах …

Что может веб‑камера и где начинаются её ограничения
Что может веб‑камера и где начинаются её ограничения

Кратко: Качество изображения зависит от сенсора, света и настройки видеосервиса. Дорогие модели дают лучшее автоэкспозицию и шумоподавление, но после определённого уровня различий почти нет. Ограничения появляются из‑за плохого освещения, движения …

Прорыв ИИ в профессиях: как новые модели Anthropic ускорили развитие
искусственного интеллекта для юридических задач
Прорыв ИИ в профессиях: как новые модели Anthropic ускорили развитие искусственного интеллекта для юридических задач

Ключевые выводы Новая модель Anthropic Opus 4.6 демонстрирует рост точности в юридических задачах с 18% до 30% всего за несколько месяцев Технология "роев агентов" позволяет ИИ эффективнее решать многоэтапные кейсы …

ФильтрИзбранноеМеню43750 ₽
Top