Ключевые выводы
- Probably использует «мех‑костюм» — комбинацию LLM и детерминированного валидатора, чтобы почти полностью избавиться от галлюцинаций.
- Благодаря такому подходу система работает на модели, в 4 класса слабее современных фронтир‑моделей, и может запускаться на обычном десктопе.
- Экономия токенов достигает десятков процентов, а точность ответов приближается к 99,99 % — уровням, привычным для традиционных программ.
LLM уже давно стали мощными, но их «галлюцинации» остаются головной болью. Probably показывает, как инженерный подход к контексту и проверке может решить проблему без роста вычислительных расходов.
Почему «галлюцинации» в больших языковых моделях — всё ещё актуальная проблема
С развитием LLM (large language models) ошибки стали появляться даже в самых продвинутых версиях. Модель может уверенно выдать неверный факт, ссылку на несуществующий источник или просто «придумать» ответы. Такие «галлюцинации» критичны, когда ИИ используется в аналитических или медицинских задачах, где каждый процент точности важен.
Сейчас существует несколько методов: пост‑обработка с помощью внешних баз данных, цепочки размышлений (chain‑of‑thought) или человеческая проверка. Но ни один из них не даёт гарантии 99,99 % точности, а добавляет задержку и стоимость.
Именно в этом месте появляется стартап Probably, получивший 9 млн USD от Andreessen Horowitz. Их цель — построить систему, где ошибки не доходят до пользователя, а не просто их ловят уже после выдачи.
«Мех‑костюм» для LLM: как работает система валидации
Первый продукт компании — инструмент для быстрой аналитики данных. Пользователь задаёт вопрос, модель формирует ответ, а затем запускает детерминированный валидатор. Если ответ не совпадает с исходным набором данных, он отклоняется и возвращается на доработку.
Главный трюк — «обучение против валидатора». LLM «видит», какие ответы валидатор отвергает, и постепенно подстраивает генерируемый контент под требования валидатора. В результате модель учится генерировать только те варианты, которые проходят проверку.
Эта обратная связь позволяет снизить «неопределённость контекста». Чем чётче задаются границы задачи, тем меньше модели приходится «догадываться», а значит, меньше шансов на ошибку.
Система оптимизирована под быстроту: валидатор работает в миллисекунды, а LLM выдаёт ответ за секунду‑две. Пользователю даётся готовый результат с полной ссылкой и трассой аудита — теперь каждый вывод можно проверить.
Меньшие модели, большие возможности: экономия токенов
Традиционно для высокого качества используют самые большие модели (GPT‑4, Claude 2 и т.п.). Они требуют мощных серверов и тратят огромное количество токенов. Probably делает ставку на «четвёрть класса слабее» моделей‑фронтира. Это значит, что они могут работать на локальном ПК, без облачных дата‑центров.
Сокращение вычислительной нагрузки автоматически уменьшает стоимость токенов. По оценкам компании, клиент может сэкономить от 30 % до 50 % расходов по сравнению с аналогичными запросами к крупным моделям.
Для бизнеса, который уже переосмысливает свои AI‑бюджеты из‑за растущих цен, такой подход выглядит очень привлекательно. Он позволяет масштабировать решения без необходимости инвестировать в дорогие облачные мощности.
От аналитики к «точным» областям: потенциальные применения
Хотя сейчас продукт ориентирован на data‑science запросы, команда считает, что та же архитектура подходит для бухгалтерии, медицинских заключений и любой задачи, где ошибка недопустима. Если система умеет проверять ответы против чётко определённого набора фактов, она может гарантировать точность в финансовой отчётности или диагностике.
Элис (Peter Elias) подчёркивает, что крупные AI‑лаборатории пока не инвестируют в такие решения, потому что их бизнес‑модель основана на том, что пользователи часто «исправляют» ответы, что генерирует дополнительный трафик и доход.
Поэтому Probably ставит ставку на нишу, где клиент готов платить за уверенность, а не за количество запросов.
Что это значит для рынка ИИ?
Если подход «мех‑костюм + локальная модель» покажет хорошие результаты в реальных проектах, он может подтолкнуть конкурентов к разработке собственных валидаторов. Это может привести к появлению новых стандартов качества в области генеративного ИИ.
Кроме того, снижение стоимости токенов может открыть двери небольшим компаниям, которые раньше не могли позволить себе масштабировать AI‑аналитику.
В конечном итоге, пока крупные игроки продолжают гонку за масштаб, Probably предлагает более «приземлённый» путь: точность, контроль и доступность.
Справка
Probably — стартап, основанный в 2023 году Питером Элиасом. Получил серию посевного финансирования (9 млн USD) от Andreessen Horowitz. Продукт компании – инструмент для быстрого получения ответов из сложных наборов данных с полной верификацией и аудиторским следом.
Peter Elias — сооснователь и CEO Probably. Имеет опыт в построении масштабируемых систем обработки данных и ранее работал в нескольких технологических компаниях, где занимался оптимизацией вычислительных процессов.
LLM (Large Language Model) — большие языковые модели, обученные на огромных корпусах текста, способные генерировать связный текст по запросу. Примеры: GPT‑4, Claude, LLaMA.
Галлюцинация ИИ — ситуация, когда модель выдает ответ, несоответствующий действительности, часто без явных признаков ошибки.
Детерминированный валидатор — система, проверяющая сгенерированный ответ на соответствие исходному набору данных или правилам, не допускающая случайных отклонений.
Probably доказывает, что высокую точность можно достичь без самых дорогих моделей. Если вам важна надёжность и умеренный бюджет, стоит обратить внимание на такой подход.







