Как Стартап Probably Борется С «Галлюцинациями» Ии И Снижает Расходы На Токены

TechLand 16 июня 2026 г. 13:15 57 Время чтения: 1 минут.

Как Стартап Probably Борется С «Галлюцинациями» Ии И Снижает Расходы На Токены

Ключевые выводы
Почему «галлюцинации» в больших языковых моделях — всё ещё актуальная проблема
«Мех‑костюм» для LLM: как работает система валидации
Меньшие модели, большие возможности: экономия токенов
От аналитики к «точным» областям: потенциальные применения
Что это значит для рынка ИИ?
Справка

Ключевые выводы

Probably использует «мех‑костюм» — комбинацию LLM и детерминированного валидатора, чтобы почти полностью избавиться от галлюцинаций.
Благодаря такому подходу система работает на модели, в 4 класса слабее современных фронтир‑моделей, и может запускаться на обычном десктопе.
Экономия токенов достигает десятков процентов, а точность ответов приближается к 99,99 % — уровням, привычным для традиционных программ.

LLM уже давно стали мощными, но их «галлюцинации» остаются головной болью. Probably показывает, как инженерный подход к контексту и проверке может решить проблему без роста вычислительных расходов.

Почему «галлюцинации» в больших языковых моделях — всё ещё актуальная проблема

С развитием LLM (large language models) ошибки стали появляться даже в самых продвинутых версиях. Модель может уверенно выдать неверный факт, ссылку на несуществующий источник или просто «придумать» ответы. Такие «галлюцинации» критичны, когда ИИ используется в аналитических или медицинских задачах, где каждый процент точности важен.

Сейчас существует несколько методов: пост‑обработка с помощью внешних баз данных, цепочки размышлений (chain‑of‑thought) или человеческая проверка. Но ни один из них не даёт гарантии 99,99 % точности, а добавляет задержку и стоимость.

Именно в этом месте появляется стартап Probably, получивший 9 млн USD от Andreessen Horowitz. Их цель — построить систему, где ошибки не доходят до пользователя, а не просто их ловят уже после выдачи.

«Мех‑костюм» для LLM: как работает система валидации

Первый продукт компании — инструмент для быстрой аналитики данных. Пользователь задаёт вопрос, модель формирует ответ, а затем запускает детерминированный валидатор. Если ответ не совпадает с исходным набором данных, он отклоняется и возвращается на доработку.

Главный трюк — «обучение против валидатора». LLM «видит», какие ответы валидатор отвергает, и постепенно подстраивает генерируемый контент под требования валидатора. В результате модель учится генерировать только те варианты, которые проходят проверку.

Эта обратная связь позволяет снизить «неопределённость контекста». Чем чётче задаются границы задачи, тем меньше модели приходится «догадываться», а значит, меньше шансов на ошибку.

Система оптимизирована под быстроту: валидатор работает в миллисекунды, а LLM выдаёт ответ за секунду‑две. Пользователю даётся готовый результат с полной ссылкой и трассой аудита — теперь каждый вывод можно проверить.

Меньшие модели, большие возможности: экономия токенов

Традиционно для высокого качества используют самые большие модели (GPT‑4, Claude 2 и т.п.). Они требуют мощных серверов и тратят огромное количество токенов. Probably делает ставку на «четвёрть класса слабее» моделей‑фронтира. Это значит, что они могут работать на локальном ПК, без облачных дата‑центров.

Сокращение вычислительной нагрузки автоматически уменьшает стоимость токенов. По оценкам компании, клиент может сэкономить от 30 % до 50 % расходов по сравнению с аналогичными запросами к крупным моделям.

Для бизнеса, который уже переосмысливает свои AI‑бюджеты из‑за растущих цен, такой подход выглядит очень привлекательно. Он позволяет масштабировать решения без необходимости инвестировать в дорогие облачные мощности.

От аналитики к «точным» областям: потенциальные применения

Хотя сейчас продукт ориентирован на data‑science запросы, команда считает, что та же архитектура подходит для бухгалтерии, медицинских заключений и любой задачи, где ошибка недопустима. Если система умеет проверять ответы против чётко определённого набора фактов, она может гарантировать точность в финансовой отчётности или диагностике.

Элис (Peter Elias) подчёркивает, что крупные AI‑лаборатории пока не инвестируют в такие решения, потому что их бизнес‑модель основана на том, что пользователи часто «исправляют» ответы, что генерирует дополнительный трафик и доход.

Поэтому Probably ставит ставку на нишу, где клиент готов платить за уверенность, а не за количество запросов.

Что это значит для рынка ИИ?

Если подход «мех‑костюм + локальная модель» покажет хорошие результаты в реальных проектах, он может подтолкнуть конкурентов к разработке собственных валидаторов. Это может привести к появлению новых стандартов качества в области генеративного ИИ.

Кроме того, снижение стоимости токенов может открыть двери небольшим компаниям, которые раньше не могли позволить себе масштабировать AI‑аналитику.

В конечном итоге, пока крупные игроки продолжают гонку за масштаб, Probably предлагает более «приземлённый» путь: точность, контроль и доступность.

Справка

Probably — стартап, основанный в 2023 году Питером Элиасом. Получил серию посевного финансирования (9 млн USD) от Andreessen Horowitz. Продукт компании – инструмент для быстрого получения ответов из сложных наборов данных с полной верификацией и аудиторским следом.

Peter Elias — сооснователь и CEO Probably. Имеет опыт в построении масштабируемых систем обработки данных и ранее работал в нескольких технологических компаниях, где занимался оптимизацией вычислительных процессов.

LLM (Large Language Model) — большие языковые модели, обученные на огромных корпусах текста, способные генерировать связный текст по запросу. Примеры: GPT‑4, Claude, LLaMA.

Галлюцинация ИИ — ситуация, когда модель выдает ответ, несоответствующий действительности, часто без явных признаков ошибки.

Детерминированный валидатор — система, проверяющая сгенерированный ответ на соответствие исходному набору данных или правилам, не допускающая случайных отклонений.

Probably доказывает, что высокую точность можно достичь без самых дорогих моделей. Если вам важна надёжность и умеренный бюджет, стоит обратить внимание на такой подход.

Интересно почитать :

Waymo приостановила работу в Атланте и Сан‑Антонио из‑за проблем с наводнениями: что происходит с роботакси?

Ключевые выводы Waymo приостановила сервис в Атланте и Сан‑Антонио после того, как один из роботакси застрял в воде. Компания ещё не реализовала окончательное решение для обнаружения затоплённой дороги, несмотря на …

Swish — новая надежда индийской доставки еды: $38 млн за 10-минутные обеды

Ключевые выводы Swish привлек $38 млн в раунде Series B при оценке $139 млн, что вдвое больше прошлогодней стоимости Компания доставляет 20 000 заказов в день через собственные кухни и …

Robinhood против Destiny Tech100: почему один фонд провалился, а другой взлетел

Ключевые выводы Robinhood Ventures Fund привлек только $658 млн против целевых $1 млрд, в то время как Destiny Tech100 взлетел на 33% премии к NAV Основная проблема RVI — отсутствие …

SpaceX планирует построить «Терафаб»: полупроводниковая фабрика стоимостью до $119 млрд в Техасе

Ключевые выводы SpaceX и xAI подали заявку в графство Граймс (Техас) о налоговом освобождении для будущей фабрики «Терафаб», первоначальный бюджет – $55 млрд, общий – $119 млрд. Проект будет многоэтапным, …

Массовая рассылка спама от имени Microsoft: как злоумышленники используют внутренний адрес и что делать пользователям

Ключевые выводы Злоумышленники используют внутренний адрес msonlineservicesteam@microsoftonline.com для массовой рассылки спама, выдавая письма за официальные уведомления Microsoft. Точность подмены позволяет убедить получателей в подлинности сообщений, включая коды двухфакторной аутентификации и …

Microsoft представил ASSERT: открытый фреймворк для оценки поведения ИИ в приложениях

Ключевые выводы ASSERT — открытый фреймворк, который генерирует тесты из текстовых описаний целей и политик ИИ‑систем. Инструмент позволяет проверять как допустимое, так и проблемное поведение, фиксируя каждый шаг модели. ASSERT …