Как Стартап Probably Борется С «Галлюцинациями» Ии И Снижает Расходы На Токены

Ключевые выводы

  • Probably использует «мех‑костюм» — комбинацию LLM и детерминированного валидатора, чтобы почти полностью избавиться от галлюцинаций.
  • Благодаря такому подходу система работает на модели, в 4 класса слабее современных фронтир‑моделей, и может запускаться на обычном десктопе.
  • Экономия токенов достигает десятков процентов, а точность ответов приближается к 99,99 % — уровням, привычным для традиционных программ.
LLM уже давно стали мощными, но их «галлюцинации» остаются головной болью. Probably показывает, как инженерный подход к контексту и проверке может решить проблему без роста вычислительных расходов.

Почему «галлюцинации» в больших языковых моделях — всё ещё актуальная проблема

С развитием LLM (large language models) ошибки стали появляться даже в самых продвинутых версиях. Модель может уверенно выдать неверный факт, ссылку на несуществующий источник или просто «придумать» ответы. Такие «галлюцинации» критичны, когда ИИ используется в аналитических или медицинских задачах, где каждый процент точности важен.

Сейчас существует несколько методов: пост‑обработка с помощью внешних баз данных, цепочки размышлений (chain‑of‑thought) или человеческая проверка. Но ни один из них не даёт гарантии 99,99 % точности, а добавляет задержку и стоимость.

Именно в этом месте появляется стартап Probably, получивший 9 млн USD от Andreessen Horowitz. Их цель — построить систему, где ошибки не доходят до пользователя, а не просто их ловят уже после выдачи.

«Мех‑костюм» для LLM: как работает система валидации

Первый продукт компании — инструмент для быстрой аналитики данных. Пользователь задаёт вопрос, модель формирует ответ, а затем запускает детерминированный валидатор. Если ответ не совпадает с исходным набором данных, он отклоняется и возвращается на доработку.

Главный трюк — «обучение против валидатора». LLM «видит», какие ответы валидатор отвергает, и постепенно подстраивает генерируемый контент под требования валидатора. В результате модель учится генерировать только те варианты, которые проходят проверку.

Эта обратная связь позволяет снизить «неопределённость контекста». Чем чётче задаются границы задачи, тем меньше модели приходится «догадываться», а значит, меньше шансов на ошибку.

Система оптимизирована под быстроту: валидатор работает в миллисекунды, а LLM выдаёт ответ за секунду‑две. Пользователю даётся готовый результат с полной ссылкой и трассой аудита — теперь каждый вывод можно проверить.

Меньшие модели, большие возможности: экономия токенов

Традиционно для высокого качества используют самые большие модели (GPT‑4, Claude 2 и т.п.). Они требуют мощных серверов и тратят огромное количество токенов. Probably делает ставку на «четвёрть класса слабее» моделей‑фронтира. Это значит, что они могут работать на локальном ПК, без облачных дата‑центров.

Сокращение вычислительной нагрузки автоматически уменьшает стоимость токенов. По оценкам компании, клиент может сэкономить от 30 % до 50 % расходов по сравнению с аналогичными запросами к крупным моделям.

Для бизнеса, который уже переосмысливает свои AI‑бюджеты из‑за растущих цен, такой подход выглядит очень привлекательно. Он позволяет масштабировать решения без необходимости инвестировать в дорогие облачные мощности.

От аналитики к «точным» областям: потенциальные применения

Хотя сейчас продукт ориентирован на data‑science запросы, команда считает, что та же архитектура подходит для бухгалтерии, медицинских заключений и любой задачи, где ошибка недопустима. Если система умеет проверять ответы против чётко определённого набора фактов, она может гарантировать точность в финансовой отчётности или диагностике.

Элис (Peter Elias) подчёркивает, что крупные AI‑лаборатории пока не инвестируют в такие решения, потому что их бизнес‑модель основана на том, что пользователи часто «исправляют» ответы, что генерирует дополнительный трафик и доход.

Поэтому Probably ставит ставку на нишу, где клиент готов платить за уверенность, а не за количество запросов.

Что это значит для рынка ИИ?

Если подход «мех‑костюм + локальная модель» покажет хорошие результаты в реальных проектах, он может подтолкнуть конкурентов к разработке собственных валидаторов. Это может привести к появлению новых стандартов качества в области генеративного ИИ.

Кроме того, снижение стоимости токенов может открыть двери небольшим компаниям, которые раньше не могли позволить себе масштабировать AI‑аналитику.

В конечном итоге, пока крупные игроки продолжают гонку за масштаб, Probably предлагает более «приземлённый» путь: точность, контроль и доступность.

Справка

Probably — стартап, основанный в 2023 году Питером Элиасом. Получил серию посевного финансирования (9 млн USD) от Andreessen Horowitz. Продукт компании – инструмент для быстрого получения ответов из сложных наборов данных с полной верификацией и аудиторским следом.

Peter Elias — сооснователь и CEO Probably. Имеет опыт в построении масштабируемых систем обработки данных и ранее работал в нескольких технологических компаниях, где занимался оптимизацией вычислительных процессов.

LLM (Large Language Model) — большие языковые модели, обученные на огромных корпусах текста, способные генерировать связный текст по запросу. Примеры: GPT‑4, Claude, LLaMA.

Галлюцинация ИИ — ситуация, когда модель выдает ответ, несоответствующий действительности, часто без явных признаков ошибки.

Детерминированный валидатор — система, проверяющая сгенерированный ответ на соответствие исходному набору данных или правилам, не допускающая случайных отклонений.

Probably доказывает, что высокую точность можно достичь без самых дорогих моделей. Если вам важна надёжность и умеренный бюджет, стоит обратить внимание на такой подход.

Интересно почитать :

НВИДИЯ РАСКРЫЛА ПЛАНЫ ПО $1 ТРИЛЛИОНУ ЗАКАЗОВ НА ЧИПЫ ДЛЯ ИИ: ЧТО ЭТО ЗНАЧИТ ДЛЯ
БУДУЩЕГО
НВИДИЯ РАСКРЫЛА ПЛАНЫ ПО $1 ТРИЛЛИОНУ ЗАКАЗОВ НА ЧИПЫ ДЛЯ ИИ: ЧТО ЭТО ЗНАЧИТ ДЛЯ БУДУЩЕГО

Ключевые выводы НВИДИЯ ожидает $1 триллион заказов на чипы Rubin и Blackwell до 2027 года Архитектура Rubin работает на 3.5x быстрее Blackwell при обучении моделей и на 5x быстрее при …

ИИ-чатботы и массовые преступления: новая угроза безопасности
ИИ-чатботы и массовые преступления: новая угроза безопасности

Ключевые выводы AI-чатботы помогали планировать массовые преступления в нескольких случаях по всему миру Эксперты предупреждают о растущей угрозе массовых атак, спровоцированных искусственным интеллектом Слабые системы безопасности позволяют чатботам помогать в …

AI на краю: как маленькие модели меняют правила игры
AI на краю: как маленькие модели меняют правила игры

Ключевые выводы Высокие дефолты в частном кредитовании (9,2%) заставляют компании искать альтернативы облачным вычислениям Multiverse Computing предлагает сжатые модели, работающие локально на устройствах пользователей Компания запустила приложение CompactifAI и API-портал …

Индия вводит жесткие правила против deepfake: Как новые IT-нормы изменят соцсети
Индия вводит жесткие правила против deepfake: Как новые IT-нормы изменят соцсети

Ключевые выводы С 20 февраля 2026 соцсети обязаны удалять deepfake по официальным запросам за 3 часа Весь синтетический контент должен иметь четкую маркировку и данные о происхождении Несоблюдение правил лишает …

iPhone или Samsung Galaxy: какой смартфон лучше в 2026 году
iPhone или Samsung Galaxy: какой смартфон лучше в 2026 году

iPhone или Samsung Galaxy: какой смартфон лучше в 2026 году Кратко: iPhone — для тех, кто ценит экосистему и простоту использования Samsung Galaxy — для тех, кто любит настройки и …

Декан Ай-Ай: как индийские специалисты стали незаменимы в пост-обучении
ИИ-моделей
Декан Ай-Ай: как индийские специалисты стали незаменимы в пост-обучении ИИ-моделей

Ключевые выводы Новый тренд: Мировые AI-лаборатории (OpenAI, Anthropic, DeepMind) всё активнее аутсорсят сложный этап пост-обучения моделей — от генерации экспертных данных до reinforcement learning. Starтап Deccan AI закрыл раунд Series …

ФильтрИзбранноеМеню43750 ₽
Top