Как Anthropic Протестировал Ai‑Рынок: Эксперимент «Project Deal», Результаты И Выводы

Ключевые выводы

  • Anthropic провела закрытый эксперимент, где 69 сотрудников торговали реальными товарами через AI‑агентов, используя бюджет $100.
  • За время пилота было заключено 186 сделок на сумму более $4 000, при этом более «продвинутый» AI‑модель давала участникам лучшие результаты.
  • Участники не замечали разницы в качестве агентов, что поднимает вопрос о скрытом «разрыве в качестве» и необходимости прозрачности в будущих AI‑рынках.
Anthropic решил проверить, сможет ли искусственный интеллект реально вести переговоры и заключать сделки. Результаты показали, что это возможно, но также выявили скрытые риски, связанные с разницей в «качествах» моделей.

Что такое Project Deal и зачем он был нужен?

В середине 2023 года компания Anthropic запустила эксперимент под названием Project Deal. Цель была простой: проверить, способны ли AI‑агенты выступать одновременно и в роли покупателя, и в роли продавца, заключая реальные сделки за реальные деньги.

Для этого был собран небольшой «само‑отобранный» пул из 69 сотрудников компании. Каждый получил виртуальный бюджет в $100, который выплачивался в виде подарочных карт. Сотрудники могли предлагать свои вещи – от книг до гаджетов – и пытаться продать их другим участникам, используя лишь интерактивные AI‑боты.

Эксперимент был полностью закрытым: сделки заключались внутри компании, а деньги переводились в виде подарочных карт, так что ни один сторонний продавец или покупатель не участвовал.

Главный вопрос, который ставили исследователи, – смогут ли AI‑агенты вести переговоры эффективно и без человеческой подсказки, а также как меняются результаты в зависимости от «уровня» модели.

Как проходил эксперимент: четыре разных рынка

Anthropic запустила четыре параллельных рынка, каждый из которых использовал другую версию своей модели:

  • «Реальный» рынок – все участники были представлены самой продвинутой моделью Anthropic (Claude 3), а заключённые сделки действительно исполнялись.
  • Три «исследовательских» рынка – в них применялись менее мощные версии модели, чтобы посмотреть, как уровень AI влияет на результаты.

Все рынки работали по одним и тем же правилам: участник ставил цену, другой отвечал через своего агента, и если обе стороны согласовывались – сделка фиксировалась.

Важно отметить, что исходные инструкции, которые получали агенты перед началом переговоров, не оказали заметного влияния на вероятность продажи или на окончательную цену.

Какие результаты получились?

За несколько дней работы «реального» рынка было совершено 186 сделок на общую сумму более $4 000. При этом каждый участник в среднем потратил около $58, а заработал около $68, что говорит о положительном «экономическом балансе».

Сравнивая рынки, исследователи заметили, что участники, представленные более продвинутой моделью, получили «объективно лучшие» результаты – их цены были ближе к оптимальному «рыночному» уровню, а вероятность заключения сделки была выше.

Однако, несмотря на различия в результирующей эффективности, пользователи не ощущали, что их агент «хуже». Это поднимает вопрос о «разрыве в качестве» AI‑моделей: люди могут оставаться в неведении о том, что их переговорный партнёр хуже, чем у другого.

Почему это важно для будущего AI‑торговли?

Project Deal – первый публичный пример того, как AI может стать полноценным участником экономических процессов, а не просто помощником. Если в дальнейшем появятся открытые AI‑рынки, важно будет обеспечить:

  • Прозрачность уровня модели, который используется каждому участнику.
  • Механизмы контроля за «качеством» агентов, чтобы никто не оказался в невыгодном положении.
  • Этичные нормы, гарантирующие, что AI‑агенты не будут эксплуатировать незнание пользователей.

Пока эксперимент ограничен 69 сотрудниками Anthropic, но уже сейчас видно, что технология способна поддерживать реальные денежные потоки и создавать рынок, управляемый полностью машинным интеллектом.

Что говорят аналитики?

Эксперты в области экономических систем отмечают, что такие пилоты позволяют собрать данные о том, как AI взаимодействует с человеческим поведением в условиях реального стимула (деньги). Это ценная информация для построения более сложных систем автоматизированной торговли, биржевых платформ и даже государственных аукционов.

С другой стороны, вопросы о конфиденциальности, ответственности и регуляции остаются открытыми. Если в будущих версиях AI‑агенты будут принимать решения о покупке товаров стоимостью в тысячи долларов, потребуется чёткая правовая база.

Справка

Anthropic – американская компания, основанная в 2021 году бывшими сотрудниками OpenAI. Специализируется на разработке больших языковых моделей, известных под брендом Claude. Основатели включают Даниэля Дойч, Даниэла Руссо и Джованни Саввани.

Claude – серия языковых моделей от Anthropic, позиционируемых как более «безопасные» и «управляемые» по сравнению с аналогами. Сейчас наиболее продвинутая версия – Claude 3.

Project Deal – внутренний эксперимент Anthropic, целью которого было проверка способности AI‑агентов вести реальные коммерческие переговоры. В рамках проекта использовались четыре разных модели, включая «реальную» и три исследовательские версии.

AI‑агент – программный «персонаж», который использует языковую модель для общения, принятия решений и выполнения действий от имени пользователя. В этом эксперименте каждый участник получил собственного AI‑агента‑покупателя и AI‑агента‑продавца.

Гостевая карта (gift card) – предоплаченный электронный сертификат, использованный в эксперименте в качестве денежного эквивалента. Каждый сотрудник получил $100 в виде такой карты, чтобы иметь реальную финансовую нагрузку при сделках.

Эксперимент Project Deal — это первый шаг к тому, чтобы AI стал полноценным игроком на реальном рынке. Он показал, что технологии уже способны заключать сделки, но также раскрыл потенциальную опасность скрытого неравенства между моделями.

Интересно почитать :

Какие стандарты беспроводных зарядок и чем они отличаются
Какие стандарты беспроводных зарядок и чем они отличаются

Кратко: Стандарт Qi покрывает более 11 000 устройств, мощность до 25 Вт (Qi 2.2). Apple MagSafe добавляет магнитное выравнивание и до 25 Вт (Gen 2). Samsung Fast Wireless и OPPO …

Waymo выпускает обновление ПО для избежания затопленных дорог: что значит новый
рекол и как это повлияет на роботакси
Waymo выпускает обновление ПО для избежания затопленных дорог: что значит новый рекол и как это повлияет на роботакси

Ключевые выводы Waymo отозвала 3 791 роботакси, чтобы они не пытались проезжать по затопленным участкам дорог. Проблема выявлена в пятом и шестом поколениях систем автоматического вождения: машины замедлялись, но не …

Почему смартфон с камерой на 50 Мп все равно снимает в 12 Мп
Почему смартфон с камерой на 50 Мп все равно снимает в 12 Мп

Кратко: 50 Мп‑сенсор часто использует биннинг 4‑в‑1, поэтому итоговое разрешение ≈ 12 Мп. Размер пикселя и площадь сенсора важнее цифры мегапикселей. Один крупный пиксель собирает в 8 раз больше света, …

Meta пересмотрела решение об Horizon Worlds: что это значит для VR-метавселенной
Meta пересмотрела решение об Horizon Worlds: что это значит для VR-метавселенной

Ключевые выводы Meta отменила решение о закрытии VR-версии Horizon Worlds Приложение продолжит работу в Quest, но компания фокусируется на мобильной версии Мобильная версия Horizon Worlds набрала 45 миллионов загрузок против …

Тесла‑апдейт: микрофабрики для апгрейда Full Self‑Driving, новые стартапы в
автономных грузовиках и крупные сделки в сфере мобильности
Тесла‑апдейт: микрофабрики для апгрейда Full Self‑Driving, новые стартапы в автономных грузовиках и крупные сделки в сфере мобильности

Ключевые выводы Тесла объявила, что для полной реализации FSD потребуется физический апгрейд миллионов автомобилей, что может потребовать создание сети микрофабрик. Стартап Humble Robotics привлек $24 млн на разработку полностью автономных …

НВИДИЯ РАСКРЫЛА ПЛАНЫ ПО $1 ТРИЛЛИОНУ ЗАКАЗОВ НА ЧИПЫ ДЛЯ ИИ: ЧТО ЭТО ЗНАЧИТ ДЛЯ
БУДУЩЕГО
НВИДИЯ РАСКРЫЛА ПЛАНЫ ПО $1 ТРИЛЛИОНУ ЗАКАЗОВ НА ЧИПЫ ДЛЯ ИИ: ЧТО ЭТО ЗНАЧИТ ДЛЯ БУДУЩЕГО

Ключевые выводы НВИДИЯ ожидает $1 триллион заказов на чипы Rubin и Blackwell до 2027 года Архитектура Rubin работает на 3.5x быстрее Blackwell при обучении моделей и на 5x быстрее при …

ФильтрИзбранноеМеню43750 ₽
Top