Ключевые выводы
- Thinking Machines Lab представила «interaction models» – AI, способный генерировать ответ одновременно с получением входных данных (full‑duplex).
- Модель TML‑Interaction‑Small отвечает за 0,40 секунды, что сопоставимо с естественной речью человека и быстрее, чем у аналогов OpenAI и Google.
- Технология пока в исследовательском превью: ограниченный доступ в ближайшие месяцы, массовый релиз планируется позже в этом году.
Искусственный интеллект, который «перебивает» вас, звучит как фантастика, но уже сегодня за этим стоит реальный прототип, способный менять привычный диалог «вы говорите – я отвечаю» на более живой, как в телефонном разговоре.
Что такое interaction models и почему это важно?
Сейчас почти каждая разговорная модель работает «по‑сечки»: пользователь вводит запрос, система обрабатывает его полностью, а потом генерирует ответ. Такая схема сохраняет порядок, но делает диалог медленнее, особенно в реальном времени.
Thinking Machines Lab (TML) решила поменять правила игры, создав модель, которая обрабатывает поток входных данных и формирует ответ одновременно. Это называется full‑duplex – то же, что в телефонных сетях, где обе стороны разговаривают одновременно.
Технически такой подход требует, чтобы модель могла «слушать» и «говорить» в один момент, не дожидаясь завершения фразы. В результате диалог становится более естественным, а задержка – практически незаметна.
Для конечного пользователя это выглядит как обычный телефонный звонок, а не как набор сообщений, где каждый новый ответ появляется лишь после полной отправки предыдущего.
Как быстро реагирует новая модель?
По заявлению компании, прототип TML‑Interaction‑Small отвечает в среднем за 0,40 секунды. Сравнить: у GPT‑4 Turbo средняя задержка около 0,6–0,8 секунды, у Gemini 1 — 0,7 секунды.
Эта скорость почти совпадает с тем, как быстро человек произносит реплику в живом разговоре. При этом модель сохраняет качество генерации, что подтверждают внутренние бенчмарки компании.
Важно отметить, что цифры взяты из исследовательского превью, а не из публичного продукта. Пока доступ к модели имеют только партнёры и избранные исследователи.
Кому и зачем может пригодиться full‑duplex AI?
Бизнес‑приложения, где важна мгновенная реакция, получат выгоду от такой технологии. Примеры:
- Колл‑центры – операторы могут получать подсказки в реальном времени, не дожидаясь окончания речи клиента.
- Системы голосового помощника – пользователь получает ответы, пока ещё формулирует запрос.
- Обучающие платформы – студент может вести диалог с репетитором‑ИИ, а тот корректирует в процессе.
То есть, интерактивность стала встроенной функцией модели, а не надстройкой, как часто делают сегодня.
Планы по выпуску: от превью к массовому релизу
Сейчас TML объявила о «limited research preview», который будет доступен в ближайшие несколько месяцев. Это ограниченный набор исследователей, получающих API‑ключи для тестов.
Полноценный коммерческий релиз планируется позже в 2024 году. Точные даты не объявлены, но компания обещает, что к концу года технология будет доступна широкой аудитории.
Сомнения и открытые вопросы
Несмотря на впечатляющие цифры, пока невозможно оценить, как модель будет вести себя в реальных сценариях с шумом, многозвучием и разными акцентами. Также не ясно, насколько полное duplex‑поведение увеличит нагрузку на вычислительные ресурсы.
Поэтому эксперты советуют ждать публичных тестов, чтобы увидеть, выдержит ли модель заявленную скорость без потери качества.
Справка
Thinking Machines Lab – стартап в области искусственного интеллекта, основанный в 2023 году бывшим техническим директором OpenAI Мира Муратти. Компания сосредоточена на исследованиях «интерактивных» моделей и «continual learning». За первый год команда выпустила несколько научных статей, а сейчас привлекает внимание инвесторов благодаря full‑duplex подходу.
Mira Murati (Mira Murati) — со‑соучредитель и CEO Thinking Machines Lab, ранее занимала пост CTO в OpenAI, где руководила разработкой GPT‑4. Известна своей работой над масштабируемыми языковыми моделями и этическими вопросами ИИ.
TML‑Interaction‑Small – первый публичный прототип interaction model от TML. Модель обучена на небольшом наборе диалогов, но уже демонстрирует способность к одновременному восприятию и генерации речи.
Full duplex (полный дуплекс) – коммуникационный режим, позволяющий обеим сторонам передавать и получать данные одновременно. В телекоммуникациях используется для телефонных звонков; в ИИ – для одновременной обработки входного аудио и создания ответа.
OpenAI – ведущая исследовательская организация в сфере искусственного интеллекта, создатель моделей серии GPT. Конкурирует с Google в области больших языковых моделей и теперь имеет «соперника» в виде full‑duplex‑подхода.
Если вы ищете ИИ, который реагирует так же быстро, как человек, и умеет «перебивать» вас, держите руку на пульсе – в ближайшие месяцы появятся возможности протестировать эту технологию в реальных проектах.







