Openai Расширила Api Новыми Голосовыми Моделями: Gpt‑Realtime‑2, Перевод В Реальном Времени И Whisper‑Транскрипция

Ключевые выводы

  • OpenAI представила три новых голосовых сервиса в Realtime API: GPT‑Realtime‑2, GPT‑Realtime‑Translate и GPT‑Realtime‑Whisper.
  • GPT‑Realtime‑2 использует рассудок уровня GPT‑5, поэтому справляется с более сложными запросами и поддерживает естественный диалог.
  • Translate покрывает более 70 языков входа и 13 языков вывода, а Whisper обеспечивает живую транскрипцию речи в текст.
  • Модели ориентированы на клиентский сервис, образование, медиа и платформы создателей, но включают системы защиты от спама и злоупотреблений.
  • Оплата за Translate и Whisper идёт поминутно, а за GPT‑Realtime‑2 – по потреблению токенов.
OpenAI открыла новые возможности для разработчиков: теперь их приложения могут не только «слушать», но и рассуждать, переводить и записывать разговоры в режиме реального времени. Это делает голосовые интерфейсы более гибкими и пригодными для реальных бизнес‑задач.

Что нового в Realtime API от OpenAI?

В четверг компания объявила о запуске трёх голосовых функций, которые сразу доступны в её Realtime API. Раньше в API был лишь простой синтезатор и модель Whisper для статичной транскрипции. Сейчас пополняются:

  • GPT‑Realtime‑2 – разговорный голосовой агент с «мозгом» уровня GPT‑5.
  • GPT‑Realtime‑Translate – мгновенный перевод разговора более чем на 70 языков.
  • GPT‑Realtime‑Whisper – живой сервис «речь‑в‑текст» во время диалога.

Все модели работают через единый Realtime API, который уже поддерживает двусторонний поток аудио‑данных. Разработчики могут подключить их к своим чат‑ботам, CRM, образовательным платформам и даже к устройствам IoT.

GPT‑Realtime‑2: голосовой помощник с рассудком GPT‑5

Это уже не просто «говорящий» скрипт. Модель построена на базе GPT‑5‑класса, что даёт ей возможность решать более сложные задачи: планировать, оценивать варианты, задавать уточняющие вопросы. Например, если пользователь спросит «Помоги собрать план мероприятия в Токио на следующую неделю», GPT‑Realtime‑2 не просто перечислит идеи, а предложит расписание, бюджеты, поставит напоминания.

Технически модель генерирует аудио‑выход, одновременно используя токены для текста. За использование берут плату по количеству токенов – так же, как это делается для обычного текстового GPT‑5.

Главное преимущество – естественность речи. Голос звучит более «человечески», а в фоне работает система контекстного запоминания, позволяющая поддерживать беседу на протяжении нескольких минут без потери нити.

GPT‑Realtime‑Translate: разговорный перевод «на лету»

Сервис «перевод в реальном времени» позволяет вести диалог между людьми, говорящими на разных языках, без пауз. Он понимает более 70 языков (входные) и может озвучить ответ на 13 языках (выходные). Это особенно ценно для международной поддержки клиентов, онлайн‑уроков и трансляций мероприятий.

Перевод происходит синхронно: когда один из участников произносит фразу, система почти сразу выдаёт её перевод, сохраняя темп разговора. Точность достигает уровня современных нейросетевых переводчиков, а специфические термины могут быть улучшены через кастомные подсказки.

Оплата – поминутно, то есть клиент платит только за время активного аудио‑потока, без скрытых расходов.

GPT‑Realtime‑Whisper: живой стенограф в реальном времени

Whisper‑модель давно известна своей способностью точно преобразовывать речь в текст. Новая версия интегрирована в Realtime API и способна транскрибировать разговор «на лету». Это удобно для создания субтитров к видеоконференциям, записи звонков в колл‑центрах и автоматической генерации заметок.

Ключевая особенность – мгновенность. Текст появляется почти одновременно с произнесёнными словами, а модель умеет различать несколько говорящих, добавляя метки о говорящем.

Как и Translate, Whisper тарифицируется поминутно, что делает его доступным даже для небольших стартапов.

Кому подойдут новые голосовые возможности?

OpenAI отмечает широкий спектр применений:

  • Службы поддержки: автоматический оператор, который может понять запрос, перевести его и записать диалог.
  • Образование: онлайн‑репетиторы, способные вести диалог на родном языке ученика, переводить термины и сразу писать конспекты.
  • Медиа и мероприятия: живой перевод и субтитры для вебинаров, подкастов и трансляций.
  • Платформы создателей контента: подкастеры могут автоматически генерировать сценарии и переводить их для международной аудитории.

Всё это ставит новые стандарты для «голосовых интерфейсов», превращая их из простых запрос‑ответов в полноценные рабочие инструменты.

Защита от злоупотреблений

С ростом возможностей появляется риск их неправильного использования – спам, фишинг, генерация вредоносного контента. OpenAI встроила «guardrails»: система автоматически отслеживает разговор и останавливает его, если обнаруживает нарушение контент‑политики. Кроме того, предусмотрены триггеры, которые блокируют попытки обойти ограничения.

Для разработчиков открыты настройки чувствительности фильтра, чтобы они могли подобрать баланс между свободой общения и безопасностью.

Стоимость и варианты интеграции

Все новые функции доступны через Realtime API. Платежная модель проста:

  • GPT‑Realtime‑2 – оплата по количеству использованных токенов.
  • GPT‑Realtime‑Translate – оплата за каждую минуту аудио‑потока.
  • GPT‑Realtime‑Whisper – тоже поминутно.

Документация включает примеры кода на Python, JavaScript и Node.js, а также гайды по оптимизации задержек и управлению качеством звука.

Справка

OpenAI – американская исследовательская компания, основанная в 2015 году Илоном Маском, Сэмом Альтманом и другими предпринимателями. С момента своего основания OpenAI создала серию известных моделей: GPT‑2, GPT‑3, GPT‑4 и теперь GPT‑5, а также аудио‑модель Whisper.

GPT‑5 – последняя крупная языковая модель от OpenAI, обладающая улучшенными способностями рассуждения, планирования и понимания контекста. Она стала базой для GPT‑Realtime‑2, делая голосовой агент «разумнее».

GPT‑Realtime‑2 – первая в серии голосовых моделей, построенная на GPT‑5. Обеспечивает разговорный звук с продвинутым пониманием запросов.

GPT‑Realtime‑Translate – модуль перевода в реальном времени, поддерживает 70+ входных и 13 выходных языков, работает синхронно с аудио‑потоком.

GPT‑Realtime‑Whisper – улучшенный Whisper, предоставляющий живую транскрипцию речи в текст, умеет различать несколько говорящих и маркировать их.

Новые голосовые модели от OpenAI открывают путь к действительно живым голосовым интерфейсам: они могут слушать, мыслить, переводить и записывать разговоры без задержек. Если вы ищете способ добавить в свой продукт естественное общение, сейчас самое время изучить Realtime API.

Интересно почитать :

Вертикальный пылесос или напольный — какой выбрать?
Вертикальный пылесос или напольный — какой выбрать?

Кратко: Вертикальный пылесос выигрывает в мобильности и хранении. Напольный пылесос обеспечивает бесконечную автономию и большую ёмкость. Выбор зависит от площади, наличия ковров и предпочтений в обслуживании. Если вам нужно быстро …

Как найм "носителей страсти" помог стартапу Bland вырасти в 10 раз быстрее
рынка. Неочевидные таланты и жесткая культура
Как найм "носителей страсти" помог стартапу Bland вырасти в 10 раз быстрее рынка. Неочевидные таланты и жесткая культура

Ключевые выводы Диплом не имеет значения. Основатель Bland искал в первую очередь "носителей страсти" — людей, одержимых своим делом, даже если их прошлое не вписывалось в стандартное резюме IT-специалиста. Глубокие …

Платформа Pillar привлекла $20 млн инвестиций для автоматизации хеджирования в
товарных компаниях
Платформа Pillar привлекла $20 млн инвестиций для автоматизации хеджирования в товарных компаниях

Ключевые выводы Pillar привлекла $20 млн посевных средств, общий объём финансирования составил $23 млн. Платформа использует искусственный интеллект для автоматического анализа контрактов, ERP‑систем и даже мессенджеров, формируя динамический хедж‑портфель. Клиентами …

Snap сокращает около 16 % сотрудников: почему компания ставит ставку на ИИ и
прибыльный рост
Snap сокращает около 16 % сотрудников: почему компания ставит ставку на ИИ и прибыльный рост

Ключевые выводы Snap уволит примерно 1 000 человек, что составляет около 16 % глобального штата. Компания объясняет сокращения ускоренным развитием искусственного интеллекта, который позволяет автоматизировать рутинные задачи. Сокращения должны сократить …

Хонда Отказывается от Электромобилей: Почему Это Может Стать Смертельной Ошибкой
Хонда Отказывается от Электромобилей: Почему Это Может Стать Смертельной Ошибкой

Ключевые выводы Хонда прекращает разработку электромобилей, включая модели Acura RDX и Honda 0 Компания рискует отстать в двух ключевых трендах: электрических силовых агрегатах и программно-управляемых автомобилях Решение может привести к …

Skylight набирает пользователей после скандала с TikTok: почему выбирают
открытую альтернативу
Skylight набирает пользователей после скандала с TikTok: почему выбирают открытую альтернативу

За последние выходные децентрализованное приложение для коротких видео Skylight добавило 20 000 новых пользователей. Общий счёт перевалил за 380 000 — и это прямое следствие скандалов вокруг TikTok в США. …

ФильтрИзбранноеМеню43750 ₽
Top