Openai Расширила Api Новыми Голосовыми Моделями: Gpt‑Realtime‑2, Перевод В Реальном Времени И Whisper‑Транскрипция

TechLand 7 мая 2026 г. 22:24 124 Время чтения: 2 минут.

Openai Расширила Api Новыми Голосовыми Моделями: Gpt‑Realtime‑2, Перевод В
Реальном Времени И Whisper‑Транскрипция

Ключевые выводы
Что нового в Realtime API от OpenAI?
GPT‑Realtime‑2: голосовой помощник с рассудком GPT‑5
GPT‑Realtime‑Translate: разговорный перевод «на лету»
GPT‑Realtime‑Whisper: живой стенограф в реальном времени
Кому подойдут новые голосовые возможности?
Защита от злоупотреблений
Стоимость и варианты интеграции
Справка

Ключевые выводы

OpenAI представила три новых голосовых сервиса в Realtime API: GPT‑Realtime‑2, GPT‑Realtime‑Translate и GPT‑Realtime‑Whisper.
GPT‑Realtime‑2 использует рассудок уровня GPT‑5, поэтому справляется с более сложными запросами и поддерживает естественный диалог.
Translate покрывает более 70 языков входа и 13 языков вывода, а Whisper обеспечивает живую транскрипцию речи в текст.
Модели ориентированы на клиентский сервис, образование, медиа и платформы создателей, но включают системы защиты от спама и злоупотреблений.
Оплата за Translate и Whisper идёт поминутно, а за GPT‑Realtime‑2 – по потреблению токенов.

OpenAI открыла новые возможности для разработчиков: теперь их приложения могут не только «слушать», но и рассуждать, переводить и записывать разговоры в режиме реального времени. Это делает голосовые интерфейсы более гибкими и пригодными для реальных бизнес‑задач.

Что нового в Realtime API от OpenAI?

В четверг компания объявила о запуске трёх голосовых функций, которые сразу доступны в её Realtime API. Раньше в API был лишь простой синтезатор и модель Whisper для статичной транскрипции. Сейчас пополняются:

GPT‑Realtime‑2 – разговорный голосовой агент с «мозгом» уровня GPT‑5.
GPT‑Realtime‑Translate – мгновенный перевод разговора более чем на 70 языков.
GPT‑Realtime‑Whisper – живой сервис «речь‑в‑текст» во время диалога.

Все модели работают через единый Realtime API, который уже поддерживает двусторонний поток аудио‑данных. Разработчики могут подключить их к своим чат‑ботам, CRM, образовательным платформам и даже к устройствам IoT.

GPT‑Realtime‑2: голосовой помощник с рассудком GPT‑5

Это уже не просто «говорящий» скрипт. Модель построена на базе GPT‑5‑класса, что даёт ей возможность решать более сложные задачи: планировать, оценивать варианты, задавать уточняющие вопросы. Например, если пользователь спросит «Помоги собрать план мероприятия в Токио на следующую неделю», GPT‑Realtime‑2 не просто перечислит идеи, а предложит расписание, бюджеты, поставит напоминания.

Технически модель генерирует аудио‑выход, одновременно используя токены для текста. За использование берут плату по количеству токенов – так же, как это делается для обычного текстового GPT‑5.

Главное преимущество – естественность речи. Голос звучит более «человечески», а в фоне работает система контекстного запоминания, позволяющая поддерживать беседу на протяжении нескольких минут без потери нити.

GPT‑Realtime‑Translate: разговорный перевод «на лету»

Сервис «перевод в реальном времени» позволяет вести диалог между людьми, говорящими на разных языках, без пауз. Он понимает более 70 языков (входные) и может озвучить ответ на 13 языках (выходные). Это особенно ценно для международной поддержки клиентов, онлайн‑уроков и трансляций мероприятий.

Перевод происходит синхронно: когда один из участников произносит фразу, система почти сразу выдаёт её перевод, сохраняя темп разговора. Точность достигает уровня современных нейросетевых переводчиков, а специфические термины могут быть улучшены через кастомные подсказки.

Оплата – поминутно, то есть клиент платит только за время активного аудио‑потока, без скрытых расходов.

GPT‑Realtime‑Whisper: живой стенограф в реальном времени

Whisper‑модель давно известна своей способностью точно преобразовывать речь в текст. Новая версия интегрирована в Realtime API и способна транскрибировать разговор «на лету». Это удобно для создания субтитров к видеоконференциям, записи звонков в колл‑центрах и автоматической генерации заметок.

Ключевая особенность – мгновенность. Текст появляется почти одновременно с произнесёнными словами, а модель умеет различать несколько говорящих, добавляя метки о говорящем.

Как и Translate, Whisper тарифицируется поминутно, что делает его доступным даже для небольших стартапов.

Кому подойдут новые голосовые возможности?

OpenAI отмечает широкий спектр применений:

Службы поддержки: автоматический оператор, который может понять запрос, перевести его и записать диалог.
Образование: онлайн‑репетиторы, способные вести диалог на родном языке ученика, переводить термины и сразу писать конспекты.
Медиа и мероприятия: живой перевод и субтитры для вебинаров, подкастов и трансляций.
Платформы создателей контента: подкастеры могут автоматически генерировать сценарии и переводить их для международной аудитории.

Всё это ставит новые стандарты для «голосовых интерфейсов», превращая их из простых запрос‑ответов в полноценные рабочие инструменты.

Защита от злоупотреблений

С ростом возможностей появляется риск их неправильного использования – спам, фишинг, генерация вредоносного контента. OpenAI встроила «guardrails»: система автоматически отслеживает разговор и останавливает его, если обнаруживает нарушение контент‑политики. Кроме того, предусмотрены триггеры, которые блокируют попытки обойти ограничения.

Для разработчиков открыты настройки чувствительности фильтра, чтобы они могли подобрать баланс между свободой общения и безопасностью.

Стоимость и варианты интеграции

Все новые функции доступны через Realtime API. Платежная модель проста:

GPT‑Realtime‑2 – оплата по количеству использованных токенов.
GPT‑Realtime‑Translate – оплата за каждую минуту аудио‑потока.
GPT‑Realtime‑Whisper – тоже поминутно.

Документация включает примеры кода на Python, JavaScript и Node.js, а также гайды по оптимизации задержек и управлению качеством звука.

Справка

OpenAI – американская исследовательская компания, основанная в 2015 году Илоном Маском, Сэмом Альтманом и другими предпринимателями. С момента своего основания OpenAI создала серию известных моделей: GPT‑2, GPT‑3, GPT‑4 и теперь GPT‑5, а также аудио‑модель Whisper.

GPT‑5 – последняя крупная языковая модель от OpenAI, обладающая улучшенными способностями рассуждения, планирования и понимания контекста. Она стала базой для GPT‑Realtime‑2, делая голосовой агент «разумнее».

GPT‑Realtime‑2 – первая в серии голосовых моделей, построенная на GPT‑5. Обеспечивает разговорный звук с продвинутым пониманием запросов.

GPT‑Realtime‑Translate – модуль перевода в реальном времени, поддерживает 70+ входных и 13 выходных языков, работает синхронно с аудио‑потоком.

GPT‑Realtime‑Whisper – улучшенный Whisper, предоставляющий живую транскрипцию речи в текст, умеет различать несколько говорящих и маркировать их.

Новые голосовые модели от OpenAI открывают путь к действительно живым голосовым интерфейсам: они могут слушать, мыслить, переводить и записывать разговоры без задержек. Если вы ищете способ добавить в свой продукт естественное общение, сейчас самое время изучить Realtime API.

Интересно почитать :

«Рынок смерти»: Как Polymarket допустил ставки на спасение военных и спровоцировал скандал

Ключевые выводы Прогнозный рынок Polymarket временно разрешил ставки на дату спасения американских военных, сбитых над Ираном, что вызвало жёсткую критику со стороны конгрессмена Сета Молтона. Молтон назвал платформу «дистопийным рынком …

Бумбл бросает свайпы: что ждет пользователей в конце 2026 года?

Ключевые выводы Бумбл официально прекращает свайпы — главный элемент знакомств 2010‑х. Компания переориентируется на качество пользователей, используя ИИ‑ассистента «Bee» и новые механики взаимодействия. Обновление планируется к последнему кварталу 2026 года, …

OpenAI теряет ключевых архитекторов: уход Кевина Вейла и Билла Пиблса и его влияние на будущее «супераппа»

Ключевые выводы Кевин Вейл (руководитель научных исследований) и Билл Пиблс (создатель видеогенератора Sora) официально ушли из OpenAI. Отставки совпали с масштабным сокращением «побочных» проектов, включая Sora и исследовательскую группу OpenAI …

Helsing готовит $1,2 млрд нового раунда инвестиций: оценка компании поднялась до $18 млрд

Ключевые выводы Helsing готовится к новому инвесторскому раунду в $1,2 млрд, что поднимет оценку компании до $18 млрд. Раунд возглавит Dragoneer и со‑возглавит существующий инвестор Lightspeed; предыдущий раунд в 2025 …

Как выбрать усилитель сигнала Wi‑Fi: 7 практических критериев

Кратко: Определите частотный диапазон роутера и подберите совместимый репитер. Сравните стандарты Wi‑Fi 4‑7 и выберите минимум Wi‑Fi 6. Обратите внимание на количество и тип антенн, а также наличие Ethernet‑портов. Выберите …

Microsoft отключил десятки открытых репозиториев на GitHub после расследования вредоносной атаки

Ключевые выводы Microsoft временно отключил более 70 открытых репозиториев на GitHub после обнаружения в них кода‑червя, который крал учётные данные. Заражённые проекты включают инструменты для Azure, VS Code, Claude Code …