Microsoft Выпускает Три Новые Ии-Модели Для Текста, Голоса И Изображений: Дешевле Openai И Google

Ключевые выводы

  • Microsoft AI представила три новые модели: MAI-Transcribe-1 (транскрибация речи), MAI-Voice-1 (генерация голоса) и MAI-Image-2 (генерация изображений/видео).
  • Все модели теперь доступны в сервисе Microsoft Foundry, транскрибация и синтез голоса — также в тестовом MAI Playground.
  • MAI-Transcribe-1 в 2.5 раза быстрее Azure Fast и работает с 25 языками. MAI-Voice-1 создаёт 60 секунд аудио за секунду с возможностью клонирования голоса.
  • Цены модели заявлены как более низкие, чем у конкурентов от Google и OpenAI.
  • Модели разработаны командой Microsoft AI под руководством Мустафы Сулеймана, несмотря на многомиллиардное партнёрство с OpenAI.
Представьте, что вы получаете доступ к трем мощным ИИ-инструментам в одном флаконе: модель, которая молниеносно переводит речь в текст на десятках языков, модель, которая за секунду создаёт реалистичный голос любой длительности, и модель для генерации изображений. И всё это — от Microsoft, которая продолжает строить свой собственный «стек» ИИ, не отказываясь от партнёрства с OpenAI. Это не просто обновление каталога. Это откровение о том, как гигант технологий хочет оставаться независимым в эпоху, когда каждый хочет иметь свой ИИ.

Три модели, три суперспособности: что умеет каждый новый ИИ от Microsoft

Microsoft AI, исследовательское подразделение Microsoft, анонсировало сразу три базовые (foundational) модели. Это значит, что они — фундамент, на котором можно строить более сложные приложения. Каждая решает свою задачу.

MAI-Transcribe-1 — это движок для преобразования речи в текст. Его особенность в скорости и масштабе. Компания заявляет, что он в 2.5 раза быстрее, чем текущее предложение Azure Fast. Но главное — он поддерживает 25 языков. Для бизнеса это значит возможность автоматической расшифровки конференций, подкастов, поддержки клиентов на разных языках без найма переводчиков.

MAI-Voice-1 — наоборот, превращает текст в речь. И делает это невероятно быстро: генерирует 60 секунд аудио за одну секунду обработки. Плюс ключевая функция — создание кастомного голоса. Вы можете обучить модель своему голосу или голосу актёра (с согласия) и затем синтезировать любую фразу. Пригодится для озвучки аудиокниг, интерактивных голосовых помощников, персонализации контента.

MAI-Image-2 — модель для генерации изображений по текстовому описанию. Она появилась раньше, 19 марта, в тестовом приложении MAI Playground. Теперь её выпускают официально. Уточним: в исходном тексте есть небольшая путаница — модель названа «video-generating», но по контексту (размещение в Playground, цена за токены) это, скорее всего, модель для генерации статичных изображений, возможно, с элементами видео. В любом случае, это инструмент для визуализации идей.

Где и как их попробовать: Foundry и Playground

Раньше модели могли быть разбросаны. Теперь Microsoft проводит политику концентрации. Microsoft Foundry — это новая платформа, куда Microsoft AI будет выносить все свои модели. Как понятно из названия, это «верстак» для разработчиков и компаний. Сюда же попадают все три новинки.

Но если хотите пощупать их быстро и бесплатно (или на пробном периоде), есть MAI Playground. Это интерактивный веб-интерфейс, песочница, где можно вводить запросы и сразу видеть результат. В него уже добавлены две модели: транскрибация и синтез голоса. Для MAI-Image-2 там был первый запуск.

Таким образом, у Microsoft есть двухуровневая стратегия: Foundry — для промышленного использования и интеграции в продукты, Playground — для быстрого тестирования и знакомства.

За каждым новым продуктом — команда Мустафы Сулеймана

Эти модели — не просто набор алгоритмов. За ними стоит конкретная команда и философия. Их создала команда Microsoft MAI Superintelligence. Это исследовательская группа, сформированная в ноябре 2025 года. Её возглавляет Мустафа Сулейман — глава Microsoft AI, сооснователь DeepMind.

Сулейман известен своими амбициями в создании «разумного» ИИ. В своём блоге он объясняет подход: «Мы строим Humanist AI (Гуманистический ИИ). У нас особый взгляд при создании моделей — мы ставим человека в центр, оптимизируем для того, как люди на самом деле общаются, обучаем для практического использования».

В чём это проявляется? В том, что модели делают то, что нужно бизнесу и пользователям прямо сейчас: быстро транскрибируют, быстро озвучивают, быстро рисуют. Акцент на практическую полезность, а не на абстрактные возможности.

Ценовая война? Почему Microsoft подчёркивает, что модели дешевле

Рынок больших языковых моделей (LLM) и мультимодальных систем перенасыщен. У Google есть свои модели, у OpenAI — GPT-4 и другие, да и стартапов полно. Чтобы выделиться, Microsoft делает упор на два аспекта: интеграцию в свою экосистему и цену.

Компания прямо пишет в блоге, что её модели дешевле, чем у Google и OpenAI. Давайте посмотрим цифры:

  • MAI-Transcribe-1: от $0.36 за час аудио.
  • MAI-Voice-1: от $22 за 1 миллион символов сгенерированного текста (это примерно 100-125 минут аудио).
  • MAI-Image-2: от $5 за 1 миллион токенов текстового ввода и от $33 за 1 миллион токенов изображения на выходе.

Для сравнения, цены на API OpenAI и Google Cloud Speech-to-Text обычно выше, особенно при больших объёмах. Microsoft явно играет на этом, предлагая «бюджетный» Enterprise-альтернативу. Для стартапов и компаний, которые обрабатывают тонны аудио или генерируют контент, это может быть значительной экономией.

Партнёрство с OpenAI: союзник или конкурент?

Вот что интересно: Microsoft инвестировала более $13 миллиардов в OpenAI. Она размещает модели OpenAI в своих продуктах (Copilot, Bing). Это многолетнее, глубокое партнёрство. Но теперь Microsoft запускает свои, конкурирующие модели. Кажется, что это противоречие.

Сулейман в интервью VentureBeat и The Verge подтверждает: приверженность OpenAI остаётся. Однако он отмечает, что недавний пересмотр условий сотрудничества (возможно, касавшийся эксклюзивности или долей) позволил Microsoft свободнее заниматься собственными исследованиями в области «суперинтеллекта» (superintelligence).

Получается, стратегия двойная: 1) Продолжать использовать и интегрировать лучшие модели OpenAI для конечных продуктов. 2) Развивать свой собственный «стек» моделей (MAI), чтобы не зависеть от одного партнёра, иметь рычаги в переговорах и покорять новые сегменты (например, через дешёвые API). Microsoft, как и с чипами (покупает у NVIDIA/AMD, но и развивает собственные), следует принципу: «и своё, и чужое».

Справка

Microsoft AI — подразделение Microsoft, отвечающее за ИИ-исследования и продукты. Было создано как ответ на бум генеративного ИИ. Возглавляется CEO Мустафой Сулейманом. Сможет ли оно конкурировать с OpenAI face-to-face — главный вопрос индустрии.

Мустафа Сулейман — британский предприниматель и ИИ-исследователь. В 17 лет бросил учёбу, помог основать политическую консалтинговую фирму, затем стал одним из сооснователей DeepMind (позже куплена Google). В 2023 году присоединился к Microsoft как глава нового подразделения Microsoft AI. Автор книги «The Coming Wave» (о рисках ИИ). Его мантра — «гуманистичный» и практичный ИИ.

MAI-Transcribe-1 — модель автоматического распознавания речи (ASR). Ключевые показатели: поддержка 25 языков, скорость в 2.5 раза выше Azure Fast. Применение: расшифровка, субтитры, аналитика голосовых звонков.

Microsoft Foundry — новая единая платформа Microsoft для доступа к ИИ-моделям компании. Позиционируется как конкурент OpenAI API или Google Vertex AI. Должна стать центральным хабом для разработчиков, использующих ИИ Microsoft.

OpenAI — компания, разработчик ChatGPT и GPT-4. С 2019 года имеет стратегическое партнёрство с Microsoft, которая является основным инвестором и облачным партнёром. Partnership позволяет Microsoft использовать модели OpenAI в своих продуктах, но теперь Microsoft хочет иметь и свои козы.

Итак, Microsoft делает смелый ход. Три модели сразу, доступные по низким ценам, под чутким руководством одного из отцов-основателей современного ИИ. Это не «ещё одно обновление». Это заявление: «Мы не просто интегратор OpenAI. Мы — сила, которая строит свои инструменты». Партнёрство с OpenAI остаётся, но теперь у Microsoft есть своё мнение, свой товар и своё конкурентное преимущество — цена и интеграция в всю экосистему Microsoft 365, Azure и Windows. Будущее ИИ-рынка, судя по всему, будет не битвой «OpenAI против всех», а сложной сетью альянсов, собственных разработок и агрессивных коммерческих предложений. И Microsoft только что бросила на этот стол очень весомые карты.

Интересно почитать :

Фонд BKR Capital собрал $20 млн для поддержки технологических стартапов от
основателей из чернокожей общины
Фонд BKR Capital собрал $20 млн для поддержки технологических стартапов от основателей из чернокожей общины

Ключевые выводы BKR Capital закрыл $20 млн первого транша Fund II, приближаясь к цели в $50 млн Фонд инвестирует в технологические компании от основателей из чернокожей общины Канады Средний чек …

Truecaller достиг 500 миллионов пользователей: как приложение стало главным
щитом от спама и что будет дальше
Truecaller достиг 500 миллионов пользователей: как приложение стало главным щитом от спама и что будет дальше

Ключевые выводы Популярный сервис идентификации номеров Truecaller набрал 500 миллионов ежемесячно активных пользователей (MAU). За последний год компания привлекла 50 миллионов новых пользователей, а за пять лет её аудитория удвоилась. …

AltStore PAL объединяется с федиверсом: новая эра альтернативных маркетов iOS
AltStore PAL объединяется с федиверсом: новая эра альтернативных маркетов iOS

Ключевые выводы AltStore PAL стал первым федеративным маркетом приложений для iOS Платформа интегрируется с Mastodon и другими сервисами ActivityPub Разработчики могут публиковать новости и обновления, доступные во всём федиверсе AltStore …

Ма 화н ушёл от Китая: как стартап за $2 млрд спровоцировал конфликт с Пекином
Ма 화н ушёл от Китая: как стартап за $2 млрд спровоцировал конфликт с Пекином

Ключевые выводы Китайский ИИ-стартап Manus, избегая контроля Пекина, переехал в Сингапур, а затем продался Meta за $2 млрд. Сделка стала вызовом для Китая, где такие действия называют «продажей молодых посевов» …

Мировые правоохранительные органы ликвидировали глобальный ботнет SocksEscort:
что это значит для вас
Мировые правоохранительные органы ликвидировали глобальный ботнет SocksEscort: что это значит для вас

Ключевые выводы Глобальная коалиция правоохранительных органов ликвидировала ботнет SocksEscort, состоящий из 280 000 взломанных роутеров Ботнет использовался для киберпреступлений на миллионы долларов, включая атаки на банки, криптовалютные мошенничества и распространение …

Отток талантов в xAI Илона Маска: почему уходят сооснователи и чем это грозит
компании
Отток талантов в xAI Илона Маска: почему уходят сооснователи и чем это грозит компании

Ключевые выводы За последние сутки xAI потеряла двух сооснователей - Tony Wu и Jimmy Ba 6 из 12 создателей компании покинули проект за три года существования Среди причин - подготовка …

ФильтрИзбранноеМеню43750 ₽
Top