Microsoft Выпускает Три Новые Ии-Модели Для Текста, Голоса И Изображений: Дешевле Openai И Google

Ключевые выводы

  • Microsoft AI представила три новые модели: MAI-Transcribe-1 (транскрибация речи), MAI-Voice-1 (генерация голоса) и MAI-Image-2 (генерация изображений/видео).
  • Все модели теперь доступны в сервисе Microsoft Foundry, транскрибация и синтез голоса — также в тестовом MAI Playground.
  • MAI-Transcribe-1 в 2.5 раза быстрее Azure Fast и работает с 25 языками. MAI-Voice-1 создаёт 60 секунд аудио за секунду с возможностью клонирования голоса.
  • Цены модели заявлены как более низкие, чем у конкурентов от Google и OpenAI.
  • Модели разработаны командой Microsoft AI под руководством Мустафы Сулеймана, несмотря на многомиллиардное партнёрство с OpenAI.
Представьте, что вы получаете доступ к трем мощным ИИ-инструментам в одном флаконе: модель, которая молниеносно переводит речь в текст на десятках языков, модель, которая за секунду создаёт реалистичный голос любой длительности, и модель для генерации изображений. И всё это — от Microsoft, которая продолжает строить свой собственный «стек» ИИ, не отказываясь от партнёрства с OpenAI. Это не просто обновление каталога. Это откровение о том, как гигант технологий хочет оставаться независимым в эпоху, когда каждый хочет иметь свой ИИ.

Три модели, три суперспособности: что умеет каждый новый ИИ от Microsoft

Microsoft AI, исследовательское подразделение Microsoft, анонсировало сразу три базовые (foundational) модели. Это значит, что они — фундамент, на котором можно строить более сложные приложения. Каждая решает свою задачу.

MAI-Transcribe-1 — это движок для преобразования речи в текст. Его особенность в скорости и масштабе. Компания заявляет, что он в 2.5 раза быстрее, чем текущее предложение Azure Fast. Но главное — он поддерживает 25 языков. Для бизнеса это значит возможность автоматической расшифровки конференций, подкастов, поддержки клиентов на разных языках без найма переводчиков.

MAI-Voice-1 — наоборот, превращает текст в речь. И делает это невероятно быстро: генерирует 60 секунд аудио за одну секунду обработки. Плюс ключевая функция — создание кастомного голоса. Вы можете обучить модель своему голосу или голосу актёра (с согласия) и затем синтезировать любую фразу. Пригодится для озвучки аудиокниг, интерактивных голосовых помощников, персонализации контента.

MAI-Image-2 — модель для генерации изображений по текстовому описанию. Она появилась раньше, 19 марта, в тестовом приложении MAI Playground. Теперь её выпускают официально. Уточним: в исходном тексте есть небольшая путаница — модель названа «video-generating», но по контексту (размещение в Playground, цена за токены) это, скорее всего, модель для генерации статичных изображений, возможно, с элементами видео. В любом случае, это инструмент для визуализации идей.

Где и как их попробовать: Foundry и Playground

Раньше модели могли быть разбросаны. Теперь Microsoft проводит политику концентрации. Microsoft Foundry — это новая платформа, куда Microsoft AI будет выносить все свои модели. Как понятно из названия, это «верстак» для разработчиков и компаний. Сюда же попадают все три новинки.

Но если хотите пощупать их быстро и бесплатно (или на пробном периоде), есть MAI Playground. Это интерактивный веб-интерфейс, песочница, где можно вводить запросы и сразу видеть результат. В него уже добавлены две модели: транскрибация и синтез голоса. Для MAI-Image-2 там был первый запуск.

Таким образом, у Microsoft есть двухуровневая стратегия: Foundry — для промышленного использования и интеграции в продукты, Playground — для быстрого тестирования и знакомства.

За каждым новым продуктом — команда Мустафы Сулеймана

Эти модели — не просто набор алгоритмов. За ними стоит конкретная команда и философия. Их создала команда Microsoft MAI Superintelligence. Это исследовательская группа, сформированная в ноябре 2025 года. Её возглавляет Мустафа Сулейман — глава Microsoft AI, сооснователь DeepMind.

Сулейман известен своими амбициями в создании «разумного» ИИ. В своём блоге он объясняет подход: «Мы строим Humanist AI (Гуманистический ИИ). У нас особый взгляд при создании моделей — мы ставим человека в центр, оптимизируем для того, как люди на самом деле общаются, обучаем для практического использования».

В чём это проявляется? В том, что модели делают то, что нужно бизнесу и пользователям прямо сейчас: быстро транскрибируют, быстро озвучивают, быстро рисуют. Акцент на практическую полезность, а не на абстрактные возможности.

Ценовая война? Почему Microsoft подчёркивает, что модели дешевле

Рынок больших языковых моделей (LLM) и мультимодальных систем перенасыщен. У Google есть свои модели, у OpenAI — GPT-4 и другие, да и стартапов полно. Чтобы выделиться, Microsoft делает упор на два аспекта: интеграцию в свою экосистему и цену.

Компания прямо пишет в блоге, что её модели дешевле, чем у Google и OpenAI. Давайте посмотрим цифры:

  • MAI-Transcribe-1: от $0.36 за час аудио.
  • MAI-Voice-1: от $22 за 1 миллион символов сгенерированного текста (это примерно 100-125 минут аудио).
  • MAI-Image-2: от $5 за 1 миллион токенов текстового ввода и от $33 за 1 миллион токенов изображения на выходе.

Для сравнения, цены на API OpenAI и Google Cloud Speech-to-Text обычно выше, особенно при больших объёмах. Microsoft явно играет на этом, предлагая «бюджетный» Enterprise-альтернативу. Для стартапов и компаний, которые обрабатывают тонны аудио или генерируют контент, это может быть значительной экономией.

Партнёрство с OpenAI: союзник или конкурент?

Вот что интересно: Microsoft инвестировала более $13 миллиардов в OpenAI. Она размещает модели OpenAI в своих продуктах (Copilot, Bing). Это многолетнее, глубокое партнёрство. Но теперь Microsoft запускает свои, конкурирующие модели. Кажется, что это противоречие.

Сулейман в интервью VentureBeat и The Verge подтверждает: приверженность OpenAI остаётся. Однако он отмечает, что недавний пересмотр условий сотрудничества (возможно, касавшийся эксклюзивности или долей) позволил Microsoft свободнее заниматься собственными исследованиями в области «суперинтеллекта» (superintelligence).

Получается, стратегия двойная: 1) Продолжать использовать и интегрировать лучшие модели OpenAI для конечных продуктов. 2) Развивать свой собственный «стек» моделей (MAI), чтобы не зависеть от одного партнёра, иметь рычаги в переговорах и покорять новые сегменты (например, через дешёвые API). Microsoft, как и с чипами (покупает у NVIDIA/AMD, но и развивает собственные), следует принципу: «и своё, и чужое».

Справка

Microsoft AI — подразделение Microsoft, отвечающее за ИИ-исследования и продукты. Было создано как ответ на бум генеративного ИИ. Возглавляется CEO Мустафой Сулейманом. Сможет ли оно конкурировать с OpenAI face-to-face — главный вопрос индустрии.

Мустафа Сулейман — британский предприниматель и ИИ-исследователь. В 17 лет бросил учёбу, помог основать политическую консалтинговую фирму, затем стал одним из сооснователей DeepMind (позже куплена Google). В 2023 году присоединился к Microsoft как глава нового подразделения Microsoft AI. Автор книги «The Coming Wave» (о рисках ИИ). Его мантра — «гуманистичный» и практичный ИИ.

MAI-Transcribe-1 — модель автоматического распознавания речи (ASR). Ключевые показатели: поддержка 25 языков, скорость в 2.5 раза выше Azure Fast. Применение: расшифровка, субтитры, аналитика голосовых звонков.

Microsoft Foundry — новая единая платформа Microsoft для доступа к ИИ-моделям компании. Позиционируется как конкурент OpenAI API или Google Vertex AI. Должна стать центральным хабом для разработчиков, использующих ИИ Microsoft.

OpenAI — компания, разработчик ChatGPT и GPT-4. С 2019 года имеет стратегическое партнёрство с Microsoft, которая является основным инвестором и облачным партнёром. Partnership позволяет Microsoft использовать модели OpenAI в своих продуктах, но теперь Microsoft хочет иметь и свои козы.

Итак, Microsoft делает смелый ход. Три модели сразу, доступные по низким ценам, под чутким руководством одного из отцов-основателей современного ИИ. Это не «ещё одно обновление». Это заявление: «Мы не просто интегратор OpenAI. Мы — сила, которая строит свои инструменты». Партнёрство с OpenAI остаётся, но теперь у Microsoft есть своё мнение, свой товар и своё конкурентное преимущество — цена и интеграция в всю экосистему Microsoft 365, Azure и Windows. Будущее ИИ-рынка, судя по всему, будет не битвой «OpenAI против всех», а сложной сетью альянсов, собственных разработок и агрессивных коммерческих предложений. И Microsoft только что бросила на этот стол очень весомые карты.

Интересно почитать :

Карл Пей о будущем смартфонов: как AI-агенты заменят привычные приложения
Карл Пей о будущем смартфонов: как AI-агенты заменят привычные приложения

Ключевые выводы Карл Пей предсказывает исчезновение традиционных приложений в пользу AI-агентов Будущие устройства будут действовать без прямых команд, предугадывая намерения пользователей Интерфейс для AI-агентов будет отличаться от привычных экранов с …

Y Combinator переводит финансирование стартапов на стейблкоины: как изменится
рынок венчурных инвестиций
Y Combinator переводит финансирование стартапов на стейблкоины: как изменится рынок венчурных инвестиций

Ключевые выводы YC предлагает стартапам получать $500,000 через стейблкоины вместо традиционных переводов Новшество особенно актуально для основателей из развивающихся рынков Выбор блокчейнов: Ethereum, Solana и Base (разработка Coinbase) Изменение связано …

«Рынок смерти»: Как Polymarket допустил ставки на спасение военных и
спровоцировал скандал
«Рынок смерти»: Как Polymarket допустил ставки на спасение военных и спровоцировал скандал

Ключевые выводы Прогнозный рынок Polymarket временно разрешил ставки на дату спасения американских военных, сбитых над Ираном, что вызвало жёсткую критику со стороны конгрессмена Сета Молтона. Молтон назвал платформу «дистопийным рынком …

Как выбрать набор ключей: пошаговый гид для домашнего и профессионального
использования
Как выбрать набор ключей: пошаговый гид для домашнего и профессионального использования

Кратко: Определите типы и размеры — их 6‑20 мм для большинства бытовых задач. Выбирайте материал Cr‑V или закалённую сталь, покрытие хрома/никеля и, при необходимости, антикоррозийное. Учтите дополнительные функции: трещотка, шаровое …

Как стартап CVector помогает промышленным гигантам экономить миллионы с помощью
ИИ
Как стартап CVector помогает промышленным гигантам экономить миллионы с помощью ИИ

Обычный вентиль на трубопроводе может экономить компании миллионы долларов. Звучит невероятно? Именно такие примеры принесли нью-йоркскому стартапу CVector $5 млн инвестиций и клиентов среди промышленных гигантов. От идеи к реальным …

Как определить «пиковый» момент стартапа: советы Элада Гила о тайминге выхода из
бизнеса
Как определить «пиковый» момент стартапа: советы Элада Гила о тайминге выхода из бизнеса

Ключевые выводы У большинства компаний есть около 12‑месячного окна, когда их стоимость достигает пика, после чего она резко падает. Чтобы успеть продать в «верхушке», советники предлагают фиксировать ежегодные встречи совета …

ФильтрИзбранноеМеню43750 ₽
Top