- Ключевые выводы
- Три модели, три суперспособности: что умеет каждый новый ИИ от Microsoft
- Где и как их попробовать: Foundry и Playground
- За каждым новым продуктом — команда Мустафы Сулеймана
- Ценовая война? Почему Microsoft подчёркивает, что модели дешевле
- Партнёрство с OpenAI: союзник или конкурент?
- Справка
Ключевые выводы
- Microsoft AI представила три новые модели: MAI-Transcribe-1 (транскрибация речи), MAI-Voice-1 (генерация голоса) и MAI-Image-2 (генерация изображений/видео).
- Все модели теперь доступны в сервисе Microsoft Foundry, транскрибация и синтез голоса — также в тестовом MAI Playground.
- MAI-Transcribe-1 в 2.5 раза быстрее Azure Fast и работает с 25 языками. MAI-Voice-1 создаёт 60 секунд аудио за секунду с возможностью клонирования голоса.
- Цены модели заявлены как более низкие, чем у конкурентов от Google и OpenAI.
- Модели разработаны командой Microsoft AI под руководством Мустафы Сулеймана, несмотря на многомиллиардное партнёрство с OpenAI.
Представьте, что вы получаете доступ к трем мощным ИИ-инструментам в одном флаконе: модель, которая молниеносно переводит речь в текст на десятках языков, модель, которая за секунду создаёт реалистичный голос любой длительности, и модель для генерации изображений. И всё это — от Microsoft, которая продолжает строить свой собственный «стек» ИИ, не отказываясь от партнёрства с OpenAI. Это не просто обновление каталога. Это откровение о том, как гигант технологий хочет оставаться независимым в эпоху, когда каждый хочет иметь свой ИИ.
Три модели, три суперспособности: что умеет каждый новый ИИ от Microsoft
Microsoft AI, исследовательское подразделение Microsoft, анонсировало сразу три базовые (foundational) модели. Это значит, что они — фундамент, на котором можно строить более сложные приложения. Каждая решает свою задачу.
MAI-Transcribe-1 — это движок для преобразования речи в текст. Его особенность в скорости и масштабе. Компания заявляет, что он в 2.5 раза быстрее, чем текущее предложение Azure Fast. Но главное — он поддерживает 25 языков. Для бизнеса это значит возможность автоматической расшифровки конференций, подкастов, поддержки клиентов на разных языках без найма переводчиков.
MAI-Voice-1 — наоборот, превращает текст в речь. И делает это невероятно быстро: генерирует 60 секунд аудио за одну секунду обработки. Плюс ключевая функция — создание кастомного голоса. Вы можете обучить модель своему голосу или голосу актёра (с согласия) и затем синтезировать любую фразу. Пригодится для озвучки аудиокниг, интерактивных голосовых помощников, персонализации контента.
MAI-Image-2 — модель для генерации изображений по текстовому описанию. Она появилась раньше, 19 марта, в тестовом приложении MAI Playground. Теперь её выпускают официально. Уточним: в исходном тексте есть небольшая путаница — модель названа «video-generating», но по контексту (размещение в Playground, цена за токены) это, скорее всего, модель для генерации статичных изображений, возможно, с элементами видео. В любом случае, это инструмент для визуализации идей.
Где и как их попробовать: Foundry и Playground
Раньше модели могли быть разбросаны. Теперь Microsoft проводит политику концентрации. Microsoft Foundry — это новая платформа, куда Microsoft AI будет выносить все свои модели. Как понятно из названия, это «верстак» для разработчиков и компаний. Сюда же попадают все три новинки.
Но если хотите пощупать их быстро и бесплатно (или на пробном периоде), есть MAI Playground. Это интерактивный веб-интерфейс, песочница, где можно вводить запросы и сразу видеть результат. В него уже добавлены две модели: транскрибация и синтез голоса. Для MAI-Image-2 там был первый запуск.
Таким образом, у Microsoft есть двухуровневая стратегия: Foundry — для промышленного использования и интеграции в продукты, Playground — для быстрого тестирования и знакомства.
За каждым новым продуктом — команда Мустафы Сулеймана
Эти модели — не просто набор алгоритмов. За ними стоит конкретная команда и философия. Их создала команда Microsoft MAI Superintelligence. Это исследовательская группа, сформированная в ноябре 2025 года. Её возглавляет Мустафа Сулейман — глава Microsoft AI, сооснователь DeepMind.
Сулейман известен своими амбициями в создании «разумного» ИИ. В своём блоге он объясняет подход: «Мы строим Humanist AI (Гуманистический ИИ). У нас особый взгляд при создании моделей — мы ставим человека в центр, оптимизируем для того, как люди на самом деле общаются, обучаем для практического использования».
В чём это проявляется? В том, что модели делают то, что нужно бизнесу и пользователям прямо сейчас: быстро транскрибируют, быстро озвучивают, быстро рисуют. Акцент на практическую полезность, а не на абстрактные возможности.
Ценовая война? Почему Microsoft подчёркивает, что модели дешевле
Рынок больших языковых моделей (LLM) и мультимодальных систем перенасыщен. У Google есть свои модели, у OpenAI — GPT-4 и другие, да и стартапов полно. Чтобы выделиться, Microsoft делает упор на два аспекта: интеграцию в свою экосистему и цену.
Компания прямо пишет в блоге, что её модели дешевле, чем у Google и OpenAI. Давайте посмотрим цифры:
- MAI-Transcribe-1: от $0.36 за час аудио.
- MAI-Voice-1: от $22 за 1 миллион символов сгенерированного текста (это примерно 100-125 минут аудио).
- MAI-Image-2: от $5 за 1 миллион токенов текстового ввода и от $33 за 1 миллион токенов изображения на выходе.
Для сравнения, цены на API OpenAI и Google Cloud Speech-to-Text обычно выше, особенно при больших объёмах. Microsoft явно играет на этом, предлагая «бюджетный» Enterprise-альтернативу. Для стартапов и компаний, которые обрабатывают тонны аудио или генерируют контент, это может быть значительной экономией.
Партнёрство с OpenAI: союзник или конкурент?
Вот что интересно: Microsoft инвестировала более $13 миллиардов в OpenAI. Она размещает модели OpenAI в своих продуктах (Copilot, Bing). Это многолетнее, глубокое партнёрство. Но теперь Microsoft запускает свои, конкурирующие модели. Кажется, что это противоречие.
Сулейман в интервью VentureBeat и The Verge подтверждает: приверженность OpenAI остаётся. Однако он отмечает, что недавний пересмотр условий сотрудничества (возможно, касавшийся эксклюзивности или долей) позволил Microsoft свободнее заниматься собственными исследованиями в области «суперинтеллекта» (superintelligence).
Получается, стратегия двойная: 1) Продолжать использовать и интегрировать лучшие модели OpenAI для конечных продуктов. 2) Развивать свой собственный «стек» моделей (MAI), чтобы не зависеть от одного партнёра, иметь рычаги в переговорах и покорять новые сегменты (например, через дешёвые API). Microsoft, как и с чипами (покупает у NVIDIA/AMD, но и развивает собственные), следует принципу: «и своё, и чужое».
Справка
Microsoft AI — подразделение Microsoft, отвечающее за ИИ-исследования и продукты. Было создано как ответ на бум генеративного ИИ. Возглавляется CEO Мустафой Сулейманом. Сможет ли оно конкурировать с OpenAI face-to-face — главный вопрос индустрии.
Мустафа Сулейман — британский предприниматель и ИИ-исследователь. В 17 лет бросил учёбу, помог основать политическую консалтинговую фирму, затем стал одним из сооснователей DeepMind (позже куплена Google). В 2023 году присоединился к Microsoft как глава нового подразделения Microsoft AI. Автор книги «The Coming Wave» (о рисках ИИ). Его мантра — «гуманистичный» и практичный ИИ.
MAI-Transcribe-1 — модель автоматического распознавания речи (ASR). Ключевые показатели: поддержка 25 языков, скорость в 2.5 раза выше Azure Fast. Применение: расшифровка, субтитры, аналитика голосовых звонков.
Microsoft Foundry — новая единая платформа Microsoft для доступа к ИИ-моделям компании. Позиционируется как конкурент OpenAI API или Google Vertex AI. Должна стать центральным хабом для разработчиков, использующих ИИ Microsoft.
OpenAI — компания, разработчик ChatGPT и GPT-4. С 2019 года имеет стратегическое партнёрство с Microsoft, которая является основным инвестором и облачным партнёром. Partnership позволяет Microsoft использовать модели OpenAI в своих продуктах, но теперь Microsoft хочет иметь и свои козы.
Итак, Microsoft делает смелый ход. Три модели сразу, доступные по низким ценам, под чутким руководством одного из отцов-основателей современного ИИ. Это не «ещё одно обновление». Это заявление: «Мы не просто интегратор OpenAI. Мы — сила, которая строит свои инструменты». Партнёрство с OpenAI остаётся, но теперь у Microsoft есть своё мнение, свой товар и своё конкурентное преимущество — цена и интеграция в всю экосистему Microsoft 365, Azure и Windows. Будущее ИИ-рынка, судя по всему, будет не битвой «OpenAI против всех», а сложной сетью альянсов, собственных разработок и агрессивных коммерческих предложений. И Microsoft только что бросила на этот стол очень весомые карты.








