Google Deepmind Открывает Project Genie: Как Создать Игровой Мир Из Текста Или Фото

Хотите создать собственную игровую вселенную за минуту? Теперь это возможно — Google DeepMind открывает доступ к Project Genie. Этот экспериментальный инструмент превращает текстовые описания или фотографии в интерактивные миры. Как устроена "машина воображения", кто уже её тестирует и чем она отличается от обычных игровых движков — разбираемся в деталях.

Как работает "волшебная лампа" для геймдизайнеров

Представьте: вы описываете замок из зефира с рекой из шоколада или рисуете персонажа — и через 60 секунд получаете готовый 3D-мир. Именно так работает Project Genie. Алгоритму достаточно трёх элементов:

1. Текстовый запрос — например, "мультяшный кот исследует офис в стиле аниме".

2. Изображение-основа — можно загрузить фото или создать через Nano Banana Pro (генератор картинок DeepMind).

Генерация мира происходит в три этапа: сначала создаётся статичная сцена, затем добавляются физические свойства объектов, после чего активируется управление персонажем. Пока длится ограниченная минутная сессия, можно ходить, прыгать и взаимодействовать с окружением.

Технологии под капотом: Genie 3, Nano Banana Pro и Gemini

Project Genie — не самостоятельный продукт, а комбинация трёх разработок DeepMind:

Genie 3 — "мировая модель", которая предсказывает развитие среды. Если персонаж толкнет стул, алгоритм просчитывает, как упадёт предмет и изменится освещение.

Nano Banana Pro — улучшенная версия генератора изображений. Превращает текст в визуальные концепты за 2-3 секунды. Правда, иногда ошибается — вместо зелёных волос может выдать фиолетовые.

Gemini — мультимодальная ИИ-система, которая связывает текстовые описания с визуальным контентом. Она же отвечает за навигационные подсказки.

Почему пока только 60 секунд игры

Шлом Фруктер, руководитель проекта в DeepMind, объясняет временные ограничения просто: "Каждая сессия требует выделенного GPU. Чтобы охватить больше пользователей, мы балансируем между длительностью и доступностью".

Техническая причина — авторегрессионная природа Genie 3. Каждый следующий кадр генерируется на основе предыдущего, и со временем погрешности накапливаются. После минуты работы артефакты становятся заметны даже непрофессионалам.

Что получается хорошо, а что — не очень

Сильные стороны:

- Стилизации под аниме, акварель и пластилиновую анимацию — алгоритм воссоздаёт их безупречно

- Абстрактные миры вроде "летающего острова из книг" — здесь ИИ проявляет креативность

- Модификации существующих сцен — можно добавить дождь в солнечный пейзаж одним кликом

Слабые места:

- Фотореализм — пока получается скорее "хорошая игра 2020-х", чем реальность

- Навигация — управление персонажем требует сноровки, объекты иногда "проходятся насквозь"

- Брендированный контент — из-за споров с Disney нельзя создавать даже намёки на их персонажей

Зачем DeepMind игровые миры

Генерация развлекательного контента — только первый шаг. В DeepMind рассматривают Project Genie как полигон для обучения "мировых моделей" — ИИ-систем, способных предсказывать развитие событий в виртуальной среде.

Такие модели — ключевой элемент для создания:

- Обучения роботов в цифровых симуляторах (без риска сломать дорогое оборудование)

- Виртуальных ассистентов, понимающих контекст окружения

- Прогнозных систем для урбанистики и логистики

Кто ещё создаёт "мировые модели"

DeepMind — не единственные в этой гонке:

World Labs Фэй-Фэй Ли — запустили коммерческий продукт Marble для архитектурных визуализаций

Runway — стартап из Нью-Йорка, совмещающий генерацию видео с физическим движком

AMI Labs Янна Лекуна — фокусируется на обучении ИИ через виртуальные среды

Справка: DeepMind и ключевые участники

Google DeepMind — британская AI-лаборатория, основанная в 2010 году Демисом Хассабисом. Известна прорывами в глубоком обучении: AlphaGo обыграла чемпиона мира в го, AlphaFold решила проблему сворачивания белков. В 2014 поглощена Google. Штаб-квартира в Лондоне.

Шлом Фруктер — директор по исследованиям DeepMind. Специалист по обучению с подкреплением. До прихода в Google работал над алгоритмами прогнозирования для хедж-фондов. Руководил интеграцией моделей PaLM и Gemini.

Genie 3 — третья версия "мировой модели", представленная в марте 2025 года. Главное отличие от предшественников — способность запоминать контекст в течение сессии. Например, если вы вернётесь к ранее созданной локации, окружение останется узнаваемым.

Project Genie пока напоминает любопытного, но неуклюжего ребёнка — он способен создавать восхитительные миры, но спотыкается на простых задачах вроде фотореалистичной графики. Но именно эти эксперименты приближают нас к главной цели — ИИ, который понимает мир как человек. Когда-то DeepMind научили нейросети играть лучше людей — теперь они учат их воображать. И это, пожалуй, интереснее любой игры.

Интересно почитать :

OpenAI поглотила стартап Hiro Finance: что значит это приобретение для
финансовых ИИ‑приложений
OpenAI поглотила стартап Hiro Finance: что значит это приобретение для финансовых ИИ‑приложений

Ключевые выводы OpenAI приобрела Hiro Finance в формате acquihire – команда переедет в OpenAI, а сервис будет закрыт. Hiro, основанный в 2023 году, предлагал AI‑поддержку финансового планирования с точным расчётом …

Как правильно выбрать электроинструмент: классификация и критерии
Как правильно выбрать электроинструмент: классификация и критерии

Кратко: Класс инструмента определяется продолжительностью непрерывной работы, а не сложностью задач Бытовой инструмент рассчитан на до 30 минут работы, профессиональный — до 8 часов Мощность сама по себе не гарантирует …

Canva AI 2.0: Как новый помощник меняет создание дизайна и автоматизацию задач
Canva AI 2.0: Как новый помощник меняет создание дизайна и автоматизацию задач

Ключевые выводы Canva AI 2.0 позволяет создавать редактируемые дизайны по текстовому запросу, используя слойную структуру для гибкой доработки. Новые интеграции (Slack, Gmail, Google Drive, Calendar, Zoom) дают боту доступ к …

Мама‑инвестор: как Allison Stern собрала $10 млн для фонда, ориентированного на
женщин‑покупательниц
Мама‑инвестор: как Allison Stern собрала $10 млн для фонда, ориентированного на женщин‑покупательниц

Ключевые выводы Allison Stern привлекла $10 млн для первого фонда Mother Ventures, который инвестирует в продукты и сервисы для мам. Американские мамы совершают 85 % семейных покупок и управляют потребительским …

Выборы в Калифорнии-17: Почему юридическое прошлое кандидата от Силиконовой
долины становится главной темой
Выборы в Калифорнии-17: Почему юридическое прошлое кандидата от Силиконовой долины становится главной темой

Ключевые выводы Гонка за место в Конгрессе в округе Калифорния-17 уже связана с судебными делами против кандидата Итана Агарваля. Конфликт начался из-за поддержки инкумбентом Ро Ханной налога на сверхбогатых, что …

Tank OS — новый открытый инструмент Red Hat для безопасного развёртывания
OpenClaw
Tank OS — новый открытый инструмент Red Hat для безопасного развёртывания OpenClaw

Ключевые выводы Tank OS — открытый проект, позволяющий развёртывать OpenClaw в изолированных контейнерах Podman на Fedora. Инструмент ориентирован на ИТ‑профессионалов, которым нужно управлять массивом агентов OpenClaw в корпоративных сетях. Tank …

ФильтрИзбранноеМеню43750 ₽
Top