- Кратко:
- Какие задачи реально выполнять офлайн на смартфоне?
- Подбор модели: что подходит для мобильных устройств?
- Требования к железу: какой смартфон нужен?
- Android
- iOS
- Какие приложения позволяют запустить LLM без кода?
- PocketPal AI (Android / iOS)
- Google AI Edge Gallery (только Android)
- Другие варианты
- Пошаговая настройка в PocketPal AI
- Настройка в Google AI Edge Gallery
- Ограничения и компромиссы: чего ждать от мобильного ИИ?
- Лучшие практики: как достичь стабильной работы?
- Оптимизировать модель
- Управлять ресурсами
- Обеспечить безопасность
- Примеры использования из практики
- FAQ
Кратко:
- Для Android и iOS оптимальны модели 2‑7 млрд параметров в формате GGUF.
- Нужен смартфон‑флагман с 8‑12 ГБ ОЗУ и NPU/GPU‑ускорителем.
- Самый простой запуск – приложение PocketPal AI (Android / iOS) или Google AI Edge Gallery (Android).
Запустить локальную нейросеть на Android и iOS сегодня проще, чем год назад: достаточно выбрать подходящую модель, установить одно приложение и следовать 5‑шаговой инструкции.
Какие задачи реально выполнять офлайн на смартфоне?
Локальная нейросеть отлично справляется с ограниченными, но часто повторяющимися заданиями:
- Создание черновиков писем, статей и отчетов.
- Транскрипция голосовых заметок и перевод аудио.
- Краткое пересказивание документов (контекст ≤ 128 тыс. токенов).
- Генерация кода с помощью моделей‑кодов (Qwen‑Coder, Phi‑3.5 mini).
- Анализ фото в реальном времени (распознавание объектов, OCR).
Тяжелые мультимодальные запросы, генерация видеоконтента или большие контексты лучше отправлять в облако.
Подбор модели: что подходит для мобильных устройств?
Ключевой критерий — размер в памяти. На смартфонах удобны модели до ~7 млрд параметров, упакованные в GGUF с int4/int8‑квантованием.
| Модель | Параметры (млрд) | Размер GGUF (ГБ) | Поддержка Android/iOS |
|---|---|---|---|
| Gemma 3n‑E4B‑int4 | 4 | 2.5 | Android, iOS |
| Llama 3.2‑3B‑int8 | 3 | 1.8 | Android, iOS |
| Qwen 2.5‑3B‑coder‑int4 | 3 | 2.0 | Android |
| Phi‑3.5 mini‑int4 | 3.8 | 2.2 | Android, iOS |
| Mixtral 8×7B‑int4 | 7 | 4.5 | Android (только флагман) |
Все модели свободно лицензированы (Apache‑2.0, MIT) и доступны на Hugging Face. Открытый код позволяет собрать собственный GGUF‑конвертер, если нужно адаптировать вес.
Требования к железу: какой смартфон нужен?
Android
- Процессор: Snapdragon 8 Gen 2/3, MediaTek Dimensity 9200 или эквивалент.
- Оперативка: минимум 8 ГБ RAM, желательно 12 ГБ для моделей > 5 млрд параметров.
- Нейронный ускоритель: NPU, поддержка NNAPI, GPU‑OpenCL.
- OS: Android 8 и выше, 64‑бит.
iOS
- Чип: A17 Pro (iPhone 15 Pro) или новее, с 16‑ядерным Neural Engine.
- Оперативка: 8 ГБ RAM (iPhone 15 Pro) – 12 ГБ для iPhone 17 Pro.
- OS: iOS 16 и выше.
Для моделей > 7 млрд параметров потребуется «тонкая» квантовка и отключение KV‑кеша, иначе устройство начнёт троттлить.
Какие приложения позволяют запустить LLM без кода?
PocketPal AI (Android / iOS)
- Поддержка GGUF, автоматическая загрузка с Hugging Face.
- Встроенный чат‑интерфейс, настройка температуры, max‑tokens.
- Функция «Auto‑Unload» экономит RAM.
- Опция создания собственного «ассистента» с системным промптом.
Google AI Edge Gallery (только Android)
- Требует APK‑установку, вход в аккаунт Hugging Face.
- Поддерживает модели Gemma‑3n‑E4B‑int4, Llama‑3‑B‑int8 и др.
- Минимальный UI, каждый запрос – отдельный диалог.
Другие варианты
- MLC‑Chat (iOS) – открытый клиент, работает с GGUF.
- Locally AI – Local AI Chat (Android) – похож на PocketPal.
- Офлайн‑пакет Ollama (только ПК), но можно собрать в Termux / iSH.
Пошаговая настройка в PocketPal AI
- Установить приложение. Скачать из Google Play или App Store.
- Подключить аккаунт Hugging Face. Открыть «+ Add from Hugging Face», ввести название модели (например,
gemma-3-4b-int4). - Выбрать размер. Обратить внимание на поле «Memory Warning» – не превышать ~6 ГБ упакованного веса.
- Скачать модель. Нажать Download, дождаться завершения.
- Запустить чат. Перейти во вкладку Chat, выбрать загруженную модель, настроить параметры генерации и начать вводить запросы.
Для iOS процесс идентичен, лишь путь к приложению другой.
Настройка в Google AI Edge Gallery
- Скачать APK –
AI‑Edge‑Gallery.apk(Android 8+). - Разрешить установку из неизвестных источников.
- Войти в Hugging Face, найти
gemma-3n-e4b-int4. - Нажать Download & Run. После загрузки модель будет доступна в офлайн‑режиме.
- Для распознавания текста включить камеру в настройках «OCR Mode».
Ограничения и компромиссы: чего ждать от мобильного ИИ?
- Скорость. На iPhone 15 Pro модели ~4 млн параметров дают 8‑10 токенов/сек. Большие модели (≥ 8 млн) падают до 2‑3 токенов/сек.
- Энергопотребление. Интенсивные вычисления нагревают процессор, приводят к троттлингу и быстрой разрядке батареи.
- Качество. Квантованные модели могут давать менее точные ответы, особенно в специализированных доменах.
- Память. При превышении RAM (≈ 6 ГБ модели) приложение выдаст предупреждение и не запустит модель.
- История чата. Некоторые клиенты не сохраняют контекст между сессиями, поэтому лучше сохранять важные запросы вручную.
Лучшие практики: как достичь стабильной работы?
Оптимизировать модель
- Выбрать int4 квантование вместо float16.
- Отключить KV‑кеш, если нужен только односторонний ввод.
- Использовать версию модели с низким контекстом (≤ 64 к токенов) для быстрых ответов.
Управлять ресурсами
- Закрывать фоновые приложения перед запуском ИИ.
- Включать режим «Power Save» только после завершения сессии.
- Регулярно чистить кэш приложения (Settings → PocketPal → Clear Cache).
Обеспечить безопасность
- Скачивать модели только с официальных репозиториев Hugging Face.
- Проверять подпись APK‑файлов.
- Не хранить чувствительные данные в чате без шифрования.
Примеры использования из практики
Кейс 1 – Юрист в поле. На Samsung Galaxy S24 Ultra (12 ГБ RAM) установлен Gemma 3n‑E4B‑int4. За 30 секунд ИИ создал черновик судебного иска, полностью офлайн, без передачи клиентских данных.
Кейс 2 – Разработчик‑фрилансер. На iPhone 15 Pro использовал Phi‑3.5 mini‑int4 в PocketPal для генерации шаблонов кода. Средняя генерация функции занимала 12 секунд, что ускорило работу на 30 %.
Кейс 3 – Путешественник. В горах без сигнала Android‑планшет (Snapdragon 8 Gen 3) обслуживал локальный перевод аудио‑записей через Qwen‑2.5‑coder‑int4, получая субтитры в реальном времени.
Локальная нейросеть – это не заменитель облака, а удобный вспомогательный инструмент, который работает там, где важна приватность и автономность.
FAQ
- Можно ли запустить GPT‑4 на смартфоне? Нет. GPT‑4 закрыт под лицензией OpenAI и требует сотни гигабайт памяти.
- Нужен ли root‑доступ для PocketPal? Нет, приложение работает в обычном пользовательском режиме.
- Как проверить, что модель загрузилась в RAM? В настройках PocketPal есть индикатор «Memory Usage», показывающий текущий объём занятых мегабайт.
- Можно ли использовать несколько моделей одновременно? Да, но только по очереди – приложение выгружает предыдущую модель при выборе новой.
- Поддерживает ли iOS‑версия автозагрузку моделей при старте? Да, функция «Auto‑Load on Launch» позволяет предзагружать выбранную модель при открытии приложения.






