Стандартная схема AI-продукта: запрос с устройства → сервер → ответ. Но что если модель работает прямо на телефоне? Без интернета, без задержек, без передачи данных на сервер.
// Почему это стало возможным
Современные чипы смартфонов — Apple A18, Qualcomm Snapdragon 8 Gen 3 — содержат специализированные Neural Processing Units (NPU). iPhone 15 Pro выполняет до 35 TOPS (триллионов операций в секунду). Этого достаточно для запуска 1-3B параметровых моделей в реальном времени. Apple Intelligence, Google Gemini Nano, Samsung Gauss — все крупные игроки уже там.
// Форматы для on-device инференса
Core ML (Apple), TFLite (Android), ONNX Runtime — основные рантаймы. Модели квантизируются до INT4/INT8 и конвертируются в специфический формат. Whisper в Core ML на iPhone работает быстрее, чем на большинстве облачных API — без подключения к интернету.
Медицинские, финансовые и персональные данные никогда не покидают устройство — это killer feature для privacy-sensitive приложений.
// Ограничения
Размер модели жёстко ограничен памятью устройства. 7B+ параметров на мобильнике — пока из области экспериментов. Обновление модели требует обновления приложения. Качество ниже, чем у облачных GPT-4/Claude. Edge AI — это не замена облаку, а дополнение: для задач, где важна приватность или offline-режим.