kKontora.
← Блог
AIEdgeMobile

Edge AI: когда модель живёт прямо на устройстве

Kontora Studios

Стандартная схема AI-продукта: запрос с устройства → сервер → ответ. Но что если модель работает прямо на телефоне? Без интернета, без задержек, без передачи данных на сервер.

// Почему это стало возможным

Современные чипы смартфонов — Apple A18, Qualcomm Snapdragon 8 Gen 3 — содержат специализированные Neural Processing Units (NPU). iPhone 15 Pro выполняет до 35 TOPS (триллионов операций в секунду). Этого достаточно для запуска 1-3B параметровых моделей в реальном времени. Apple Intelligence, Google Gemini Nano, Samsung Gauss — все крупные игроки уже там.

// Форматы для on-device инференса

Core ML (Apple), TFLite (Android), ONNX Runtime — основные рантаймы. Модели квантизируются до INT4/INT8 и конвертируются в специфический формат. Whisper в Core ML на iPhone работает быстрее, чем на большинстве облачных API — без подключения к интернету.

Медицинские, финансовые и персональные данные никогда не покидают устройство — это killer feature для privacy-sensitive приложений.

// Ограничения

Размер модели жёстко ограничен памятью устройства. 7B+ параметров на мобильнике — пока из области экспериментов. Обновление модели требует обновления приложения. Качество ниже, чем у облачных GPT-4/Claude. Edge AI — это не замена облаку, а дополнение: для задач, где важна приватность или offline-режим.