kKontora.
← Блог
Computer VisionFashionSAMIDM-VTON

Виртуальная примерка: IDM-VTON и SAM в деле

Kontora Studios

Fashion Closet — наш самый визуально впечатляющий проект. Идея проста: пользователь загружает своё фото, выбирает вещь из каталога модных домов — и нейросеть «надевает» эту вещь на фото. Реализация — совсем не простая.

// SAM: сегментация одежды

Segment Anything Model от Meta — первый этап пайплайна. SAM определяет, где на фото человека находится текущая одежда, и создаёт точную маску. Это критично: если маска неточная, новая вещь «наденется» криво — рукав залезет на руку, воротник обрежет шею. SAM справляется хорошо даже со сложными позами, но с очень тёмной или очень светлой одеждой бывают проблемы.

// IDM-VTON: генерация примерки

IDM-VTON (Image-based Detailed Matching Virtual Try-On Network) — модель, которая берёт фото человека, маску от SAM и фото одежды, и генерирует реалистичное изображение человека в этой одежде. Модель учитывает позу, освещение, складки ткани и даже текстуру материала.

Главная боль — качество генерации сильно зависит от входных данных. Фронтальное фото при хорошем освещении — отличный результат. Фото сбоку в тёмной комнате — артефакты. Мы добавили валидацию входного фото перед обработкой.

// Парсинг каталогов

Чтобы было что примерять, нужен каталог. Мы парсим коллекции с Vogue Runway, SSENSE и сайтов отдельных брендов. Каждая вещь сохраняется с метаданными: бренд, сезон, категория, цвет, цена. Парсер работает по расписанию — новые коллекции подтягиваются автоматически.

// Что дальше

Сейчас Fashion Closet на этапе подготовки к запуску. Мы дорабатываем качество генерации, оптимизируем время обработки (сейчас примерка одной вещи занимает 15-20 секунд) и строим Mini App с галереей, фильтрами и вишлистом. Цель — сделать примерку такой же быстрой и удобной, как свайп в Tinder.