Технология GAN

Технология GAN (генеративно-состязательная сеть)  выглядит как чистая магия. Искусственный интеллект самостоятельно создает изображения, музыку, тексты – почти не отличимые от тех, что делают люди.

Технология GAN

Благодаря технологии GAN компьютер даже рисует картины, но за волшебством скрываются особые алгоритмы – они созданы людьми.

О технологии

Генеративно-состязательная нейросеть работает на основе алгоритмов машинного обучения – без учителя. Это технология новая. Впервые о ней заговорили в 2014 году: GAN представили исследователи из университета Монреаля во главе с Йошуа Бенжио.

Потенциал GAN действительно огромен. Изображения, музыка, речь, проза – всё это способен создавать искусственный интеллект. Аватары для игр, сгенерированные видеоклипы и фильмы, даже виртуальные ведущие для ТВ появляются благодаря новой технологии.

В каком-то смысле, генеративно-состязательные сети – творцы, и их работа впечатляет.

Новшество высоко оценил директор Facebook по направлению искусственного интеллекта: «Это самая необычная идея в машинном обучении за последнее десятилетие».

Суть генеративно-состязательной сети

Генеративно-состязательная сеть объединяет две нейросети – генератор и дискриминатор. Действуют они в паре – точнее, друг против друга. Процесс их работы – в названии: генеративно-состязательная нейросеть.

GAN состоит из двух сетей:

  • Генератор – создаёт образ. Допустим, лица, которых в реальности не существует.
  • Дискриминатор – отличает настоящее от «поддельного», оценивает на подлинность. Изучая лицо на картинке, старается выяснить: действительно это настоящее лицо или нет?

Т.е. именно дискриминатор решает – относится ли экземпляр к набору тренировочных или нет.

Генератор старается подобрать образ для конкретной категории. Генеративные алгоритмы волнует, «откуда берутся x». Дискриминатора интересует взаимосвязь между y и x.

Схема
Схема принципа работы GAN.

Если подделку распознали, генератор снова пытается обмануть дискриминатора. Со временем нейросеть настолько хорошо обучается, что получаются весьма реалистичные лица. Конечно, генерирование образа не ограничено лицами.

Простым языком: если продемонстрировать GAN множество изображений с котиками, где отмечены эти животные («разметка»), нейросеть сама способна находить пушистых питомцев на картинке.

Виды GAN

За несколько лет генеративно-состязательная сеть эволюционировала – были придуманы улучшения.

Классический

Классические нейросети – универсальный классификатор. Они способны распределить данные по направлениям, узнавая им. Выискивают даже малозаметные признаки, благодаря чему получается сложная классификация информации.

Обычный logloss
Использование в классическом GAN обычного logloss.

Но сгенерировать, создать что-то новое – задача другого класса. И для этого GAN пришлось усовершенствовать.

Модификация Яна Гудфеллоу

Как-то друзья пожаловались исследователю Яну Гудфеллоу, что при попытках генерировать изображения лиц результат получается размытым. Иногда – отсутствуют глаза или уши.

Функция Гудфеллоу
Версия функции Яна Гудфеллоу.

Именно Гудфеллоу предложил использовать вторую нейронную сеть, чтобы благодаря диалогу получались картинки высокого качества. GAN, придуманная Яном Гудфеллоу, была не первой генеративной моделью.

Но именно этот специалист с соавторами предложил оригинальный метод состязательного обучения моделей, когда две сети «соревнуются» при решении противоположных задач.

Wasserstein GAN

Одна из проблем, связанная с генеративно-состязательными сетями – сложность в понимании, когда надо прекратить обучение. Из-за этого приходилось постоянно просматривать образцы, чтобы определить, правильно ли обучается нейросеть. Также было сложно разобраться, когда надо прекратить обучение и не хватало понимания, насколько хорошо настроены параметры.

Wasserstein GAN
Применение функции Wasserstein.

Сеть Вассерштайна имеет функцию потерь, которая коррелирует с качеством изображения. Это архитектура сети с высокой стабильностью обучения. Отличается информативной функцией потерь.

Новые варианты

Появились и другие варианты GAN.

Среди вариаций:

  • полносвязные нейросети, где генератором и дискриминатором выступают многослойные сети прямого распространения;
  • условные – дополнительно используется вектор, указывающий на класс объекта;
  • состязательные автокодировщики – используются для придания пространству скрытых переменных;
  • с моделями вывода – тоже используют механизм переменных, но возможности таких GAN ограничены.
Новый GAN
Пример нового варианта GAN.

Поиск новых областей – активное направление исследования. Ведь GAN уже зарекомендовали себя в классификации изображений, созданию картинок по текстовому описанию, преобразованию фото.

Устойчивость метода

Задача GAN – построить модель данных. Если проще – научиться генерировать образы, которые будут максимально близки к реальным. Но у GAN есть существенный недостаток – их очень сложно обучать.

Все классические GAN, кроме Wassertein (у нее свои способы улучшения стабильности) обладают «хорошими» полями. Обучение – сложная задача из-за параметризации нейронных связей. Если этот показатель «плох», можно так же пойти гулять кругами. Получится замкнутое поле.

Но, к сожалению, нет единого способа теоретически проверить, какие элементы нейросети меняют поле и каким образом. Возможно, это выяснится благодаря исследованиям параметрического ядра системы.

Применение GAN

Технология GAN уже используется в мире. Появляются фильмы и ролики, где искусственный интеллект заменяет одного актера на другого. А еще выпускается реклама, где главным участником может стать пользователь компьютера.

Яркий пример – популярное приложение Рефейс, которое известно уже в 100 странах. Скачать его можно у нас на сайте.

Можно меняться лицами со звёздами, примерить дорогой костюм, хиджаб или рождественский свитер. Имидж меняется одним движением.

Помимо забавных гифок, есть видео открытки и ролики. Можно «попасть» в фильм, заменив главного героя – например, во «Властелине колец» или «Игре престолов». Искусственный интеллект способен поменять персонажа, использовав лишь ваше селфи.

Это возможность не только выйти за рамки обыденности, но и удивить друзей. Ведь слияние высококачественное – подстраивается даже мимика!

Ссылка на основную публикацию