Применение генеративных моделей в компьютерной графике

Автор: Ильдар Давлетьяров • Апрель 1, 2024 • Статья • 1,827 Слов (8 Страниц) • 123 Просмотры

Страница 1 из 8

УДК 004

ПРИМЕНЕНИЕ ГЕНЕРАТИВНЫХ МОДЕЛЕЙ В КОМПЬЮТЕРНОЙ ГРАФИКЕ

Давлетьяров И.М.

i.davletyarov@gmail.com

Научный руководитель: Г.И. Гаптуллазянова, ст. преподаватель каф. АСОИУ
(Казанский национальный исследовательский технический университет им. А.Н. Туполева–КАИ, Казань)

Аннотация. В статье рассматриваются генеративно-состязательная сеть и вариационный автоэнкодер, а также различные области их применения. Выявляются преимущества и ограничения применения данных генеративных моделей и выносятся предложения по их улучшению.

Введение

В последние годы генеративные модели и искусственный интеллект (ИИ) приобрели особую роль в развитии компьютерной графики. Генеративные модели - это класс алгоритмов машинного обучения, которые позволяют создавать новые данные, имитируя распределение исходных данных. На выходе мы можем получить новые изображения, текстуры, анимации и модели. Мы рассмотрим два основных типа генеративных моделей - генеративно-состязательные сети (Generative Adversarial Network - GAN) [1] и вариационные автоэнкодеры (Variational Autoencoder – VAE) [2].

Основная часть

Рассмотрим GAN, её устройство и принцип работы. Данная модель состоит из двух основных компонентов: генератора и дискриминатора. Они взаимодействуют в процессе обучения, «соревнуясь» друг с другом: генератор преобразует случайный шум (например, вектор размерности N) в новые данные (в нашем случае - изображения), используя различные слои (обычно сверточные или полносвязные). Цель генератора в данной «гонке» - сгенерировать данные, которые будут максимально похожи на реальные данные из обучающего набора.

В свою очередь дискриминатор принимает на вход изображения и выдает оценку, насколько они реалистичны. Он обучается на размеченном наборе данных, включающем и реальные, и сгенерированные данные, стремится правильно классифицировать их как "реальные" или "сгенерированные". Цель дискриминатора - различать реальные данные от сгенерированных и выдавать соответствующую оценку «реальности».

Процесс обучения GAN в общем случае можно представить следующим образом: генератор получает случайный шум и выдаёт «синтетические» данные, передающиеся дискриминатору для оценки. Генератор обновляет свои параметры, чтобы максимизировать вероятность классификации дискриминатором выходных данных как реальных. В то же время дискриминатор помимо сгенерированных данных получает реальные из обучающего набора, после чего классифицирует их и выдает оценки реальности. Дискриминатор обновляет свои параметры, чтобы максимизировать точность классификации и вероятность корректного заключения.

Процесс обучения продолжается, генератор и дискриминатор совместно обучаются и улучшаются. Цель состоит в том, чтобы достичь равновесия, когда генератор выдаёт правдоподобный результат, который дискриминатор не может отличить от реально существующего.

Принцип работы VAE

VAE - это вероятностная модель, которая позволяет генерировать новые данные и извлекать из входных скрытые признаки. VAE также состоит из двух основных компонентов - энкодера и декодера – выполняющих при этом совсем иные функции.

Энкодер – это нейронная сеть с несколькими слоями, постепенно уменьшающая размерность входных данных при извлечении информации о важных признаках. Он принимает входные данные (изображения) и преобразует их в скрытое представление, называемое латентным пространством - вектор чисел, где каждая компонента кодирует некоторый аспект данных или связь между признаками. Различные значения в латентном коде могут представлять различные вариации данных.

Латентное пространство является непрерывным и гладким, то есть близкие векторы в нём соответствуют похожим данным в исходном пространстве. Это свойство позволяет VAE генерировать новые вариации данных, выбирая различные точки в латентном пространстве и декодируя их обратно.

Ещё одним свойством латентного пространства является поддержка арифметики векторов. Линейная комбинация двух латентных кодов, соответствующих двум разным лицам, при декодировании может дать лицо, содержащее в себе признаки обоих «родителей». Это свойство позволяет VAE выполнять интерполяцию и манипуляции с данными.

...

Скачать: txt (27.7 Kb) pdf (171.3 Kb) docx (202 Kb)

Продолжить читать еще 7 страниц(ы) »

Читать полный текст Сохранить

Доступно только на Essays.club