Что такое дипфейки и как их создавать?

Ваш универсальный объяснитель по дипфейкам и их легкому созданию с помощью Faceswap.

Искусственный интеллект уже не такой «искусственный». Эти времена поставили его в опасной близости от нас, людей.

Он может внушать, писать, творить, а теперь выглядит и разговаривает как живой.

Это одна из самых последних разработок в этой области, которой мы должны воспользоваться. Тем не менее, это также то, чего мы должны остерегаться.

Оглавление

Что такое дипфейки?

Слово Deepfake образовано путем объединения глубокого обучения и подделки. Проще говоря, вы также можете предположить, что это умело манипулируемые или глубоко фальсифицированные СМИ.

Согласно Википедии, это также известно как синтетический носитель, в котором существующее изображение, аудио или видео модифицируются, чтобы полностью представлять кого-то другого.

Как правило, дипфейки заставляют известных личностей говорить что-то, чего они в противном случае не сказали бы.

Основываясь на мастерстве его создателя, может быть чрезвычайно сложно сказать, настоящий он или фальшивый.

Как работают дипфейки?

Проще говоря, часть исходного видео (скажем, лицо) заменяется похожей на подделку. В таком случае это также можно назвать сменой лица, как в этом видео «Обама».

Тем не менее, это не ограничивается только видео, и у нас также есть дипфейковые изображения и аудио (и кто знает, дипфейковые аватары виртуальной реальности в ближайшем будущем).

Источник: Дисней

Методология работы таких трюков в первую очередь зависит от приложения и лежащего в его основе алгоритма.

Согласно этому исследовательскому документу Disney, существуют различные методы, в том числе кодировщики-декодеры, генеративно-состязательные сети (GAN), дипфейки на основе геометрии и т. д.

Однако следующие разделы в основном зависят от того, как это работает с Facewap. Это бесплатное программное обеспечение Deepfake с открытым исходным кодом, которое позволяет использовать несколько алгоритмов для получения ожидаемого результата.

Существует три основных процесса создания дипфейков: извлечение, обучение и преобразование.

№1. Добыча

Речь идет об обнаружении и выдавливании интересующей предметной области из образцов медиа, оригинала и того, что на обмен.

В зависимости от аппаратных возможностей может быть много алгоритмов для эффективного обнаружения.

Например, Faceswap имеет несколько различных вариантов извлечения, выравнивания и маскирования в зависимости от эффективности процессора или графического процессора.

Извлечение просто идентифицирует лицо в общем видео. Выравнивание выделяет важные черты любого лица (глаза, нос, подбородок и т. д.). И, наконец, маскирование блокирует другие элементы изображения, кроме интересующей области.

Общее время, необходимое для вывода, важно при выборе любого варианта, поскольку выбор ресурсоемких алгоритмов на посредственном оборудовании может привести к сбою или значительному увеличению времени для получения приемлемых результатов.

Помимо аппаратного обеспечения, выбор также зависит от параметров, например, страдает ли входное видео от лицевых препятствий, таких как движения рук или очки.

Необходимым элементом, в конце концов, является очистка (объясняется позже) вывода, поскольку извлечения будут иметь несколько ложных срабатываний.

В конечном итоге извлечение повторяется для исходного видео и подделки (используемой для подкачки).

№ 2. Обучение

Это сердце создания дипфейков.

Обучение ведется на нейронной сети, состоящей из кодера и декодера. Здесь алгоритмам передаются извлеченные данные для создания модели для последующего преобразования.

Кодер преобразует входные данные в векторное представление, чтобы обучить алгоритм воссозданию лиц из векторов, как это делает декодер.

После этого нейронная сеть оценивает свои итерации и сравнивает их с оригиналом, присваивая оценку потерь. Это значение потерь со временем падает, так как алгоритм продолжает повторяться, и вы останавливаетесь, когда предварительный просмотр становится приемлемым.

Обучение — это трудоемкий процесс, и результаты обычно улучшаются в зависимости от выполняемых итераций и качества входных данных.

Например, Faceawap предлагает минимум 500 изображений, оригинальных и под замену. Кроме того, изображения должны существенно отличаться между собой, охватывая все возможные ракурсы при уникальном освещении для наилучшего отдыха.

Из-за длительности тренировки некоторые приложения (например, Faceswap) позволяют остановить тренировку на полпути или продолжить позже.

Примечательно, что фотореализм вывода также зависит от эффективности алгоритма и ввода. И снова человек ограничен аппаратными возможностями.

№3. Преобразование

Это последняя глава в создании дипфейков. Для алгоритмов преобразования требуется исходное видео, обученная модель и исходный файл выравнивания.

Впоследствии можно изменить несколько параметров, касающихся цветокоррекции, типа маски, желаемого выходного формата и т. д.

После настройки этих нескольких параметров вы просто ждете окончательного рендеринга.

Как уже упоминалось, Faceswap работает со многими алгоритмами, и можно поиграться между ними, чтобы получить приемлемое изменение лица.

В том, что все?

Нет!

Это была просто замена лиц, часть технологии дипфейков. Замена лица, как и буквальное значение, заменяет только часть лица, чтобы дать смутное представление о том, на что способны дипфейки.

Для достоверного обмена вам также может потребоваться имитировать звук (более известный как клонирование голоса) и все телосложение, включая все, что помещается в кадре, например:

Итак, что здесь происходит?

Могло случиться так, что автор дипфейка сам снял видео (как указано в последние несколько секунд), синхронизировал диалог по губам с синтетическим голосом Моргана Фримена и заменил голову.

Наконец, речь идет не только о смене лица, но и обо всем кадре, включая звук.

Вы можете найти тонны дипфейков на YouTube до такой степени, что становится страшно, чему доверять. И все, что для этого нужно, — это мощный компьютер с эффективной видеокартой.

Однако совершенства трудно достичь, особенно это касается дипфейков.

Для убедительного дипфейка, который может ввести аудиторию в заблуждение или удивить, требуется умение и от нескольких дней до недель обработки одной-двух минут видео.

Интересно, насколько эффективны эти алгоритмы на данный момент. Но то, что ждет нас в будущем, в том числе то, насколько эффективными эти приложения могут быть на недорогих аппаратных средствах, заставляет нервничать целые правительства.

Однако мы не будем углубляться в его будущие последствия. Вместо этого давайте проверим, как сделать это самостоятельно для небольшого удовольствия.

Создание (базовых) дипфейковых видео

Вы можете проверить множество приложений в этом списке приложений для дипфейков для создания мемов.

Одним из них является Faceswap, который мы будем использовать.

Прежде чем продолжить, мы удостоверимся в нескольких вещах. Во-первых, у нас должно быть качественное видео цели, изображающее различные эмоции. Далее нам понадобится исходное видео для переключения на целевое.

Кроме того, закройте все приложения, интенсивно использующие графическую карту, такие как браузеры или игры, прежде чем продолжить Faceswap. Это особенно актуально, если у вас менее 2 гигабайт видеопамяти (видеопамяти).

Шаг 1: Извлечение лиц

Первым шагом в этом процессе является извлечение лиц из видео. Для этого мы должны выбрать целевое видео во входном каталоге и указать выходной каталог для извлечения.

Кроме того, есть несколько опций, включая детектор, выравниватель, маскировщик и т. д.; объяснения для каждого из них находятся в часто задаваемых вопросах Faceawap, и было бы напрасно перефразировать информацию здесь.

Источник: Часто задаваемые вопросы по Faceswap

Как правило, полезно просмотреть документацию для лучшего понимания и достойного результата. Однако в Faceswap есть полезные тексты, которые вы можете найти, наведя курсор на конкретную опцию.

Проще говоря, универсального способа не существует, и нужно начинать с лучших алгоритмов и успешно продвигаться вниз, чтобы создать убедительный дипфейк.

Для контекста я использовал Mtcnn (детектор), Fan (выравниватель) и Bisenet-Fp (маскер), оставив все остальные параметры как есть.

Первоначально я пробовал его с S3Fd (лучший детектор) и несколькими другими масками вместе. Однако моя 2-гигабитная Nvidia GeForce GTX 750Ti не выдержала нагрузки, и процесс неоднократно срывался.

Наконец, я смягчил свои ожидания и настройки, чтобы довести дело до конца.

Помимо выбора подходящего детектора, маскеров и т. д., в меню «Настройки» > «Настроить параметры» есть еще несколько параметров, которые помогают дополнительно настроить отдельные параметры для помощи оборудованию.

Проще говоря, выберите минимально возможный размер пакета, размер ввода и размер вывода, а также отметьте LowMem и т. д. Эти параметры недоступны для всех и основаны на определенном разделе. Кроме того, тексты справки помогают в выборе наилучших вариантов.

Хотя этот инструмент отлично справляется с извлечением лиц, выходные кадры могут иметь гораздо больше, чем требуется для обучения (обсуждается позже) модели. Например, у него будут все лица (если в видео их больше одного) и некоторые неверные обнаружения вообще не будут иметь целевого лица.

Это приводит к очистке наборов данных. Либо можно проверить выходную папку и удалить себя, либо использовать сортировку Faceswap, чтобы получить помощь.

Использование вышеупомянутого инструмента будет располагать разные лица в последовательности, из которой вы можете объединить нужные в одну папку и удалить остальные.

Напоминаем, что вы также можете повторить извлечение исходного видео.

Шаг 2: Обучение модели

Это самый долгий процесс создания дипфейка. Здесь вход A относится к целевой грани, а вход B — к исходной грани. Кроме того, в Model Dir будут сохраняться тренировочные файлы.

Здесь наиболее значимым вариантом является Trainer. Существует множество вариантов индивидуального масштабирования; однако то, что сработало для моего оборудования, — это тренажеры Dfl-H128 и Lightweight с самыми низкими настройками конфигурации.

Далее идет размер партии. Больший размер пакета сокращает общее время обучения, но потребляет больше видеопамяти. Итерации не оказывают фиксированного влияния на выходные данные, и вы должны установить достаточно высокое значение и остановить обучение, как только предварительный просмотр станет приемлемым.

Есть еще несколько настроек, в том числе создание таймлапса с предустановленными интервалами; однако я тренировал модель с минимальными затратами.

Шаг 3: Замена на оригинал

Это последний подвиг в создании дипфейка.

Обычно это не занимает много времени, и вы можете поиграть со многими параметрами, чтобы быстро получить желаемый результат.

Как показано на изображении выше, это несколько вариантов, которые необходимо выбрать, чтобы начать преобразование.

Большинство параметров уже обсуждались, например каталог ввода и вывода, каталог модели и т. д. Одним из важных моментов является выравнивание, которое относится к файлу выравнивания (.fsa) целевого видео. Он создается во входном каталоге во время извлечения.

Поле «Выравнивания» можно оставить пустым, если этот конкретный файл не был перемещен. В противном случае можно выбрать файл и перейти к другим параметрам. Однако не забудьте очистить файл выравнивания, если ранее вы очищали извлечения.

Для этого этот мини-инструмент лежит в Tools > Alignments.

Начните с выбора Remove-Faces в разделе Job, выберите исходный файл выравнивания и папку с очищенными целевыми гранями и щелкните Alignments в правом нижнем углу.

Это создаст измененный файл выравнивания, соответствующий папке оптимизированных лиц. Пожалуйста, помните, что это нужно для целевого видео, на которое мы хотим переключиться.

Еще несколько конфигураций включают настройку цвета и тип маски. Регулировка цвета диктует смешивание маски, и вы можете попробовать несколько, просмотреть предварительный просмотр и выбрать оптимальный вариант.

Тип маски важнее. Это, опять же, зависит от ваших ожиданий и доступного оборудования. Как правило, вам также необходимо учитывать характеристики входного видео. Например, Vgg-Clear хорошо работает с фронтальными лицами без препятствий, тогда как Vgg-Obstructed также может работать с препятствиями, такими как жесты рук, очки и т. д.

Затем Writer предлагает несколько вариантов на основе желаемого результата. Например, выберите Ffmpeg для рендеринга видео.

В целом, ключом к успешному дипфейку является предварительный просмотр нескольких выходных данных и оптимизация в соответствии с доступностью времени и мощностью оборудования.

Применение дипфейка

Есть хорошие, плохие и опасные применения дипфейков.

Хорошие состоят из воссоздания уроков истории теми, которые были на самом деле, для большего вовлечения.

Кроме того, они используются платформами онлайн-обучения для создания видео из текстов.

Но одним из самых больших бенефициаров будет киноиндустрия. Здесь будет легко представить, как настоящий ведущий выполняет трюки, даже если это будет каскадер, рискующий своей жизнью. Кроме того, создание многоязычных фильмов станет проще, чем когда-либо.

Что касается плохих, то, к сожалению, их много. На самом деле, самое большое применение дипфейков на сегодняшний день, 96% (согласно этому отчету Deeptrace), находится в порноиндустрии, чтобы подменять лица знаменитостей на порноактеров.

Кроме того, дипфейки также используются против «стандартных» женщин, не являющихся знаменитостями. Обычно такие жертвы имеют в своих профилях в социальных сетях качественные фотографии или видео, которые используются для создания дипфейков.

Еще одно страшное приложение — вишинг, он же голосовой фишинг. В одном из таких случаев генеральный директор британской фирмы перевел 243 000 долларов по приказу «генерального директора» своей немецкой материнской компании, но позже узнал, что на самом деле это был телефонный звонок.

Но еще опаснее дипфейки, провоцирующие войны или призывающие к капитуляции. В ходе последней попытки президент Украины Владимир Зеленский приказал своим войскам и народу сдаться в продолжающейся войне. Однако правду на этот раз выдало некачественное видео.

Наконец, существует множество приложений для дипфейков, и это только начинается.

Это подводит нас к вопросу на миллион долларов…

Законны ли дипфейки?

Во многом это зависит от местной администрации. Хотя четких законов, в том числе о том, что допустимо, а что нет, еще предстоит увидеть.

Тем не менее, очевидно, что это зависит от того, для чего вы используете дипфейки — от намерения. Вряд ли есть какой-то вред, если вы собираетесь развлекать или обучать кого-либо, не расстраивая цель подкачки.

С другой стороны, вредоносные приложения должны преследоваться по закону, независимо от юрисдикции. Еще одна серая зона — это нарушение авторских прав, которое требует надлежащего рассмотрения.

Но повторюсь, вам следует уточнить у местных органов власти легальные приложения для дипфейков.

Берегись!

Deepfkaes использует искусственный интеллект, чтобы заставить кого-то что-то сказать.

Не доверяйте ничему, что вы видите в Интернете, — это первый совет, которому мы должны следовать. Есть тонны дезинформации, и их эффективность только возрастает.

И поскольку создавать их будет только проще, пришло время научиться распознавать дипфейки.