ИИ научили генерировать фейковые видео с Обамой

+7 926 604 54 63 address
 Нейронные сети способны почти на что угодно: даже заставить бывшего президента говорить под фонограмму.
Нейронные сети способны почти на что угодно: даже заставить бывшего президента говорить под фонограмму.

Учёные из Вашингтонского университета (University of Washington) научились делать фейковые видео Барака Обамы на основе звуковой дорожки. Заставить бывшего президента говорить что угодно пока нельзя, но можно скормить нейросетям аудио, записанное двадцать лет назад и получить ролик, в котором пятидесятилетний Обама говорит то же самое. Новый метод сработает и с другими людьми — были бы материалы для тренировки ИИ. Описание технологии опубликовано в сборнике материалов конференции SIGGRAPH 2017

Это уже далеко не первый раз, когда знаменитостей пытаются заставить говорить то, что нужно. Учёные давно работают над созданием цифровых «говорящих голов», которые можно было бы использовать при производстве фильмов и видеоигр или в качестве аватаров в виртуальной реальности. В прошлом году исследователи из США и Германии создали алгоритм Face2Face, которые позволяет в реальном времени «анимировать» Джорджа Буша и других знаменитостей: актёр двигает губами, и персонаж на видео делает то же самое. Новый метод работает иначе: если Face2Face переносит движения рта из одного ролика в другой, то новая технология синтезирует их на основе аудиодорожки.

Авторы работы объясняют, что создать реалистичное видео на основе звука очень сложно, потому что люди крайне внимательны к мимике лица. Если губы движутся не так, как обычно или вокруг них не образуется морщинок, зрители сразу это чувствуют. Другая сложность — технического характера: в интернете много роликов со знаменитостями, но во многих из них людей показывают сбоку или издали, а порой видео нельзя использовать из-за авторских прав. Исследователи решили использовать ролики с еженедельными обращениями бывшего президента США Барака Обамы. Во-первых, все они находятся в открытом доступе, во-вторых, их набралось очень много (17 часов записей за 8 лет), а в-третьих, на них Обама смотрит прямо в камеру, и его лицо отлично видно.

Упрощённо новую технологию можно описать так: нейронной сети дают звуковую дорожку, на основе которой она создаёт приблизительный контур губ. По этому контуру алгоритм строит текстуры рта, щёк и подбородка, они встраиваются в нужный ролик, и ролик подгоняется по времени. Исследователи сравнили свой метод с Face2Face и пришли к выводу, что их Обама получается более реалистичным: особенно заметно отличаются движения губ и морщинки вокруг рта. Однако нужно учитывать, что Face2Face использует только два ролика, а новой технике для тренировки нейронной сети требуются несколько часов видеозаписей.

Учёные продемонстрировали возможности своего метода, сгенерировав ролик, в котором «современный» Обама произносит слова, сказанные больше 25 лет назад. Пока алгоритмы несовершенны — они периодически пристраивают бывшему президенту второй подбородок и допускают другие ошибки, которые, впрочем, не так легко заметить невооружённым глазом. Кроме того, новый метод не моделирует эмоции, поэтому выражение лица может не соответствовать содержанию речи. Исследователи использовали слова, произнесённые Обамой в реальности, но они не исключают, что скоро знаменитостей можно будет заставить говорить что угодно.

Новая работа показывает, что распознать такие фейки вполне реально. В частности, авторы отметили, что при создании видео на основе речи губы и зубы часто размываются. «Это может быть незаметно человеческому глазу, но можно разработать программу, которая сравнивает, насколько размыто изображение вокруг рта по сравнению с остальным видео. Она будет давать достаточно достоверные результаты», — говорит Супасорн Суваджанакорн (Supasorn Suwajanakorn), один из авторов работы.

Новая технология могла бы улучшить качество связи в Скайпе и подобных ему программах, достраивая видео на основе аудио. Или анимировать аудиозвонки для глухих людей, чтобы они могли читать по губам. Не говоря уже о производстве игр и кино. Учёные предполагают, что связь между звуками и очертаниями рта может быть до некоторой степени универсальной. Если это так, нейронную сеть, натренированную на примере Обамы, можно переучить на другого человека, если добавить немного данных. Они так же не исключают, что в будущем удастся создать единую сеть, пригодную для работы с самыми разными роликами.

.
Комментарии