Как распознать созданные ИИ фейковые образы

В 2014 году разработчик систем машинного обучения Ян Гудфеллоу (Ian Goodfellow) выдвинул идею генеративно-состязательной сети (generative adversarial network), или ГСС (GAN). «Генеративная» — ибо у неё на выходе образы и т. п., а не соображения насчёт того, что введено (например, «Это хот-дог или нет?»); «состязательная» — ибо использует две конкурирующие нейронные сети, которые будто играют в кошки-мышки или в кассира и фальшивомонетчика: одна пытается создать нечто такое, что другая примет за реальный предмет, другая же пытается отличить реальность от подделки.

Первые ГСС-образы люди легко распознавали. Примеры таких образов содержатся в статье Рэдфорда (Alec Radford) и др., опубликованной в 2015 году (см. изображение в начале заметки).

Другое дело — свежие примеры ГСС-образов, опубликованные в октябре 2017 года. Распознать эти образы гораздо труднее.

Каррас (Karras) и др., Progressive Growing of GANs for Improved Quality, Stability, and Variation (Прогресс ГСС для улучшения качества, стабильности и вариативности) (2017 г.). Прогрессирующая ГСС, известная как PGAN или ProGAN.

Ниже приведены некоторые признаки ГСС-образов, по которым их можно распознавать. Мы сосредоточимся на изображениях лиц, потому что именно эти образы — обычный испытательный полигон для разработчика ГСС и многие из машинных артефактов, наиболее заметных на таких образах, проступают и на других видах изображений.

Прямые волосы выглядят, как нарисованные кистью


 

Для длинных волос нормально, если в небольшой области они выглядят удивительно прямыми, но длинная прямая прядь создаёт впечатление, будто кто-то размазал густой акрил мастихином или широкой кистью.

Неразборчивый текст


 

ГСС, обучившаяся генерировать лица, плохо фиксирует редко встречающиеся сложно структурированные предметы заднего плана. Кроме того, поскольку такая сеть использует как исходные, так и зеркальные версии данных, на которых она обучается, возникают проблемы с изображением текста: для букв зеркальную ориентацию обычно не применяют.

Сюрреалистический фон


 

Одна из причин, по которой ГСС-лица выглядят правдоподобными, — системность данных, используемых для обучения. Это означает, что при размещении и визуализации глаз и ушей вариативность моделирования, которое осуществляет ГСС, довольно жёстко ограничена. С другой стороны, содержание фона может быть каким угодно. Для ГСС тщательно моделировать это слишком хлопотно, и взамен она пускает в ход воспроизведение абстрактных фоновых текстур, а не «реального» содержания заднего плана.

Асимметрия


 

Для ГСС управление удалёнными друг от друга связями между элементами изображения может представлять значительную трудность. Представленные в наборах данных парные аксессуары, например серьги, обычно соответствуют друг другу, однако при генерировании образов это, как правило, не учитывается. Или такой пример: глазам свойственно глядеть в одном направлении, и они, как правило, одного цвета, но лица, созданные ГСС, очень часто косоглазят и имеют гетерохромные радужки. Что касается ушей, то и здесь нередко наблюдается явная асимметрия — по высоте размещения или размерам.

Странные зубы


 

ГСС умеет собирать из элементов единый образ, но в настоящее время, имея дело с такими неточно повторяющимися деталями, как зубы, часто попадает впросак. Зубы получаются то смещёнными, то причудливо растянутыми или сжатыми. Эта проблема пришла из других сфер применения машинного обучения — таких, как синтез текстур из элементов-кирпичиков.

Неряшливо выглядящие волосы


 

Это один из самых быстрых способов распознать искусственный образ. Как правило, ГСС собирает волосы в пучки, создаёт случайные пряди вокруг плеч и бросает отдельные толстые волоски на лоб. Причёски весьма разнообразны, но, кроме того, состоят из множества элементов, и это чрезвычайно затрудняет ГСС процесс моделирования. Вдобавок то, что не является волосами, может превратиться в волосообразную текстуру.

Нетипичное гендерное представление


 

Эта ГСС обучалась на подмножестве базы CelebA, содержащем 200 000 фотографий лиц 10 тысяч известных людей. В указанном наборе данных я не видел ни одного человека с волосами на лице, серьгами и макияжем; но ГСС регулярно смешивает атрибуты разных стереотипных гендерных презентаций. В общем, я думаю, это связано с тем, что ГСС не всегда изучает социально закрепляемые пары противоположностей (в данном случае речь идёт о паре мужчина — женщина).

Полурегулярный шум


 

Некоторые немонохромные области могут быть представлены в виде полурегулярного шума с горизонтальными или вертикальными полосками. В приведённых выше примерах нейронная сеть, вероятно, пыталась имитировать текстуру ткани. Раньше ГСС создавала гораздо более заметный шумовой узор, который обычно называют «шахматным».

Иридирующие цветовые пятна


 

Некоторые более светлые области одной краски отливают разными цветами; например, шея, воротник и белки глаз (не показано).

Примеры реальных образов


 

Проверьте, ясен ли фоновый текст, соответствуют ли друг другу серьги, правильного ли размера зубы, детально ли прорисованы причёски. Учтя всё это, сыграйте в эту вот игру — она покажет вам, насколько вы способны отличить реальность от подделки, правильно оценить образы. Имейте в виду: нажав на кнопку «Start», кое-кто столкнулся с проблемами.

Кайл Макдональд (Kyle McDonald) and Александр Горлов :