Эмодзи предназначены для выражения эмоций. Вроде бы это очевидно. При личном общении люди слышат интонации, видят мимику и пантомимику собеседника, это помогает понимать эмоциональное содержание речевого акта. В редких длинных письмах эмоции можно постараться передать при помощи слов и предложений. Даже если вы не особо сильный стилист — вы можете потратить на выражение эмоции целые абзацы и даже страницы. Однако при написании твитов, ограниченных 280 символами, или при общении в реальном времени короткими сообщениями, набираемыми большим пальцем на смартфоне, вы едва ли можете позволить себе подобную роскошь. Как же быть?
На выручку сначала пришли псевдографические эмотиконы (смайлики) из точек и скобочек, а за ними и графические эмодзи. С их помощью эмоциональные состояния можно выразить (или попытаться выразить) даже совсем без слов. Проблема однако в том, что у эмодзи нет конвенциональных, записанных в академических словарях и принятых большинством участников коммуникативного процесса значений. Интуитивно эти значения более или менее понятны, иначе эмодзи не использовались бы, но какой именно эмоциональной семантикой большинство пользователей наделяют те или иные эмодзи? Тут есть простор для исследований.
Докторантка Ребекка Годард (Rebecca Godard) и доктор Сьюзан Хольцман (Susan Holtzman) из Университета Британской Колумбии, кампус Оканаган (UBC Okanagan), как раз и занялись таким исследованием — попытались оценить эмоциональное содержание множества эмодзи. Результаты они опубликовали в статье «Мультиаспектный лексикон эмодзи: новый инструмент для оценки эмоционального содержания эмодзи» в журнале Frontiers in Psychology. Эмодзи существуют давно, и, разумеется, это далеко не первая работа по верификации их конвенциональных значений (более ранние работы добросовестно перечислены во вводной главе этой), однако данная работа интересна масштабностью и методологией.
Исследовательницы взяли в «Твиттере» более трёх миллионов англоязычных твитов (среди которых не было ретвитов) за три временных промежутка (ноябрь 2019, сентябрь-ноябрь 2020 и февраль-март 2021) без географической привязки и сначала выбрали все посты с эмодзи из первого временного промежутка. Потом из оставшихся временных промежутков выбрали все посты, в которых встречался бы хоть один смайлик из использовавшихся в первом временном промежутке. Всего таких постов получилось 678 879. Из них исключили твиты, содержавшие эмодзи в виде государственных, национальных и региональных флагов, т.к. эмоциональная составляющая последних слишком сильно зависит от текущей на момент написания твита политической ситуации, а также от географической привязки. Постов с флагами оказалось 261. В итоге для составления мультиаспектного лексикона эмодзи выбрали только смайлики, которые встречались не менее чем в пятидесяти твитах из финальной выборки. Получилось 359 смайликов.
И вот «среднее по больнице» эмоциональное значение каждого из этих 359 эмодзи и надо было определить. Как это сделать? Исследовательницы использовали для этого NRC emotion lexicon — подготовленный в 2013 году с помощью Mechanical Turk от Amazon под эгидой Национального исследовательского совета Канады (NRC) массив данных, представляющий собою список английских слов, каждое из которых двоичным образом (0 — нет, 1 — да) определено как относящееся или нет к каждой из восьми избранных эмоций (гнев, предвкушение, отвращение, страх, радость, печаль, удивление/неожиданность {surprise}, доверие) и двум более общим ощущениям настроения (позитивное и негативное). Слова составители брали из Тезауруса Роже, причём только те из них, которые встречались в корпусе Google Ngram более 120 тыс. раз.
Итак, эмоциональное содержание твитов, содержащих хотя бы один из оцениваемых эмодзи, определялось по содержанию в них слов, отмеченных как относящиеся к той или иной эмоции в NRC emotion lexicon. Если, скажем, в твите было четыре слова, связанных с гневом, и пять слов, связанных с грустью, он получал оценку 4 за гнев и 5 за грусть. На следующем этапе каждому эмодзи присвоили баллы по каждой рассматриваемой эмоции — путём усреднения оценок, выставленных на основе NRC emotion lexicon по всем твитам, содержащим эмодзи. Чтобы проверить надёжность, стабильность оценки, средний балл сначала считали отдельно по каждому временному промежутку, в которые отбирались твиты, и потом делали поправку на коэффициент стабильности.
Собственно, на основании вышеописанного и был составлен «Мультиаспектный лексикон эмодзи», доступный теперь онлайн в виде двух эксель-файлов (в одном оценки, в другом погрешности).
Но исследование на этом не окончилось. Далее исследовательницы провели онлайн-опрос 2230 добровольцев (75% женщин, 24% мужчин, 1% небинарных или других; средний возраст — 20,3 года; 87% владеют смартфонами Apple, 12% — Android, <1% — другими). Добровольцев исследовательницы набирали среди студентов университетов Западной Канады по принципу: не моложе 18 лет, свободно говорит по-английски, использует эмодзи в цифровом общении не реже раза в неделю. Добровольцев попросили оценить смайлики на предмет степени передачи каждой из включённых в лексикон эмоций. Причём для оценки им предоставили не все исследуемые эмодзи — исключили пиктограммы, изображающие животных и растения, еду, напитки, виды деятельности и некоторые другие, рассудив, что вне контекста приписать им какое-то эмоциональное значение довольно трудно.
Для оценки были выданы в основном эмодзи с различными выражениями лица, разные сердечки и, как сказано в исследовании, «другие символы, связанные с эмоциями (например, звёзды и бомбы)». Тут, конечно, возникает вопрос: почему бомбы вне контекста с эмоциями связаны, а, например, еда или котики вне контекста — нет? Как бы там ни было, усреднённые оценки выданных для этой части исследования эмотиконов сравнили с оценками на основе NRC emotion lexicon и посчитали, как оценки, полученные по каждой эмоции в двух частях исследования, коррелируют друг с другом. Коэффициенты корреляции получились такие: негативность — 0,83, отвращение — 0,83, печаль — 0,75, гнев — 0,73, страх — 0,73, радость — 0,71, позитивность — 0,61, доверие — 0,51, удивление — 0,28 и предвкушение — 0,20. Таким образом, по мнению исследовательниц, представленные в «Мультиаспектном лексиконе» эмоциональные оценки по большинству эмоций можно считать хорошими, надёжными, кроме оценок по удивлению/неожиданности («surprise») и предвкушению.
Рассуждения вроде бы выглядят в целом убедительно. Если не цепляться к мелочам, например, к тому, что для первой части исследования выбирали твиты без географической привязки, а для онлайн-опроса — добровольцев только из Западной Канады, что могло внести ошибку верификации глобальной конвенции приверженцами конвенции локальной.
Но вот если взглянуть непосредственно на результаты, кое что вызывает удивление. То есть в том, что по позитивности, предвкушению, радости и той неожиданности, которая в то же время сюрприз, максимальные оценки взял именинный торт со свечками, ничего странного нет, но почему по негативности, гневу, страху и печали на первом месте — весы в состоянии равновесия? Этим эмотиконом часто сопровождают сообщения о необходимости сделать тот или иной выбор. И наверняка у многих эта необходимость вызывает и гнев, и страх, и печаль, и в целом негативное настроение. Но не настолько же, чтобы весы оказались самым негативным эмодзи из трёхсот пятидесяти девяти. На четвёртом месте по позитивности в «Лексиконе» оказался… прямой католический крест. Сразу после тортика со свечами, воздушного шарика и перевязанной лентой коробки с подарком. Нет, латинский крест, конечно, вполне может вызывать у кого-то позитивные эмоции, но не у такого же количества людей и так часто и сильно, чтобы оказаться по этому показателю на четвёртом месте из трёх с половиной сотен. Сразу после подарка. При этом, что любопытно, самый обычный классический круглый смайлик по оценке позитивности оказывается аж на 236-м месте.
Видимо, какие-то ошибки и/или ограничения, кроются непосредственно в дизайне исследования. Одну из таких возможных важных ошибок исследовательницы отмечают сами: они исходили из предположения, что эмоциональное значение эмодзи явным прямым образом связано с эмоциональной окраской содержащихся в одном с ним твите слов. А это может быть не просто не так, но и прямо противоположным образом, т.к. многие эмодзи используются для обозначения иронии, сарказма и указания, что имеется в виду совсем не то, что написано, часто противоположное.
Другое ограничение исследования, отмеченное самими авторами, состоит в том, для анализа использовались посты только из «Твиттера». Очевидно, что на других платформах те же эмодзи могут выглядеть, а следовательно и восприниматься — иначе, а у пользователей других платформ могут быть иные привычки и конвенции использования пиктограмм.
Добавим, что не всегда в исследовании эмодзи можно пренебрегать географическим и календарным контекстом. Вот пример: сherry blossom emoji (🌸) в апреле в Японии может символизировать весну и праздник цветения сакуры, а в то же самое время в Армении — использоваться в качестве «армянской незабудки» и напоминать о геноциде армян 1915 года.
Также, наверное, стоит отметить, что список эмоций, по которым оценивались эмотиконы, едва ли можно назвать достаточным: нет стыда, нет сарказма, смущения. Понятно, что исследовательницы были привязаны к набору эмоций, использованному в NRC emotion lexicon. Возможно, другого размеченного нужным образом набора данных в их распоряжении не оказалось.
Как бы там ни было, работа интересная. Отталкиваясь как от её положительных сторон, так и от ошибок, можно двигаться дальше. В том числе — к верификации семантических конвенций в области эмодзи в других языковых и географических сообществах. Наверняка, например, среди русскоязычных пользователей того же «Твиттера» оценки будут иными. Сами исследовательницы предполагают, что в будущем исследования в этой области могут быть сосредоточены на значениях комбинаций разных смайлов в одном твите или на многократно повторяющихся одинаковых эмодзи.
Что касается практического применения, то инструменты, построенные на корректно верифицированной семантике эмодзи, могут использоваться в различных автоматизированных системах анализа и мониторинга.
Вам может быть интересно:
Сбер разработал ИИ-модель, способную создавать эмодзи по описанию.