Новый алгоритм распознаёт твиты, написанные под влиянием алкоголя

С помощью нового алгоритма учёные надеются изучить потребление алкоголя и связанные с ним проблемы.

Учёные из Рочестерского университета (University of Rochester) создали компьютерный алгоритм, способный опознавать твиты, связанные с потреблением спиртного. Исследователи утверждают, что этот метод может оказать существенное влияние на то, как общество реагирует на проблемы здравоохранения, вызванные употреблением алкоголя.

Научная группа во главе с Набилем Хоссейном (Nabil Hossain) натренировала алгоритм машинного обучения опознавать твиты об алкоголе и сообщения, отправленные людьми, распивающими спиртное. Кроме того, программа может определить местоположение дома пользователя и понять, пьёт ли он в собственном жилище или где-либо ещё.

Учёные собрали помеченные геотегами твиты, отправленные с июля 2013 по июль 2014 из Нью-Йорка и округа Монро. Из этого набора данных они отфильтровали все твиты, которые упоминают алкоголь или связанные с ним слова, такие как «пьян», «пиво», «вечеринка» и так далее.

Затем они наняли добровольцев через интернет-рынок краудсорсерского труда Amazon Mechanical Turk, чтобы те проанализировали твиты более детально. Учёные попросили трёх человек определить, связан ли каждый твит с алкоголем, написан ли он человеком, употребляющим спиртное, и отправлен ли он в тот момент, когда пользователь пил горячительные напитки.

В результате учёные отобрали 11 000 твитов, так или иначе связанных с алкоголем. Этот массив данных оказался достаточно велик для того, чтобы алгоритм мог обучиться отличать такие сообщения. Затем исследователи задались вопросом — где находятся люди, когда пишут в Твиттер о спиртном? Дома или где-то ещё?

Чтобы определить местоположение домов пользователей, используя только твиты с геометками, учёные разработали несколько методов. Сначала они определяли место, откуда пользователь посылал твиты чаще всего, место, откуда уходил последний за день твит, или локацию, откуда твиты отправлялись с часа до шести часов утра. Однако все эти методы имели свои слабые места, и на них нельзя было положиться.

Тогда исследователи применили другой подход. Они составили список слов и словосочетаний, которые пользователи используют, когда пишут твиты из дома, например «Наконец-то дома!», «диван», «ванная», «телевизор» и так далее. Они отфильтровали сообщения с этими словами, опросили трёх добровольцев и отобрали только те твиты, которые все трое признали отправленными из дома.

С помощью этих данных учёные научили алгоритм опознавать твиты, отправленные пользователями из собственного жилища. Программа определяла, как местоположение дома коррелирует с другими показателями, такими, как место, откуда был отправлен последний за день твит, процент твитов, отправленных из определённой локации и т. д. Этот метод оказался гораздо эффективнее. Учёные утверждают, что теперь могут определить местоположение дома пользователя с точностью до ста метров в 80% случаев.

Новый алгоритм позволил научной группе определить, когда и где люди пьют спиртное, а также изучить употребление алкоголя в Нью-Йорке и округе Монро. Исследователи разделили местность на участки 100 на 100 метров и пометили те области, откуда поступают связанные с алкоголем твиты. Это позволило им создать «тепловую карту» употребления спиртного.

«Тепловая карта» употребления спиртного в Нью-Йорке.

Оказалось, что в Нью-Йорке появляется больше «алкогольных» твитов, чем в Монро. Кроме того, ньюйоркцы чаще пьют спиртное дома, а в округе большинство людей употребляют крепкие напитки более чем в километре от своего жилья.

Основное преимущество нового метода — его дешевизна. Чтобы изучить алкогольные привычки населения традиционными способами, нужно составить анкеты, найти добровольцев, готовых их заполнить, а затем проанализировать результаты. Это дорого и отнимает много времени. В то время как алгоритм позволяет проводить наблюдения в реальном времени.

Конечно, метод не совершенен: он не учитывает активности людей, у которых просто нет аккаунта в Твиттер. Но и другие подходы имеют свои недостатки, например, представители некоторых категорий населения, в том числе, иммигранты, не соглашаются заполнять опросники. В будущем Хоссейн и его научная группа хотят изучить, как потребление алкоголя изменяется в зависимости от возраста, пола, этнической принадлежности, и других демографических характеристик.

Юлия Коровски :