Компьютеры, ИТ, ИИ

Медицина, физиология, здоровье

Общество

Разное

Связь

За Трампа голосуют расисты, а в глуши выше уровень тревожности — Сет Стивенс-Давидовиц об анализе запросов в Google

24 сентября 2018

+7 926 604 54 63 address

Слева — распределение расистских запросов в <i>Google</i> по штатам. Справа — карта поддержки Трампа во время праймериз. || Фото: слайд из презентации Сета. — Слева — распределение расистских запросов в *Google* по штатам. Справа — карта поддержки Трампа во время праймериз. || Фото: слайд из презентации Сета.

Сет Стивенс-Давидовиц (Seth Stephens-Davidowitz) — специалист по Big Data, автор бестселлера «Все лгут. Поисковики, Big Data и Интернет знают о вас все» (англ. Everybody Lies: Big Data, New Data, and What the Internet Can Tell Us About Who We Really Are), в котором он рассказывает о том, что можно узнать о людях, изучая их поисковые запросы в Google, и почему это надёжнее любого опроса общественного мнения, колумнист The New York Times и, как он сам выражается, «фрилансер, который занимается своим делом». Этим летом он был участником фестиваля Geek Picnic в Москве и Санкт-Петербурге, где рассказывал о своих исследованиях. Нам удалось лично поговорить с Сетом о том, что важнее всего в анализе данных, какие открытия можно сделать, задавая правильные вопросы, и зачем всё-таки нужна кнопка «Мне повезёт!» на поисковой странице Google.

XX2 ВЕК. Расскажите, как вы вообще начали заниматься анализом поисковых запросов в Google?

Сет Стивенс-Давидовиц Я работал над диссертацией по экономике и узнал, что Google запустил сервис Google Trends, который позволяет увидеть, когда и где был сделан тот или иной запрос. Я тут же понял, что это мощная штука, ведь, люди гораздо, гораздо откровеннее «общаются» с Google, чем с другими людьми, или чем отвечают на вопросы в анкетах. Тогда я и начал изучать различные темы: расизм, сексуальность, тревожность, суицидальные наклонности и так далее.

XX2 ВЕК. Что бы назвали самым интересным открытием в целом или, может, для себя, которое вы сделали, работая с Big Data?

С. С.-Д. Неожиданный результат получился, когда я стал изучать повышенную тревожность среди населения США. Я смотрел, откуда исходит больше запросов по этой теме. Обычно все думают, что постоянная тревожность и волнение — это про тех, кто живёт в больших городах, например в Нью-Йорке. Существует такой стереотип и он периодически подкрепляется в культуре, например фильмах Вуди Аллена (Woody Allen) и шоу Ларри Дэвида (Larry David). Там всегда есть какой-нибудь нервный интеллектуал из Нью-Йорка, Бостона или Чикаго. Но если взглянуть на реальные данные, всё наоборот — повышенной тревожностью страдают люди в маленьких городах и сельской местности, там, где ниже уровень образования и жизни. Вот это было для меня очень неожиданным.

XX2 ВЕК. У нас тоже есть подобный стереотип: «Меньше знаешь — крепче спишь».

С. С.-Д. Готов поспорить, что это неправда. Мне кажется всё из-за того, что у людей в бедных районах жизнь объективно сложнее: им приходится о многом беспокоиться, а в городах жизнь попроще. Конечно, всё относительно, но в Нью-Йорке у людей нет таких уж ужасных проблем с финансами и у них всё весьма неплохо со здоровьем. В городах поменьше жизнь объективно тяжелее, ситуация с наркотиками хуже, что весьма важно для США. Это добавляет тревожности к общему уровню у населения.

XX2 ВЕК. То есть сама идея «спокойной жизни в деревне», скорее всего, ложная?

С. С.-Д. По крайней мере, исходя из тех данных, что были у меня.

XX2 ВЕК. Может ли это быть связано не с тем, где ты живёшь, а с тем, сколько у тебя денег?

С. С.-Д. Возможно. Если у тебя много денег, то жить вдали от большого города может быть ещё лучше, чем в нём, но конкретно это я не проверял. Во всей этой ситуации меня удивила общая тенденция. На первом месте по тревожности оказался вообще штат Кентукки — я ожидал совсем иного. Кстати, спокойней всего людям живётся на Гавайях — вот тут уже ничего удивительного.

XX2 ВЕК. Искали ли вы «самых-самых» по другим вопросам?

С. С.-Д. Я составлял разные карты, да: по расизму, тревожности и некоторым другим проблемам. Пока сосредоточился на США потому, что сам оттуда. Немного анализировал и другие страны, всегда проще, когда знаешь страну и понимаешь язык. В принципе, я открыт к предложениям от зарубежных коллег — можно поработать вместе над каким-нибудь исследованием.

Сет рассказывает о корреляции между частотой запросов на TEDx, связанных с суицидом, и реальным количеством самоубийств в городе Уорик.

XX2 ВЕК. Большая часть ваших выводов основана на корреляции популярности различных запросов и чего-то ещё, но корреляция не означает причинно-следственную связь. Значит ли это, что вы можете в чём-то ошибаться?

С. С.-Д. Я заметил, что люди очень любят вспоминать это правило, но только когда не согласны с выводами. Да, корреляция ещё не гарантирует прямую зависимость, но тогда надо найти другое объяснение тому, что мы видим. Из штатов, в которых больше всего поддерживали Трампа на выборах, — больше всего расистских запросов в Google — и никто не смог предложить альтернативного объяснения, кроме того, что Трампа поддерживают расисты. Когда мы пытаемся найти предсказывающий фактор, корреляции вполне хватает — достаточно знать, что факторы связаны, а как именно — не критично. Конечно, надо быть очень аккуратным в том, как интерпретировать результаты, но что касается выводов, которые я представил в книге — альтернативного объяснения ещё никто не предложил.

XX2 ВЕК. Но вы же сами говорили об искажении информации, например, что в Facebook чаще пишут те, у кого всё хорошо.

С. С.-Д. Да, я ещё приводил пример про гостиницы: если кто-то остановился в дорогом отеле, он скорее напишет об этом в социальных сетях, чем тот, кто живёт в дешёвом. Суть не в том, что кто-то намеренно врёт, искажение возникает из-за того, что одна группа просто молчит. Люди реже пишут о том, что у них в жизни всё плохо или какие-то проблемы, и получается, что почти все посты хорошие.

XX2 ВЕК. А в Google идут, когда у людей проблемы. Как получить адекватное представление о том, что происходит в мире?

С. С.-Д. Предположу, что, чем больше данных по вопросу ты собираешь, тем более полная картина у тебя складывается. Работая с подобной информацией, начинаешь понимать, что жизнь — сложная штука. Сегодня всё может быть хорошо, и испортится на следующий день. Вот человек радуется и счастлив, а завтра думает о суициде. Чем больше данных мы получаем, тем больше всплывает подобных трудностей. Поэтому многие классические опросы или анализ только социальных сетей упускают многие такие моменты, получая упрощённый, слишком оптимистичный взгляд на мир. При работе с Big Data вырисовывается более сложная, реалистичная и богатая деталями картина.

Google — цифровая сыворотка правды. Facebook — цифровая сыворотка «похвастаться-перед-друзьями-что-у-меня-всё-хорошо». || Фото: слайд из презентации Сета. — *Google* — цифровая сыворотка правды.
*Facebook* — цифровая сыворотка «похвастаться-перед-друзьями-что-у-меня-всё-хорошо». || Фото: слайд из презентации Сета.

XX2 ВЕК. Знать, что люди ищут — очень полезно для рекламы и маркетинга. Поступают ли какие-то приглашения от компаний? Может, предлагают должность?

С. С.-Д. Часто зовут выступать, читать лекции для сотрудников агентств и вообще тех, кто занимается рекламой. Работу иногда предлагают, но я не хочу — не получится путешествовать с лекциями. А это гораздо веселее.

XX2 ВЕК. А как вы вообще относитесь к использованию ваших или подобных данных в рекламе?

С. С.-Д. Думаю, ничего страшного в этом нет. Реклама — это не безоговорочное зло. Часто она бывает чисто информативного характера. Но, безусловно, есть области, в которых применение Big Data было бы, на мой взгляд, неэтичным.

XX2 ВЕК. Если можно предугадать исход какого-то события по запросам в Google, которые шли до этого, не открывает ли это возможность для манипуляции данными? Например, если за пару недель до выборов, кто-то специально начнёт увеличивать число нужных поисковых запросов с помощью ботов, это исказит всю статистику и данные станут ненадёжными.

С. С.-Д. Проблема не только с выборами — множество компаний пытается манипулировать алгоритмами Google, создают ботов, которые делают определённые запросы и переходят по нужной ссылке, чтобы она появлялась вверху списка. Но Google неплохо научился определять подобные ситуации и не учитывать запросы от ботов в статистике, поэтому в Google Trends они не попадают.

XX2 ВЕК. Будем надеяться. Кстати, вы работали непосредственно в Google, стали бы рекомендовать молодым программистам и аналитикам пытаться туда попасть?

С. С.-Д. Google — замечательная компания. Не знаю, как обстоят дела в Московском офисе, я общался с ребятами из Европы, но это однозначно прекрасное место для работы.

XX2 ВЕК. Что вас больше всего удивило, когда вы стали работать в Google?

С. С.-Д. Насколько там вкусно кормят. Как будто ты в пятизвёздочном ресторане.

XX2 ВЕК. Важный вопрос: зачем нужна кнопка «Мне повезёт!»?

С. С.-Д. (Смеётся) В Google, как и в других компаниях, например, Facebook, регулярно проводят специальные тестирования, когда решают, как будет выглядеть сайт, какие и где кнопки будут. И когда проверяли Google, оказалось, что если убрать «Мне повезёт!» людям было не так приятно пользоваться сервисом или что-то вроде того. Почему — никто так и не понял, но из-за чего-то люди чаще пользовались Google, когда там была эта кнопка, поэтому её решили оставить. Насколько я знаю, она просто открывает первую ссылку, не думаю, что ей кто-то пользуется. Возможно, когда-то в ней и был смысл, если человек не хотел смотреть все варианты, но сегодня зачастую первая ссылка — совсем не то, что вам нужно. Людям просто нравится, что есть две кнопки, возможно, из-за «иллюзии выбора».

Поисковая страница Google. — Поисковая страница *Google*.

XX2 ВЕК. Возвращаясь к теме анализа данных: какие ошибки люди чаще всего при этом допускают?

С. С.-Д. Мне кажется, многие слишком зацикливаются на сборе данных и просто в них тонут. Тратят на это кучу времени, вместо того чтобы нормально продумать вопрос, на которых они хотят получить ответ, а ведь может оказаться, что для него и столько данных не нужно, и всё гораздо проще.

XX2 ВЕК. Кстати, есть ли какая-то граница, после которой данные считаются «большими»? Сколько терабайт или петабайт?

С. С.-Д. Я не акцентирую внимания на терминах. Стоит только назвать что-нибудь «большим», все тут же начинают этим мериться. Мне рассказывали, что на некоторых конференциях участники только и делают, что хвастаются, кто больше данных насобирал: «У нас пять терабайт!», «А у нас шесть!» И так далее. Размеру придают слишком больше значение. Большую роль играет то, что это за данные и насколько они надёжные. Задать правильный вопрос гораздо важнее, чем собрать больше всех данных.

XX2 ВЕК. Думаю, вы слышали про Рэя Курцвейла (Raymond Kurzweil) и его единомышленников, которые, в том числе, пытаются собрать как можно больше информации о себе, некоторые постоянно ходят с камерами, снимая каждый момент своей жизни. В документальном фильме «Лимб» (англ. In Limbo) звучит фраза, вроде «Не важно, что мы пока не знаем, что с этим делать, надо продолжать копить информацию, потому, что потом, у нас просто не будет времени на то, чтобы собрать 20 лет данных». У вас есть какое-то мнение по этому поводу?

С. С.-Д. Точно не знаю. В целом, может, и есть смысл просто накапливать данные, а уже потом решать, что с этим делать, но рано или поздно вам придётся придумать, какой именно вопрос вы хотите задать, вам придётся это всё анализировать. Надеяться, что просто собрав кучу данных, вы сможете узнать что-то интересное — не стоит, это так не работает.

XX2 ВЕК. Насколько мне известно, там есть ещё и задумка воссоздать личность на основе этих данных, так сказать, «загрузить мозг» в компьютер.

С. С.-Д. Если честно, в этом я плохо разбираюсь. Настроен, скорее, скептически, но я не специалист. Мне кажется, у всех этих ребят одна цель — жить вечно, а я скорее на стороне тех трёх с половиной миллионов людей, которые делают запросы о суициде. Я не уверен, что хочу жить вечно, так что вряд ли я разделяю мотивацию подобных проектов, вроде загрузки в «облако» и так далее. И проблемы там, скорее, инженерные, а не из статистического анализа и Big Data.

Некоторые исследователи считают, что собрав достаточно данных о человеке, будет возможно воссоздать его личность в цифровом виде. || Фото: кадр из фильма «Лимб», реж. Антуан Вивиани, 2015 год.

XX2 ВЕК. Доступ к Google Trends открыт, есть ли какая-то причина, почему этим начали заниматься именно вы, а не кто-то другой? Неужели это так сложно и требуются уникальные навыки?

С. С.-Д. Нет, не особо. Я не единственный, просто был одним из первых, но сейчас всё больше людей начинают анализировать данные по запросам в Google. Часто самое главное, что надо уметь — это задать правильный вопрос. Технические навыки, на мой взгляд, переоценены. Многих волнует, какое у вас образование, знаете ли вы какие-то определённые статистические приёмы, а я регулярно вижу, что это не так важно. При анализе данных, гораздо большее значение играет креативность и умение задать правильный вопрос. И это более редкий и ценный навык. Большинство из тех, кого я знаю, работают с данными не самым правильным образом. Часто тебе кажется, что вопрос очевиден, после того, как ты его уже задал, но вот прийти к нему бывает очень трудно.

XX2 ВЕК. Можете дать какой-нибудь совет «обычным людям», которые не особо разбираются в Big Data, как они могут воспользоваться Google Trends?

С. С.-Д. Это как раз тема моей новой книги, я всё ещё на стадии исследований, и не хотелось бы озвучивать какие-то выводы раньше времени. Придётся дождаться выхода.

XX2 ВЕК. Будем ждать с нетерпением, спасибо.

С. С.-Д. Вам спасибо.

Беседовал

Алексей Малов

Компьютеры, ИТ, ИИ

Медицина, физиология, здоровье

Общество

Разное

Связь

За Трампа голосуют расисты, а в глуши выше уровень тревожности — Сет Стивенс-Давидовиц об анализе запросов в Google

Процессор Intel с эксафлопсным потоком данных отходит от архитектур фон Неймана и х86

Почему не стоит особенно доверять отрицательным отзывам в интернете