Радикальный потенциал больших данных
Накопленные уже сегодня массивы данных столь огромны, что, анализируя их, можно на, практически, любой вопрос получить статистически значимый ответ.

Софтверный гигант Oracle делает большие заявления по поводу больших данных. Они называют их «электричество двадцать первого века — новый вид энергии, которая трансформирует всё, к чему прикасается, в бизнесе, правительстве и в личной жизни». Нет единого мнения о том, что такое «большие данные» в точности, но и фанаты, и критики соглашаются, что они перестроят наш образ жизни.

Сторонники уверенно предсказывают, что постоянно растущие объёмы сложных данных — в сочетании с новыми технологиями для хранения, доступа и анализа — революционизируют всё, что мы делаем, от фундаментальных научных исследований до того как организованы социальные взаимодействия. Выдающиеся специалисты в области передачи данных, такие как Алекс Пентленд, говорят, что мы являемся свидетелями фундаментального социального перехода к новому, «управляемому данными» обществу, которое потенциально может быть «более справедливым, стабильным и эффективным».

Скептики в равной степени решительны. Антиконсюмеристский журнал Adbusters недавно объявил о смерти национальных государств, «разбитых глобальной машиной финансов, вычислениями и всепроникающими алгоритмами больших данных». Пэм Диксон, исполнительный директор World Privacy Forum и соавтор нового пугающего доклада о секретных профилях потребителей, утверждает, что мы возможно стоим на пороге мрачного будущего, описанного в таких рассказах Филипа К. Дика как «Особое мнение», где предсказание на основе алгоритмов больших данных может «стать чей-то судьбой».

Так что это такое — большие данные — и кому мы должны верить?

Нет какой-то одной вещи, которая отличала бы большие данные от старомодных «малых» данных. Массовые данные не новы — ещё в 1924 году у Евгенического учётного бюро в Колд-Спринг-Харбор было более 750 000 записей прослеживающих «врождённые физические, умственные и темпераментные свойства» американских семей. Управление социального обеспечения уже отслеживало 26 миллионов человек, используя более 500 000 перфокарт в день в 1930 году.

Большие данные от этих проектов отличает масштаб и порядок того, что собирается и анализируется, часто обобщаемые в «3 V»: объём, разнообразие и скорость. Объём генерируемых сегодня данных поражает. Во всём мире существует более 3 миллионов центров обработки данных, в США центры обработки данных потребляют 2 процента всей энергии в стране. Американцы загружают более двухсот часов видео каждую минуту и более 500 миллионов фотографий каждый день, и цифровая информация из электронных писем, банковских операций, всемирной сети, медицинских записей, смартфонов и приложений растёт с каждым днём.

Количество сочетается с более быстрой и эффективной обработкой. В 2012 году Facebook обрабатывал более 500 терабайт данных в день — в пятьдесят раз больше всей печатной коллекции Библиотеки Конгресса США. Эти тенденции, как ожидается, продолжатся и в будущем. Поскольку всё больше устройств оснащены проводными и беспроводными датчиками и могут самостоятельно общаться друг с другом и централизованными хранилищами данных без участия человека в так называемом «Интернете вещей», объём и разнообразие источников данных будет значительно увеличиваться.

Привлекательность больших данных очень проста. Для правительств заманчив потенциал рационализации политики и конкретных действий, будь то определение возможных политических угроз или изменение образовательных результатов в классах. Для корпораций статистические зависимости, раскрытые благодаря большим данным, открывают новые возможности получения прибыли. Основанные на анализе больших данных методы, по словам их корпоративных сторонников, могут увеличить производительность, сократить расходы, точно определить потенциальных клиентов и даже открыть новые рынки.

Но в этой шумихе по поводу больших данных упускается то, что сбор большого количества исходных данных сам по себе не является полезным или выгодным. Перспектива того, как вы можете использовать данные — и статистические зависимости, которые можно почерпнуть из их анализа, — вот что действительно имеет значение.

Эти зависимости могут быть научными (оптимальная доза препарата-антикоагулянта Warfarin коррелирует с конкретными генетическими вариантами фермента, который перерабатывает витамин К) или политическими (люди, которые являются членами евангелической церкви, с большей вероятностью будут голосовать за республиканцев), или коммерческими (покупательницы, которые покупают в больших количествах определённые продукты, вероятно, будут беременны).

Действительно недавно New York Times объяснила, как Target использует такого рода статистические зависимости для создания досье беременности, которое предсказывает вероятность того, что покупательница беременна. Модели могут быть шокирующе точными:

Возьмём, к примеру, вымышленную покупательницу Target по имени Дженни Уорд, которой 23 года, живёт в Атланте, в марте купила лосьон на основе какао-масла, сумку, достаточно большую, чтобы в неё поместился запас подгузников, добавки с цинком и магнием и ярко-синий коврик. Существует, скажем, 87-процентный шанс, что она беременна, и что её срок — где-то в конце августа.

Но извлечение таких значимых статистических связей из больших неструктурированных массивов данных — непростая задача.

Возникают многочисленные острые проблемы: как идентифицировать важные особенности, которые определяют некоторый набор данных, если мы даже не знаем эти функции заранее (обучение без учителя)? Как организовать и визуализировать информацию, содержащуюся в (визуализация данных) больших объёмах данных? Как изучить статистические связи между различными функциями в данных (обучение с учителем)? Как разработать статистические методы по распознаванию заранее определённых закономерностей в данных (распознавание образов)? Это основные проблемы формирующихся дисциплин машинного обучения и обработки и анализа данных, а также современной статистики.

Одним из главных уроков, полученных из недавних исследований в области статистики и машинного обучения, является то, что не существует такой вещи, как идеальный алгоритм больших данных — каждой статистической процедуре сопутствуют ошибки. Ошибка неизбежна, потому что в любой статистической процедуре существует фундаментальная обратная зависимость (компромисс) между генерализуемостью — способностью делать точные прогнозы — и возможностью оптимально объяснять существующие наборы данных. Чем больше и сложнее данные, которые анализируются, тем труднее ориентироваться в этих обратных зависимостях.

Чтобы проиллюстрировать этот момент, рассмотрим гипотетическую статистическую процедуру, цель которой — определить содержит ли видео на YouTube изображение кошки. Входными данными процедуры является видеоклип, а выходными данными бинарное предсказание: «да», если процедура предсказывает, что видео содержит изображение кошки и «нет», если она предсказывает, что нет.

Процедура действует, «обучая» статистическую модель, которая может различать видео, содержащие и не содержащие изображения кошек. Чтобы обучить модель, процедура тренируется на данных режима обучения (например, большой коллекции маркированных видео на YouTube с кошками и без кошек). Цель состоит в том, чтобы создать модель, способную делать прогнозы о новых видео, которых не было в обучающих данных.

Во время процесса обучения, параметры статистической процедуры оптимизированы, чтобы максимизировать прогностическую производительность процедуры. Поскольку устранение ошибок невозможно (из-за присущих обратных зависимостей — компромиссов, вносимых в анализируемые большие данные), человек, обучающий статистическую процедуру должен выбрать допустимый тип ошибок.

Можно минимизировать количество ложных срабатываний (видео без кошек неправильно классифицированы как видео с кошками) или количество ложных негативов (видео с кошками неправильно классифицированы как не содержащие кошек), или общее количество неверно классифицированных видео (видео без кошек неверно классифицированы как содержащие кошек, а также видео с кошками, классифицированы как не содержащие кошек).

Детали того, как кто-то обучает статистическую процедуру находить кошек, кажутся довольно абстрактными и рутинными. Тем не менее, когда правительства и корпорации используют большие данные, чтобы включить социальные отношения в математические уравнения, эти рутинные статистические детали могут иметь ужасные последствия.

Если вместо подготовки статистических процедур по обнаружению кошек на YouTube целью является обучить алгоритм находить «боевиков» на записях системы видеонаблюдения для точечных убийств (то есть ударов по предполагаемым террористам), более высокий процент ложных обнаружений означает убийство невинных людей, а не то, что система не заметит кошек.

Эти неизбежные статистические компромиссы гарантируют, что в любом статистическом алгоритме минимизация количества ложноотрицательных результатов (неправильной оценки «террористов» в качестве гражданских лиц) увеличит количество ложных срабатываний (гражданских лиц, убитых по ошибке).

Поэтому, когда правительство недавно ослабило свою официальную политику, перейдя от требования, чтобы военные «гарантировали», что гражданские лица не будут мишенями к требованию «избегать потерь» среди гражданских лиц, результат оказался неизбежен: больше ложных срабатываний и больше погибших невинных людей.

Таким образом, несмотря на неоднократные заверения военных в обратном, не удивительно, что беспилотники ошибочно принимают свадебные процессии за колонны боевиков и превращают свадьбы в похороны. Это неизбежный сопутствующий ущерб подхода к общественным отношениям как абстрактным статистическим объектам.

Антиобщественные последствия фетишизации больших данных не ограничиваются военными действиями. Большие данные теперь — это ценный товар, используемый корпорациями для прогнозирования финансового поведения людей, состояния здоровья, рентабельности и многого другого.

Эти статистические алгоритмы вызвали появление множества секретных потребительских досье: «досье прибыльности потребителя», «индивидуальный показатель риска для здоровья», «обобщённая кредитная статистика», которые оценивают людей, основываясь на их почтовом индексе, на предмет финансового риска, «статистики случаев мошенничества», и многого другого.

Эти статистические показатели часто скрывают сложные социальные отношения. Как резюмируется в докладе World Privacy Forum: «Секретные досье могут скрывать дискриминацию, несправедливость и предвзятость». Что ещё более важно, статистические досье превращают данные о нашей личной жизни в товар, конечной целью чего является корпоративная прибыль.

Ярким примером использования больших данных в погоне за корпоративными прибылями является использование алгоритмов больших данных при составлении расписания работников. Программное обеспечение, основанное на сложных статистических моделях, которые включают множество факторов, таких как исторические тенденции продаж, предпочтения клиентов, и прогнозы погоды в режиме реального времени, позволяет компаниям распланировать деятельность работников до минуты. Рабочие смены разбиты на пятнадцатиминутные блоки и меняются ежедневно, обеспечивая достаточное количество работников, чтобы удовлетворить ожидаемый спрос. Корпорации сокращают часы, одновременно увеличивая интенсивность работы, выполняемой их сотрудниками.

Неизбежным следствием является то, что жизни трудящихся оказываются подчинены статистической логике максимизации прибыли. У работников нет фиксированных графиков и гарантированных часов. Как объяснила недавно профильная работница «Старбакса», статистические алгоритмы диктуют всё в её жизни, от того, как много спит её сын до того какие продукты она покупает в данном месяце.

Тем не менее, те же самые данные и алгоритмы, которые разрушают жизни работников, могут так же легко многократно улучшить их. Рабочие кооперативы или сильные радикальные профсоюзы могли бы использовать те же алгоритмы, чтобы максимизировать благосостояние работников.

Они могли бы использовать данные о тенденциях продаж, предпочтениях и погоде, чтобы щедро укомплектовывать персонал в часы пик, так чтобы работники получали адекватные перерывы и работали в более разумном темпе. Это просто вопрос изменения приоритетов — что оптимизируется посредством статистической процедуры: вместо оптимизации математической функции, которая измеряет корпоративную рентабельность, функция может быть изменена так, чтобы отражать благополучие трудящихся.

Освободительный потенциал больших данных проще всего увидеть в контексте фундаментальных биологических исследований. За последние пятнадцать лет, методики больших данных на основе высокопроизводительного секвенирования ДНК трансформировали биологические исследования, позволив учёным добиться прогресса в решении многочисленных фундаментальных проблем, начиная от расположения хромосом внутри клеток, молекулярной сигнатуры рака, до идентификации и определения количества миллиардов бактерий, которые живут на поверхности и внутри нашего тела.

Как показывают эти примеры, когда мотив прибыли устранён, большие данные могут быть легко задействованы на благо общества в целом. При этом стоит отметить, что крупные фармацевтические компании и другие корпоративные группы интересов методично пытаются приватизировать любые потенциальные выгоды биоинформационной революции. Хилари Роуз и Стивен Роуз подробно рассматривают этот вопрос в своей новой книге Genes, Cells, and Brains.

Большие данные, как и все технологии, встроены в рамки социальных отношений. Несмотря на риторику их сторонников и противников, в больших данных нет ничего изначально прогрессивного или деспотического. Как и в случае любой технологии, их применение отражает ценности общества, в котором мы живём.

При нашей нынешней системе, военные и правительство используют большие данные для подавления населения и шпионажа за гражданами. Корпорации используют их для увеличения прибыли, повышения производительности, и дальнейшего проникновения коммодификации в нашу жизнь. Но не данные и статистические алгоритмы ведут к таким результатам — это делает капитализм. Для реализации потенциально удивительных преимуществ больших данных, мы должны бороться против антидемократических сил, которые стремятся превратить их в инструмент коммодификации и угнетения.

Большие данные входят в повсеместное использование. Вопрос, как всегда при капитализме, в том, кто будет их контролировать, и кто будет получать выгоду.

.
Комментарии