История Big Data восходит к практикам общественного порядка XIX века

Сегодня происходит не первая революция «больших данных». Первой был взрыв в сборе данных в начале XIX века. | Иллюстрация — линнеева классификация растений.

В XIX веке, изменениям в знаниях способствовали не только приток большого количества новой информации со всего мира, но и сдвиги в производстве, обработке и анализе этой информации. Хамиш Робертсон (Hamish Robertson) и Джоанн Травалья (Joanne Travaglia) прослеживают связь между революцией данных в XIX веке и сегодняшней революцией, излагая её последствия, которые могут отразиться на политике больших данных в современном обществе. Прошло два столетия после первой революции больших данных, но многие из проблем и пути их решения сохраняются вплоть до сегодняшнего дня.

Это не первая эра «больших данных», но вторая. Первой был взрыв в сборе данных, который произошёл в начале XIX века — «лавина чисел», по определению Хакинга, точно приходящаяся на период между 1820 и 1840. Это была аналоговая эра больших данных, отличающаяся от нашей современной цифровой эры, но характеризующаяся некоторыми очень похожими проблемами и тревогами. К современным проблемам анализа данных и управления ими относятся различные общеизвестные факторы, которые делают их «большими». Обычно к ним относят вопросы размера, сложности и технологии. Мы также полагаем, что оцифровка является центральным процессом в этой второй эре больших данных, что кажется очевидным, но которая также, похоже, достигла нового порога. Десять лет назад или около того «большие данные» выглядели просто как цифровая версия обычных аналоговых записей и систем. Данные, управление которыми стандартизировалось на основе статистического и математического анализа. Однако теперь мы видим уровень беспокойства и тревоги, подобный той озабоченности, которая была в первую эру больших данных.

В этой ситуации заложен интересующий нас социально-политический аспект, в котором глубоко замешано наше понимание людей и наших действий по отношению к индивидам, группам и популяциям. У сбора социальных данных имелась цель — понимание и контроль населения в период значительных социальных перемен. Для достижения этой цели необходимы новые виды информации и новые методы генерации знаний. Многие идеи, понятия и категории, разработанные в ходе этой первой революции данных, остаются неизменными сегодня, некоторые некритично приняты в большей степени сейчас, чем когда они были впервые разработаны. В этой статье мы описываем некоторые связи между этими двумя «революциями» данных и последствия для политики информации в современном обществе. Очевидно, что многие из проблем этой первой эпохи больших данных и, конкретнее, их решения сохраняются вплоть до нынешней эпохи больших данных.

Гравюра Гюстава Доре, изображающая лондонские трущобы XIX века.

Несмотря на некоторые дискуссии о датах, существует общее понимание, что начало XIX века было временем, когда сбор, анализ и производство различных форм информации росли со скоростью, ранее не виданной в истории человечества. В частности, Ричардс (Thomas Richards) назвал его первым информационным веком. Ботанический таксономический подход Линнея оказался настолько мощным эвристическим и практичным средством, что был вскоре применён к человеческим социальным явлениям, включая производство расовых таксономий. Науки, такими, какими мы их знаем, обрели свою современную форму (Уильям Уэвелл (William Whewell) ввёл термин «учёный» в 1840 году). Общественные науки возникли из того, что было известно как «политическая арифметика», «социальная физика» и в последнее время «моральные науки», в то время как наука стала делом отличным от натурфилософии.

Технологии знаний

XIX век был доцифровой эрой, в которой «компьютер» скорее был человеком за столом, делающим подсчёты и расчёты вручную, а не электромеханическим или электронным устройством, но даже эта ранняя инфраструктура подготовила почву для нашей современной ситуации. В XVIII веке уже произошло быстрое развитие словарей различных видов, в том числе Encyclopédie Дидро 1751 года (на основе Циклопедии Чемберса) и Словаря английского языка Джонсона 1755 года (не первый в своём роде), иллюстрирующих растущую потребность не только собирать, но классифицировать, категоризировать и упорядочивать информацию, чтобы сделать её значимой и полезной. В следующем веке появилось понятие о врождённых правилах и закономерностях в широком спектре явлений, и тогда же начался их поиск — вместе с поисками законов природы.

Эти информационные устройства поддерживались растущим числом и разнообразием формализованных процессов производства и продуктов знания — библиотека, музей, бюро переписей, типографы и издатели с их книгами, газетами, периодическими изданиями, журналами, бюллетенями, бланками и конвертами. Системы каталогизации существовали в течение многих столетий, но в тот период произошло их становление в качестве формализованных систем, начиная от классификации «Руководства книготорговца и любителя книг» Жака Шарля Брюне (1810) до Десятичной классификации Мелвила Дьюи (1876 г.). Хранение и извлечение также стало проблемой, что приводит к развитию библиотечной науки, архивных стратегий управления и механических систем обработки.

В контексте колониальной администрации и научного поиска сбор данных стал центральным понятием, которое продолжает оставаться релевантным по отношению к производству современных знаний в нескольких дисциплинах и областях практики (например, ботанике, геологии, антропологии). Развитие обществ и ассоциаций в качестве форумов для выявления, изучения и формализации новых и расширения областей знаний также набирает обороты. Конвергенция этой совокупности фукольдианских концептов, категорий и практик ускорила производство данных в викторианский период.

В Соединённом Королевстве парламентские синие книги производились в беспрецедентных масштабах, поскольку правительства все больше озаботились сбором и анализом данных об этой растущей информационной среде. Они стали настолько масштабным явлением, что многие боялись, что они создадут слишком большую нагрузку на бюрократические системы знания, неспособные проанализировать производимые объёмы информации. В ответ на эту ситуацию быстро развивались визуализация данных и социальное картирование, в том числе нововведения Уильяма Плейфера (линейный график, столбчатые и круговые диаграммы) и Флоренс Найтингейл (полярные или областные диаграммы), которые представили новые методы визуализации этих больших и сложных объёмов данных.

«Диаграмма причин смертности в армии на Востоке» работы Флоренс Найтингейл.

Этим изменениям в знаниях способствовало не только большое количество льющейся со всего мира новой информации, но сдвиги в производстве, обработке и анализе этой информации. Многие из этих методов все ещё с нами, в том числе информационные таксономии и деревья знаний, если назвать только два. Хакинг отметил, что в то время как социальные категории — это эпистемные продукты, их применение может оказывать заметные онтологические эффекты. Знание мира природы вскоре было применено к социальному миру, и началась масштабная политизация социальных идентичностей, поднятая растущей волной данных и аналитических методов. И консерваторы, и социальные критики в равной мере полагались на производство и распространение данных, больших и малых, чтобы поддерживать соответственно репрессии и реформы. Опрос общественного мнения возник в качестве ещё одного механизма XIX века, который сохраняется в настоящее время, всё с тем же общим фокусом внимания — бедность, преступность, здравоохранение и системные провалы.

У этих новых требований знания были некоторые контекстные успехи в демографических и статистических науках, а также некоторые неудачи, такие как конструкция аналитической машины Бэббиджа, которая была разработана, но так и не была завершена в течение его жизни. В некотором смысле растущие академические специализации создали ситуацию, в которой то, что было получено через сужение фокуса и рост в субдисциплинарной деятельности также было потеряно в генерализуемости. Эта несомненно викторианская проблема сохранилась до сегодняшнего дня, несмотря на междисциплинарные проекты различных видов. Флориди (Luciano Floridi) говоря о философии больших объёмов данных, высказался вполне определённо, что реальная проблема больших данных, с которой мы сталкиваемся сегодня — это в меньшей мере проблема количества или качества данных или даже технических навыков, но скорее проблема эпистемологии.

Бюрократия и объективность

Большая часть данных, собранных о людях бюрократическими системами имеет историю не просто описания или даже понимания, но историю контроля. По этой причине связь власть/знание Фуко присутствует в выборе бюрократических и институциональных форм. Каждая девиантная или «отсталая» социальная категория является основанием для действия, как только документально зафиксирована. Следовательно, значительная часть социальных данных коэрцитивна (принудительна) по своей сути. Социальные данные редко бывает нейтральными, и сохранение «порочных» социальных проблем показывает, как их решению предпочли регулирование. Редко отмечается то, что перепись или социологическое анкетирование представляют собой снимок того, как регулируются наши общества. Вместо этого упор делается на предполагаемую объективность категорий и их данных. Так работает идеология эпохи малых данных, согласно которой, через эти инструменты мы видим именно науку, а не общество.

Классическая социология проводит различие между структурой и агентностью. Многие политические споры о социальной политике и близких вопросах по существу предпочитают один или другой из этих аспектов, как если бы они оба были различны и разделены как в теории, так и в общественной жизни. Структура по-прежнему приравнивается к порядку, в противовес потенциальным ужасам анархии, в то время как агентность по-прежнему выражается в моральных терминах как личная ответственность. Пьер Бурдьё (фр. Pierre Bourdieu) оспаривал это разделение, используя понятие габитуса, чтобы воссоединить и то, и другое, но эпистемное влияние этого разделения настолько сильно, что многие уже не могут увидеть связь и дебатам не хватает предложенной Бурдьё принципиальной рефлексивности.

Объектами мероприятий в области социальной политики в течение более двух столетий, по существу были одни и те же категории людей — группы, маркированные как моральные аутсайдеры (девианты) в своих обществах. Сбор данных об этих категориях людей, в частности, был характерной чертой первой среды больших данных. Эти категории задействованы через регуляционные процессы общества и институты, включая образование, юридические нормы и, конечно, здравоохранение. Это те же самые области, где продолжают пересекаться дебаты по поводу структуры, агентности и морали, и где использование данных и технологии репрезентируется в основном как имеющее эмансипационный характер. Риск заключается в том, что «большие данные» воспроизводят идеологические основы, характерные для многого из того, что было произведено в рамках парадигмы малых данных.

Морис Дессертен, «Eclairage» (Освещение) в Nouveau Larousse Encyclopedia («Новой энциклопедии Ларусса»).

Тогда наш вопрос заключается в том, как нам приступить к переосмыслению идейного наследия этой первой революции данных? Возможно ли это или нам придётся раскрывать идеологические последствия этой прошлой революции в ходе нынешней революции? Исходные параметры неблагоприятны, поскольку в этом широком междисциплинарном поле существует распространённое предположение, что редукционистские категории являются необходимыми и естественными. Наши практики социального упорядочивания повлияли на нашу социальную эпистемологию. Мы рискуем увековечить в социальных науках идеологические победы первой революции данных, по мере того как проходим через вторую. Необходимость критического анализа растёт быстрыми темпами не только с производством каждой новой техники или технологии, но и по причине некритического восприятия понятий, категорий и допущений, которые возникли в ходе этой первой революции данных. Эта первая революция данных оказалась успешным антиреволюционным ответом на многочисленные угрозы общественному порядку, исходящие от невероятных изменений девятнадцатого века, а не обещанным освобождением Просвещения.

Вывод

Информация не нова и не является данными — независимо от любой величины. Мы находимся в периоде, который обоснованно можно рассматривать как вторую революцию «больших данных». Революционность её в том, что она бросает вызов нашему общепринятому пониманию мира, а не просто из-за объёмов и скорости генерации данных в новых цифровых информационных технологиях. Многие социальные категории были разработаны, чтобы контролировать, принуждать и даже угнетать свои объекты. Бедняк, незамужняя мать, незаконный ребёнок, чёрный, безработный, инвалид, зависимый пожилой человек — ни одна из этих социальных категорий не является нейтральной рамкой индивидуальных или коллективных обстоятельств. Напротив, они представляют собой суждение об их месте в проекте современности и материальные основания для проведения исследований, анализа и политики вмешательства различных видов. Два столетия после первой революции больших данных, многие из этих категорий остаются с нами почти без изменений. Учитывая то, что мы знаем об их последствиях, мы должны задаться вопросом, каким будет их состояние, когда эта вторая революция данных приблизится к концу?

Подобно той первой революции данных, у современной революции тоже есть амбициозные планы на людей и их взаимодействия в свете появления новых медиа. Эти дискуссии полезны и необходимы, поскольку дискуссии и переговоры имеют большое значение в условиях революции. Ответы на революции в конце XVIII и XIX веков часто были жестокими, но теперь у нас есть более эффективные методы поддержания общественного порядка, такие как техники самости Фуко и габитус Бурдьё. Мы видим, что это становится значительной проблемой в случае преемственности наших идеологически сформированных понятий о самих себе и о других и в воспроизведении таких идеологий через наши новые цифровые среды. Вслед за Флориди, можно сделать вывод, что это представляет собой значительную эпистемную и этическую проблему в нынешней эре больших данных.

Хэмиш Робертсон (Hamish Robertson) and Джоанн Травалья (Joanne Travaglia) and Дмитрий Райдер :