Влияние больших данных на вопросы философии науки

Оксфордский словарь английского языка недавно назвал «постправду» словом года. Термин, использование которого, как считается, увеличилось на 2000% за последний год, определяется как: «…относящийся к обстоятельствам или обозначающий их, при которых объективные факты оказывают меньшее влияние на формирование общественного мнения, чем апелляции к эмоциям и личным убеждениям».

Что, кажется, относится к мнимому распространению фальшивых/ложных фактов, которые сейчас так часто обнародуются в социальных сетях. Услышав определение, я сразу же переставил «убеждение» и «мнение», чтобы создать своего рода петлю обратной связи, и [далее или альтернативно] определил этот термин как «обстоятельства, при которых объективные факты оказывают меньшее влияние на формирование личных убеждений, чем апелляция к эмоциям». и общественное мнение».

Эта формулировка напомнила мне вопрос, который я задал здесь год назад (но который, несмотря на очень хорошие ответы господ Кинга и Александера, вскоре был закрыт как слишком чем возможные альтернативные источники/или авторитеты] повлияли на наше отношение к «фактам», оба из которых способствуют усталости от фактов, которую, кажется, испытывают многие из нас.

Мой новый вопрос (старый перефразирован и расширен): как повлияет растущее распространение «больших данных» — взрывное изобилие информации и вычислительных мощностей для ее сопоставления — на:

(i) теория/формирование/подтверждение/фальсификация гипотезы научного метода; широкое определение теории/гипотезы как чего-то вроде обоснованного, предварительного предположения, сделанного для извлечения/определения его эмпирических (и, возможно, в зависимости от соответствующего факта, также нормативных и/или логических) следствий;

(ii) изложение Куайном тезиса недоопределенности; т.е. как явления повлияют на восприятие того, что теории недоопределены, потому что в любой данный момент конфликтующие теории согласуются с [постоянно увеличивающимися] имеющимися данными; и

(iii) Дебаты реалистов/релятивистов/конструктивистов? Например, как заметил Нельсон Александер: «Поскольку сейчас очень мало науки можно сделать без «сенсорного аппарата» для обработки массивных данных [сравнивая его с телескопом Галилея], мы, кажется, неизбежно скатываемся в более «конструктивистский» круг подтверждения. -предсказание». Существуют ли мыслимые способы, которыми можно сказать, что феномен больших данных поддерживает реалистическую онтологию/эпистемологию?

Хотя этот «Вопрос» состоит из трех вопросов, я считаю, что их совместное рассмотрение повысит актуальность и качество ответов, потому что все три стороны имеют дело с тем, как наблюдаемые (последствия/данные, как бы их ни определяли, [можно сказать, ] «объяснять», «конструировать» [или коррелировать с] ненаблюдаемыми.

@jobermrk ... Зачем удалять свой ответ? Это было хорошо.

Ответы (1)

Предварительный пункт 1: есть несколько философов науки, чья текущая работа сосредоточена на больших данных. Я особенно рекомендую Лучано Флорида и Сабину Леонелли .

Предварительный пункт 2: Философы науки не любят говорить о «том» научном методе. Например, физики элементарных частиц, специалисты по моделированию климата и этологи используют очень разные подходы к разработке исследовательских проектов, сбору данных и их анализу. Вещи становятся еще более разнообразными, когда вы включаете качественных социологов и историков.

(i) В 2008 году Крис Андерсон , главный редактор Wired , утверждал, что большие данные приводят к «концу теории»; что работа с большими данными была свободной от теории, не причинной, индуктивной наукой. Я думаю, что некоторые люди сравнивали это с индуктивизмом Бэкона, в отличие от фальсификационизма Поппера (хотя я не могу найти никаких ссылок на данный момент). Позиция Андерсона — это самая радикальная позиция, которую я видел в отношении вопроса (i). И Ратти , и Леонелли утверждали, что большие данные не новы, или, по крайней мере, не новы в том смысле, в каком их представляет Андерсон. (См. также этот обзор/комментарий Mazzocchi.) Если я правильно помню статьи, и Ратти, и Леонелли утверждают, что свободная от теории, не причинная, индуктивная наука Андерсона является исследовательским исследованием, и что наука хорошо знакома как с исследовательским, так и с подтверждающим способами исследования. Леонелли также отмечает, что некоторые традиционные проблемы статистики малых данных, такие как ошибка выборки, по-прежнему очень важны для больших данных.

(ii) Здесь у меня есть два ответа: один для процесса сбора и хранения больших данных, а другой для процесса анализа больших данных для построения моделей и выводов. Во-первых, сбор больших данных так же сложен, запутан и случайен, как и сбор небольших данных. Например, секвенирование генов включает в себя разрезание интересующей ДНК на множество коротких сегментов, химическую репликацию этих коротких сегментов, чтобы у вас было достаточно для надежного чтения, а затем сшивание результатов, пытаясь сопоставить перекрывающиеся последовательности в коротких сегментах. . Насколько я понимаю, есть несколько разных способов сшивания результатов, и они не обязательно совпадают. Существуют также предварительные решения о том, откуда собирать данные. Например, было несколько анализов.показывая, что исследования геномики имеют тенденцию сосредотачиваться на людях европейского происхождения. И есть важные непредвиденные обстоятельства относительно того, какие метаданные присоединяются к данному фрагменту данных (должны ли мы вообще прикреплять метаданные расы и этнической принадлежности?), и какие данные сохраняются или отбрасываются. Во всех этих случаях разные пути могли привести к существенно разным данным, и поэтому в некотором смысле сами данные недоопределены.

Во-вторых, учитывая набор данных и исследовательский вопрос, существует множество возможных способов анализа данных и попытки ответить на вопрос. В области небольших данных это дает возможность p-хакинга и сада разветвляющихся путей : в основном, если вы продолжаете пробовать разные подходы к анализу, в конечном итоге вы получите «статистически значимый» результат. (Сравните с этим критическим обзором .) Я бы сказал, что большие данные позволяют больше p-hacking, чем маленькие данные, по трем причинам. Во-первых, большие данные включают гораздо большие выборки, что увеличивает статистическую мощность. Может показаться, что это хорошо, но это означает, что традиционные статистические методы могут оказаться неэффективными:даже самые маленькие различия считаются «статистически значимыми». Во-вторых, большие данные часто включают гораздо больше признаков (ковариат, предикторов, независимых переменных), чем наблюдения, например, тысячи генов для нескольких сотен людей. Это делает чрезвычайно простым переобучение данных . В-третьих, современные подходы к машинному обучению часто требуют больших данных. Но традиционные статистические методы все еще могут применяться к тем же самым наборам больших данных. Таким образом, у аналитиков больших данных больше возможностей — больше ответвлений, больше способов взломать некоторые статистически значимые p-значения — чем у аналитиков небольших данных.

(iii) Я не знаю, кто такой Нельсон Александер, и не могу найти какой-либо контекст для цитаты в Интернете, поэтому я не буду это комментировать. Взгляд Андерсона на большие данные (см. ответ на вопрос (i)) поддается чисто инструментальному подходу: мы находим в данных корреляции или другие статистические закономерности, а не причинно-следственные связи. С другой стороны, в контексте кризиса репликации по крайней мере три разных человекапредположили связь между проблемами репликации и отсутствием хороших причинно-следственных теорий, которые могли бы информировать, а также собирать, анализировать и интерпретировать данные. Другими словами, аргумент гласит, что без причинно-следственных теорий вы не можете спланировать свои эксперименты, наблюдения и анализ данных таким образом, чтобы контролировать потенциальные помехи; и поэтому вы в конечном итоге с проблемами репликации. Это можно рассматривать как аргумент против инструментализма. Многие современные подходы к машинному обучению (случайные леса, машины опорных векторов, глубокие нейронные сети) лучше всего понимать как чисто инструментальные; но другие подходы, разработанные исследователями ИИ, такие как байесовский подход или причинно-следственные сети, нацелены на причинно-следственные рассуждения и поэтому, кажется, лучше соответствуют реалистическому взгляду. (Лично я склонен смотреть на вещи через призму науки, основанной на моделях, что ортогонально дебатам о реализме/антиреализме; например, мне нравится эта статьяПоточник .)

Я думал, что уже сказал это, три или около того дня назад. Предыдущий комментарий пропал, так что повторюсь. Большое спасибо за такой исчерпывающий и вдумчивый ответ. И за изысканно релевантные цитаты. Прочитав многие из них, мой вопрос стал звучать анахронично, почти причудливо...
Как вообще может существовать проблема недостаточного детерминизма, или интересная проблема реализма против конструктивизма/прагматизма/инструментализма, или парадигма Куна, или фейерабендианское [условие непротиворечивости, означающее [в]вариантности проблемы], или проблема Селлерса «миф о данности» в сфера «науки, основанной на данных»/«анализа, зависящего от данных» — концепций, значения и значения/последствия которых я едва могу уловить