Влияние больших данных на вопросы философии науки

Question

Влияние больших данных на вопросы философии науки

гонзо

Оксфордский словарь английского языка недавно назвал «постправду» словом года. Термин, использование которого, как считается, увеличилось на 2000% за последний год, определяется как: «…относящийся к обстоятельствам или обозначающий их, при которых объективные факты оказывают меньшее влияние на формирование общественного мнения, чем апелляции к эмоциям и личным убеждениям».

Что, кажется, относится к мнимому распространению фальшивых/ложных фактов, которые сейчас так часто обнародуются в социальных сетях. Услышав определение, я сразу же переставил «убеждение» и «мнение», чтобы создать своего рода петлю обратной связи, и [далее или альтернативно] определил этот термин как «обстоятельства, при которых объективные факты оказывают меньшее влияние на формирование личных убеждений, чем апелляция к эмоциям». и общественное мнение».

Эта формулировка напомнила мне вопрос, который я задал здесь год назад (но который, несмотря на очень хорошие ответы господ Кинга и Александера, вскоре был закрыт как слишком чем возможные альтернативные источники/или авторитеты] повлияли на наше отношение к «фактам», оба из которых способствуют усталости от фактов, которую, кажется, испытывают многие из нас.

Мой новый вопрос (старый перефразирован и расширен): как повлияет растущее распространение «больших данных» — взрывное изобилие информации и вычислительных мощностей для ее сопоставления — на:

(i) теория/формирование/подтверждение/фальсификация гипотезы научного метода; широкое определение теории/гипотезы как чего-то вроде обоснованного, предварительного предположения, сделанного для извлечения/определения его эмпирических (и, возможно, в зависимости от соответствующего факта, также нормативных и/или логических) следствий;

(ii) изложение Куайном тезиса недоопределенности; т.е. как явления повлияют на восприятие того, что теории недоопределены, потому что в любой данный момент конфликтующие теории согласуются с [постоянно увеличивающимися] имеющимися данными; и

(iii) Дебаты реалистов/релятивистов/конструктивистов? Например, как заметил Нельсон Александер: «Поскольку сейчас очень мало науки можно сделать без «сенсорного аппарата» для обработки массивных данных [сравнивая его с телескопом Галилея], мы, кажется, неизбежно скатываемся в более «конструктивистский» круг подтверждения. -предсказание». Существуют ли мыслимые способы, которыми можно сказать, что феномен больших данных поддерживает реалистическую онтологию/эпистемологию?

Хотя этот «Вопрос» состоит из трех вопросов, я считаю, что их совместное рассмотрение повысит актуальность и качество ответов, потому что все три стороны имеют дело с тем, как наблюдаемые (последствия/данные, как бы их ни определяли, [можно сказать, ] «объяснять», «конструировать» [или коррелировать с] ненаблюдаемыми.

гонзо

@jobermrk ... Зачем удалять свой ответ? Это было хорошо.

Ответы (1)

Влияние больших данных на вопросы философии науки

@jobermrk ... Зачем удалять свой ответ? Это было хорошо.

Дэн Хикс · Answer 1

Предварительный пункт 1: есть несколько философов науки, чья текущая работа сосредоточена на больших данных. Я особенно рекомендую Лучано Флорида и Сабину Леонелли .

Предварительный пункт 2: Философы науки не любят говорить о «том» научном методе. Например, физики элементарных частиц, специалисты по моделированию климата и этологи используют очень разные подходы к разработке исследовательских проектов, сбору данных и их анализу. Вещи становятся еще более разнообразными, когда вы включаете качественных социологов и историков.

(i) В 2008 году Крис Андерсон , главный редактор Wired , утверждал, что большие данные приводят к «концу теории»; что работа с большими данными была свободной от теории, не причинной, индуктивной наукой. Я думаю, что некоторые люди сравнивали это с индуктивизмом Бэкона, в отличие от фальсификационизма Поппера (хотя я не могу найти никаких ссылок на данный момент). Позиция Андерсона — это самая радикальная позиция, которую я видел в отношении вопроса (i). И Ратти , и Леонелли утверждали, что большие данные не новы, или, по крайней мере, не новы в том смысле, в каком их представляет Андерсон. (См. также этот обзор/комментарий Mazzocchi.) Если я правильно помню статьи, и Ратти, и Леонелли утверждают, что свободная от теории, не причинная, индуктивная наука Андерсона является исследовательским исследованием, и что наука хорошо знакома как с исследовательским, так и с подтверждающим способами исследования. Леонелли также отмечает, что некоторые традиционные проблемы статистики малых данных, такие как ошибка выборки, по-прежнему очень важны для больших данных.

(ii) Здесь у меня есть два ответа: один для процесса сбора и хранения больших данных, а другой для процесса анализа больших данных для построения моделей и выводов. Во-первых, сбор больших данных так же сложен, запутан и случайен, как и сбор небольших данных. Например, секвенирование генов включает в себя разрезание интересующей ДНК на множество коротких сегментов, химическую репликацию этих коротких сегментов, чтобы у вас было достаточно для надежного чтения, а затем сшивание результатов, пытаясь сопоставить перекрывающиеся последовательности в коротких сегментах. . Насколько я понимаю, есть несколько разных способов сшивания результатов, и они не обязательно совпадают. Существуют также предварительные решения о том, откуда собирать данные. Например, было несколько анализов.показывая, что исследования геномики имеют тенденцию сосредотачиваться на людях европейского происхождения. И есть важные непредвиденные обстоятельства относительно того, какие метаданные присоединяются к данному фрагменту данных (должны ли мы вообще прикреплять метаданные расы и этнической принадлежности?), и какие данные сохраняются или отбрасываются. Во всех этих случаях разные пути могли привести к существенно разным данным, и поэтому в некотором смысле сами данные недоопределены.

Во-вторых, учитывая набор данных и исследовательский вопрос, существует множество возможных способов анализа данных и попытки ответить на вопрос. В области небольших данных это дает возможность p-хакинга и сада разветвляющихся путей : в основном, если вы продолжаете пробовать разные подходы к анализу, в конечном итоге вы получите «статистически значимый» результат. (Сравните с этим критическим обзором .) Я бы сказал, что большие данные позволяют больше p-hacking, чем маленькие данные, по трем причинам. Во-первых, большие данные включают гораздо большие выборки, что увеличивает статистическую мощность. Может показаться, что это хорошо, но это означает, что традиционные статистические методы могут оказаться неэффективными:даже самые маленькие различия считаются «статистически значимыми». Во-вторых, большие данные часто включают гораздо больше признаков (ковариат, предикторов, независимых переменных), чем наблюдения, например, тысячи генов для нескольких сотен людей. Это делает чрезвычайно простым переобучение данных . В-третьих, современные подходы к машинному обучению часто требуют больших данных. Но традиционные статистические методы все еще могут применяться к тем же самым наборам больших данных. Таким образом, у аналитиков больших данных больше возможностей — больше ответвлений, больше способов взломать некоторые статистически значимые p-значения — чем у аналитиков небольших данных.

(iii) Я не знаю, кто такой Нельсон Александер, и не могу найти какой-либо контекст для цитаты в Интернете, поэтому я не буду это комментировать. Взгляд Андерсона на большие данные (см. ответ на вопрос (i)) поддается чисто инструментальному подходу: мы находим в данных корреляции или другие статистические закономерности, а не причинно-следственные связи. С другой стороны, в контексте кризиса репликации по крайней мере три разных человекапредположили связь между проблемами репликации и отсутствием хороших причинно-следственных теорий, которые могли бы информировать, а также собирать, анализировать и интерпретировать данные. Другими словами, аргумент гласит, что без причинно-следственных теорий вы не можете спланировать свои эксперименты, наблюдения и анализ данных таким образом, чтобы контролировать потенциальные помехи; и поэтому вы в конечном итоге с проблемами репликации. Это можно рассматривать как аргумент против инструментализма. Многие современные подходы к машинному обучению (случайные леса, машины опорных векторов, глубокие нейронные сети) лучше всего понимать как чисто инструментальные; но другие подходы, разработанные исследователями ИИ, такие как байесовский подход или причинно-следственные сети, нацелены на причинно-следственные рассуждения и поэтому, кажется, лучше соответствуют реалистическому взгляду. (Лично я склонен смотреть на вещи через призму науки, основанной на моделях, что ортогонально дебатам о реализме/антиреализме; например, мне нравится эта статьяПоточник .)

Я думал, что уже сказал это, три или около того дня назад. Предыдущий комментарий пропал, так что повторюсь. Большое спасибо за такой исчерпывающий и вдумчивый ответ. И за изысканно релевантные цитаты. Прочитав многие из них, мой вопрос стал звучать анахронично, почти причудливо...
Как вообще может существовать проблема недостаточного детерминизма, или интересная проблема реализма против конструктивизма/прагматизма/инструментализма, или парадигма Куна, или фейерабендианское [условие непротиворечивости, означающее [в]вариантности проблемы], или проблема Селлерса «миф о данности» в сфера «науки, основанной на данных»/«анализа, зависящего от данных» — концепций, значения и значения/последствия которых я едва могу уловить

Влияние больших данных на вопросы философии науки

гонзо

гонзо

Ответы (1)

Дэн Хикс

гонзо

гонзо

Можно ли когда-либо оправдать нефальсифицируемое убеждение (кроме тавтологии)?

Является ли антропный принцип в физике фальсифицируемым?

Какие знания можно получить без проверки гипотез?

Фактическая бесконечность против потенциальной бесконечности [закрыто]

Что делает эпистемологию ненаучной?

Был ли у Бога выбор при создании нашей вселенной?

Может ли научная теория объединения и сам научный метод вводить в заблуждение?

Как реалист объясняет причинно-следственную связь между универсалиями и частностями?

Косвенный реализм – каковы основные возражения?

Изучались ли последствия кибернетики для эпистемологии?