Плохие данные – как успешно двигаться дальше

Я работаю в междисциплинарной сфере. Мой вклад генерируется не мной, а талантливыми людьми, которым я доверяю и которые доверяют мне анализировать свои данные и генерировать интересные идеи.

Но вот я снова застрял в проекте, в котором вклад плохой. Нет смысла обвинять и искать козла отпущения, мы в этом вместе. И люди учатся. Но я застрял в проектах с большими обещаниями и плохим/недостаточным вкладом с самого начала моей докторской диссертации. Сейчас я переехал в другое место для PostDoc, но эта ситуация, похоже, преследует меня, куда бы я ни пошел.

Я мало что могу достичь, когда большинство моих проектов останавливаются после входного контроля качества. Но если я хочу остаться в академических кругах, мне отчаянно нужно улучшить свою игру в фактической производительности, а не только в моей способности устранять неполадки, верно?

Как мне двигаться дальше от этого? Какие у меня шансы, если я просто никогда не смогу получить «престижный проект», результатом которого станет ценная публикация? Есть ли шанс создать хорошую научную репутацию без них? Стоит ли попробовать себя в написании отзыва? Беретесь за проекты, пока один, наконец, не сработает? (Но как долго мне удастся получить другую работу, если они этого не сделают?) Я мог бы немного поработать с опубликованными данными, но они часто несопоставимы между исследованиями и сильно не хватает метаданных.

Вопрос в том, должен ли я принять тот факт, что успех (например, возможность остаться) в академических кругах в значительной степени зависит от удачи, и я не один из счастливчиков, или я могу сделать что-то серьезное? Мне очень нравится то, чем я занимаюсь, хочу продолжать.

До сих пор я брался за дополнительные проекты, пытался выполнять свои собственные «побочные проекты» по крайней мере с примерно пригодными для использования частями данных в надежде, что в конечном итоге я найду лучший набор данных, где это могло бы пригодиться, и поддерживал связь с сотрудниками в усилия по устранению неполадок и, в конечном итоге, к более качественному входу.

РЕДАКТИРОВАТЬ: Чтобы ответить на некоторые вопросы: я создаю пайплайны анализа, частично основанные на моих собственных методах. Без приложения «реальные данные» трудно опубликовать те, что в моей области. Да, это «данные реального мира». Я вообще не ожидаю идеальных данных. Но я ожидаю технически правильных, пригодных для использования данных. Однако, если входные данные случайны / мало признаков, которые будут статистически значимыми, я ничего не могу сделать. Представьте, что вы пытаетесь провести статистический тест на сходство сообщений в блогах на основе использования слов, написанных разными группами людей, но многие «группы» представлены только двумя авторами, текст иногда состоит всего из одного предложения и довольно много сообщений выглядят так, как будто они созданы генератором случайных букв, в которых нет реальных слов. Хотя мне обещали не менее 5 авторов в группе,

Что вы на самом деле делаете? Кажется, что вы принимаете входные данные и производите результат, но как вы производите этот результат? Предположительно, вы применяете какой-то метод. Это ваш собственный метод? Если да, то чем вы на самом деле занимаетесь? Кажется, что вы принимаете входные данные и производите результат, но как вы производите этот результат? Предположительно, вы применяете какой-то метод. Это ваш собственный метод? Если да, то вы можете опубликовать метод. Затем вы можете опубликовать метод в качестве вклада в исследование. Возможно, вы можете расширить свой вопрос, чтобы добавить некоторые подробности.
Какие виды продукции производятся; включают ли они бумаги; вы автор; и т. д.
Поступают ли данные из «реального мира». Если да, то не стоит ожидать идеальных данных; реальный мир — это забавное место, которое совершенно не заботится о том, что нам нужно... Методы, которые вы используете для обработки таких данных, должны быть в состоянии справиться с этими несовершенствами. Если это не так, то единственным решением является поиск других методов, которые не могут справиться с несовершенствами. Если ждать, пока мир станет совершенным, то можно ждать очень долго.
Разве вы не можете участвовать в процессе сбора данных?
Можете ли вы использовать существующие общедоступные наборы данных, а не использовать «новые» наборы данных, которые могут оказаться проблематичными?
Мир полон существующих наборов данных. Зачем вам новые ?
@Karl: OP может использоваться людьми, работающими над конкретным приложением (= вопрос реального мира), для разработки анализа данных для своих данных.
Хорошо, отвечу на некоторые комментарии: иногда я участвую в планировании сбора данных, но мой вклад был «переписан» и игнорировался раньше. В существующих наборах данных отсутствуют важные метаданные, поэтому их недостаточно, чтобы ответить на новые вопросы, которые у нас есть. В некоторых случаях опубликованных существующих данных не так много, поэтому вместо работы с 5000 точек данных мне пришлось бы работать с 45, если ограничиться ими.

Ответы (4)

Краткое содержание:

  • Реальная исследовательская жизнь с данными из реального мира беспорядочна*, и вряд ли когда-либо будет достаточно образцов (мой очень личный прогноз).
  • Существуют огромные возможности (и потребности) в работе с небольшими и беспорядочными данными. Может быть, это могло бы стать вашей областью исследований?
  • Хорошая работа по анализу данных требует тесного сотрудничества. Собственно уже при планировании экспериментов, но точно при анализе данных.
    Тесное сотрудничество позволит вам информировать их о ваших потребностях и о том, что анализ данных не может творить чудеса. Это также необходимо для вас, потому что в противном случае вы можете использовать неадекватные методы анализа.

    * Когда я говорю беспорядочно, я не имею в виду плохое курирование (хотя я также вижу здесь возможности — хотя, возможно, больше для бизнеса, чем для исследований), но подкрадывается реальность с множеством влияющих факторов, создающих структуру в ваших данных, где много (большинство?) данных подходы к анализу предполагают хорошо независимые данные. Я думаю, что это область, которая не только заслуживает дополнительных исследований, но и имеет большое практическое значение.


Я чувствую твою боль. Был (почти) там. На самом деле, я все еще им (просто моя кандидатская диссертация давно завершена): до сих пор с ≈ 15-летним профессиональным опытом в хемометрике все реальные данные, с которыми я сталкивался до сих пор, имеют одну общую черту: слишком маленький размер выборки (даже если на первый взгляд это может выглядеть красиво).

  • Одним из следствий, которые я для себя сделал, было то, что я начал исследовать такие далекие от идеальных ситуации, с которыми я сталкиваюсь на практике, например
    • ситуации с небольшим размером выборки: зная, что у меня слишком мало случаев (на несколько порядков ниже рекомендаций эмпирического правила), как диагностировать, когда что-то ломается, как стабилизировать модели, что сломается, существуют ли жесткие ограничения и т. д.
    • с точки зрения беспорядочных данных в смысле выше (с множеством влияющих факторов): у меня были ситуации, когда оказывалось, что биология на самом деле не подчиняется классификации болезней, которую используют врачи (которая была разработана для совершенно других целей, как я узнал позже on) как адаптировать методологию анализа данных к этим ситуациям (которые находились где-то между классификацией и регрессией)
    • как адаптировать процедуры валидации/проверки в таких ситуациях
      (я очень много работаю в направлении, которое вы можете использовать для всего, что, по вашему мнению, может работать для моделирования, если вы проводите честную проверку и валидацию этой модели)
    • Я вижу множество одинаково важных вопросов, на которые нет ответов.
      В той степени, что если вам нужны такие исследовательские идеи, я с радостью задам вам вопросы ;-)

  • В моей области, я думаю, так и останется: хорошо охарактеризованные образцы стоят дорого .
    В некотором отношении вы можете даже сказать, что базовые исследования не предназначены для удобного размера выборки. Он предназначен для поиска базовых знаний и указания многообещающих возможностей, но основная работа по получению (и оплате) больших размеров выборки, чтобы сделать метод надежным для повседневного использования, - это то, что прикладные исследования / промышленность должны делать (и платить за). Эта точка зрения гласила бы, что деньги налогоплательщиков не должны тратиться на работу, которую промышленность может и должна делать.

  • С другой стороны, я часто вижу излишне малые размеры выборки в академических исследованиях: здесь слишком малый означает, что, учитывая размер выборки, даже без каких-либо экспериментальных данных ясно (или было бы, если бы кто-то удосужился проверить) ясно, что никакое знание не является получено, потому что исследование слишком слабое. Это явно просто плохая наука и полная трата усилий по экспериментам и анализу данных.
    Если это то, на что вы ссылаетесь в своем вопросе, будет сложно улучшить это, но не сдавайтесь! Науке нужны такие люди, как вы, указывающие на это.

    Мой опыт в этом заключается в том, что, будучи аспирантом или новым постдоком, то, сколько вы действительно можете сделать для улучшения данных, может сильно зависеть от того, насколько то, что вы говорите, имеет значение для вашего руководителя (или даже директора высшего уровня).
    Что вы можете (и должны) всегда делать, так это четко обсуждать ограничения с точки зрения возможной интерпретации результатов вашего исследования, в том числе в рукописях, которые вы пишете.

  • Честно говоря, существуют практические ограничения . Если мы изучаем редкое заболевание, когда крупная университетская больница получает, может быть, один образец в год, я склонен думать, что необходимо работать с очень небольшим количеством случаев (но опять же: разъясните ограничения). Ведь с чего-то надо начинать.
    Принимая во внимание, что если мы говорим о легкодоступных измерениях, не представляющих особых этических проблем, болезни, когда в больнице регистрируют 10 случаев в неделю, то, конечно, диссертация о 5 случаях выглядит как-то лениво (хотя и не обязательно со стороны аспиранта: Аспирант, возможно, не смог изменить ранее существовавшие образцы планов)

  • Одним из следствий моей кандидатской диссертации было то, что, поскольку я занимался не только анализом данных, но и подготовкой образцов и измерениями для своей диссертации, я приложил значительные усилия, чтобы иметь больше образцов (к счастью, у меня был доступ к сравнительно большому банку данных, но, в конце концов, также этот подход был ограничен наличием более редких условий).
    Я бы рекомендовал, по крайней мере, проявить решительный интерес к тому, как генерируются данные (проведите экскурсию по лаборатории, попросите партнеров по сотрудничеству объяснить, как все работает и что означают данные).


 Однако, если входные данные случайны / мало признаков, которые будут статистически значимыми, я ничего не могу сделать.

Да. Опять же, это должно быть четко сообщено: у меня есть опыт, что прикладные группы могут ожидать чудес от анализа данных (и у вас может быть даже особенно тяжелая битва здесь, если эта группа в прошлом получила анализ данных, которые были сильно переобучены и, таким образом, выглядели слишком оптимистичен, и никто этого не осознавал).
Кроме того, вам придется документально подтвердить, что это не ваша «вина», что из этих данных не получаются хорошие результаты. Однако это выполнимо (и опять же, по моему опыту, то, что необходимо и в повседневной работе по анализу данных: у меня сейчас снова такая ситуация на моем столе).

[...] «группы» представлены только двумя авторами, текст иногда состоит всего из одного предложения, и довольно много постов выглядят так, как будто они созданы генератором случайных букв, в которых нет реальных слов. При этом мне обещали не менее 5 авторов в группе, минимум 5000 слов в тексте и конечно пост, реально написанный закрепленным за ним автором.

Несколько мыслей по этому поводу. Я «чую» здесь некоторые проблемы со связью/сотрудничеством . Опять же, это типичные повседневные проблемы в моей исследовательской работе и анализе данных:

  • Я сталкивался с подобными вещами из-за фундаментальных проблем коммуникации (например, между статистиками, говорящими о необходимых размерах выборки в 1000, чтобы ответить на конкретный вопрос, и учеными-экспериментаторами, «переводящими» это на «многие» ≈ 7.

  • «многие посты выглядят так, как будто они созданы генератором случайных писем».
    Ваши партнеры по экспериментальному сотрудничеству могут не иметь ни малейшего представления о том, чего вы не знаете об их методах (опять же проблема с коммуникацией): если у вас нет опыта работы с этими методами, вы у них нет возможности распознать, что происходит в этих зашумленных измерениях и как с ними бороться.
    Это может быть что угодно, от артефактов, которые следует удалить, потому что основной механизм, который их вызывает, хорошо известен и может быть проигнорирован из-за того, что «сигнал скрыт под этим шумом, и у вашего аналитика данных наверняка есть какое-то волшебство, чтобы получить его оттуда» (не буду работать, но типичное ожидание) до "ваш выброс - мой самый интересный случай" - без помощи людей, предоставляющих данные/экспериментаторы, вы выиграете'

  • Увидев все это, я задумался, достаточно ли у вас информации о предыстории исследования, чтобы даже решить, какой подход к анализу данных подходит?

Поздравляю с действительно проницательным/полезным рассказом. Поучительно для всех нас.
@paulgarrett: вау, большое спасибо.
:) Мы должны напомнить себе, что отличный вклад других людей слишком часто встречают молчанием... :)
Большое спасибо! Я буду обдумывать эту информацию в течение нескольких дней и, надеюсь, придумаю план. Во-первых: я изо всех сил стараюсь быть в тесном сотрудничестве. Раньше у меня были экскурсии по лаборатории, даже немного помогал в небольших опытах, но сейчас лаборатория работает с более опасными возбудителями и меня туда не пускают. Но я стараюсь задавать много вопросов. Это такой медленный процесс... Когда я имею в виду "беспорядочные данные", я на самом деле знаю, что они случайны. Я проводил контроль качества и разговаривал с экспериментаторами. В данном случае это РНК, и базовый состав буквально случайный.

Если вы являетесь аналитиком данных/ученым/статистиком, вам необходимо знать об ограничениях вашего подхода с учетом предоставленных вам данных . Если у вас недостаточно данных, вам не следует даже запускать анализ — если вы это сделаете, вы, скорее всего, примете результаты, если они соответствуют вашим «ожиданиям», и отбросите их в противном случае.

Это опасно.

Большая часть анализа данных — это знание ваших данных и их ограничений. Если вам предоставлены данные, которых недостаточно для того, чтобы сделать выводы, которые вас просят сделать, вы должны заявить об этом и отказаться от проведения анализа. Особенно в том нелепом случае, который вы привели в качестве примера, когда от вас ждут обобщений о группах от двух авторов. Это не имеет ничего общего с удачей .

Вы никогда не пришли бы к научному заключению, что группа A выше группы B, основываясь на n=1 в каждой группе. Не позволяйте себе попасть в ловушку, пытаясь сделать такой же вывод в другом контексте.

Я думаю, вы уже знаете большую часть этого, потому что вы говорите об остановке на этапе контроля качества, но если все ваши проекты заканчиваются именно так, то вы тратите слишком много времени на проект, не имея доступа к данным, которые показывает, что проект осуществим. Как только вам дали данные, которые не подходят, вы должны сказать своим сотрудникам, что они недостаточны, объяснить, почему, и двигаться дальше. Этот шаг должен занять 15 минут, если данные действительно так плохи, как вы описываете.

Я полностью согласен с этим, если задействованы четкие проверки гипотез и / или DoE имеет очевидные недостатки. OTOH, если проблема заключается «только» в размере выборки и соотношении сигнал-шум, я обнаружил, что выполнение анализа и выполнение, например, тестов возмущения могут предоставить «результаты», которые позволяют более легко сообщить убедительным образом, что результирующая неопределенность не допускаю никаких выводов. Это особенно полезно, если вы окажетесь в положении, когда лучше продемонстрируете, что проблема действительно в данных, а не в вас/ваших способностях/лени...

В науке мы исследуем неизвестное. Таким образом, невозможно гарантировать, что ваш проект принесет положительные результаты. Если вы заранее знаете, что ваша гипотеза верна, нет смысла делать проект. Однако, если все ваши проекты заканчиваются плохо, это тоже звучит необычно. Лучше всего поискать среди сверстников и коллег, которые занимаются подобными вещами — неужели им просто повезло больше, чем вам? А может они что-то по другому делают?

Почти любой научный проект будет иметь сильные и слабые стороны. Это не обязательно ваша работа, чтобы дать исчерпывающий отчет о слабых сторонах. Начиная с рецензентов и даже раньше, не будет недостатка в недоброжелателях, которые укажут на это. С другой стороны, продажа сильных сторон — это то, что можете сделать только вы. Если есть 99 признаков, не имеющих статистической значимости, зацикливаться на них непродуктивно. Очевидно, не отрицайте их, представляя свои результаты. Но наиболее интересным и достойным упоминания является сотый признак, имеющий значение, в дополнение к признакам, незначительность которых сама по себе бросается в глаза. Оттуда могут быть обнаружены более важные функции.

По мере того, как вы приобретете опыт анализа, вы должны научиться различать хорошие и плохие проекты. Плохо продуманные эксперименты, отсутствие контроля, экспериментаторы, известные своей небрежностью, сумасшедшие гипотезы, не имеющие литературного обоснования, — все это примеры подачек, от которых следует держаться подальше. Если вы загнаны в угол и все ваши потенциальные проекты имеют дерьмовые данные, то вы можете не обращать внимания на своих непосредственных сотрудников. Успешный анализ проводится постоянно, поэтому наверняка есть данные, которые не являются бесполезными. Как вы упомянули, обзоры — это хороший способ, по крайней мере, опубликовать что-то , они также могут привлечь новых сотрудников и помочь вам лучше понять область и стать более способными к обнаружению плохих проектов. Вы также можете попытаться повторно проанализировать данные других исследователей или статей.

Другой вариант — улучшить отношения с вашими сотрудниками. Несмотря на то, что отрицательный результат бесполезен для публикации, это все же полезная информация. Это удерживает их от траты времени на отвлекающий маневр. Если данные, которые вы получаете, в конце концов плохие, вы должны попытаться убедительно показать это как можно скорее, чтобы вы могли быстро вернуться к своим сотрудникам и начать придумывать решение. На самом деле, вы можете использовать свой опыт предыдущих неудач, чтобы направить их в план исследования и указать на ошибки, которые они могли допустить, которые доставляли вам проблемы раньше. Если слишком мало известно о том, что нужно для получения хороших данных, тогда проекты должны быть небольшими и быстрыми, чтобы вы могли повторять много раз, пока найдете правильные параметры. Следует избегать больших проектов, пока вы не будете уверены, что позаботились обо всех основных ошибках.

Это распространенная проблема, и именно поэтому я рекомендую больше разбираться в сорняках и быть более разборчивым в том, с кем вы работаете. (Я в основном всегда брал на себя руководство любым сотрудничеством... опять же, это проще, как синтезатор... такие люди, как вы, привыкли быть поддержкой... опять же, я проверял их работу и иногда находил проблемы... ни один из они когда-либо удосуживались задавать мне вопросы или изучать/критиковать мои методы!)

Аналогичные проблемы возникают, когда люди запрашивают математические модели и анализ PDE, но инженерные предположения неверны. На самом деле вы добавляете гораздо больше интеллектуальной ценности, «спрашивая пять раз» и проверяя качество ввода, предположения и т. д., чем просто запуская статистическую машину или решатель diffyQ. В идеале вы должны попытаться участвовать даже в разработке плана исследования.

Одна серьезная область, на которую вы могли бы обратить внимание, — это нефть/газ США. Есть большой интерес к оптимизации, нейронным сетям, большим данным и т. д. Также у них много денег. (Даже когда они говорят, что нет, они делают. Привыкли много платить за услуги, поездки, инструменты и т. д.) Данные не всегда идеальны, но у них есть опыт работы и работы с недостающими пунктами. Конечно, вам нужно больше заниматься очисткой, проверкой, исправлением и т. д. входных данных. Но я не думаю, что их оттолкнет вопросительный подход, только если вы посоветуете им переснять сейсмические данные или воспользоваться машиной времени и пробурить более качественные испытательные вертикали в 1950 году. Но я подозреваю, что ваши инструменты все еще могут приносить пользу даже с несовершенными данными ТОЛЬКО ПОКА несовершенства известны до начала анализа.

Ps Даже вопросы по SE часто страдают от этого. Люди обращаются за помощью с результатом X, ограниченным условиями 1, 2, 3. Но на самом деле им было бы лучше, если бы они задались вопросом о том, какова должна быть их реальная цель выпуска, и об ограничениях.