Я работаю в междисциплинарной сфере. Мой вклад генерируется не мной, а талантливыми людьми, которым я доверяю и которые доверяют мне анализировать свои данные и генерировать интересные идеи.
Но вот я снова застрял в проекте, в котором вклад плохой. Нет смысла обвинять и искать козла отпущения, мы в этом вместе. И люди учатся. Но я застрял в проектах с большими обещаниями и плохим/недостаточным вкладом с самого начала моей докторской диссертации. Сейчас я переехал в другое место для PostDoc, но эта ситуация, похоже, преследует меня, куда бы я ни пошел.
Я мало что могу достичь, когда большинство моих проектов останавливаются после входного контроля качества. Но если я хочу остаться в академических кругах, мне отчаянно нужно улучшить свою игру в фактической производительности, а не только в моей способности устранять неполадки, верно?
Как мне двигаться дальше от этого? Какие у меня шансы, если я просто никогда не смогу получить «престижный проект», результатом которого станет ценная публикация? Есть ли шанс создать хорошую научную репутацию без них? Стоит ли попробовать себя в написании отзыва? Беретесь за проекты, пока один, наконец, не сработает? (Но как долго мне удастся получить другую работу, если они этого не сделают?) Я мог бы немного поработать с опубликованными данными, но они часто несопоставимы между исследованиями и сильно не хватает метаданных.
Вопрос в том, должен ли я принять тот факт, что успех (например, возможность остаться) в академических кругах в значительной степени зависит от удачи, и я не один из счастливчиков, или я могу сделать что-то серьезное? Мне очень нравится то, чем я занимаюсь, хочу продолжать.
До сих пор я брался за дополнительные проекты, пытался выполнять свои собственные «побочные проекты» по крайней мере с примерно пригодными для использования частями данных в надежде, что в конечном итоге я найду лучший набор данных, где это могло бы пригодиться, и поддерживал связь с сотрудниками в усилия по устранению неполадок и, в конечном итоге, к более качественному входу.
РЕДАКТИРОВАТЬ: Чтобы ответить на некоторые вопросы: я создаю пайплайны анализа, частично основанные на моих собственных методах. Без приложения «реальные данные» трудно опубликовать те, что в моей области. Да, это «данные реального мира». Я вообще не ожидаю идеальных данных. Но я ожидаю технически правильных, пригодных для использования данных. Однако, если входные данные случайны / мало признаков, которые будут статистически значимыми, я ничего не могу сделать. Представьте, что вы пытаетесь провести статистический тест на сходство сообщений в блогах на основе использования слов, написанных разными группами людей, но многие «группы» представлены только двумя авторами, текст иногда состоит всего из одного предложения и довольно много сообщений выглядят так, как будто они созданы генератором случайных букв, в которых нет реальных слов. Хотя мне обещали не менее 5 авторов в группе,
Краткое содержание:
Хорошая работа по анализу данных требует тесного сотрудничества. Собственно уже при планировании экспериментов, но точно при анализе данных.
Тесное сотрудничество позволит вам информировать их о ваших потребностях и о том, что анализ данных не может творить чудеса. Это также необходимо для вас, потому что в противном случае вы можете использовать неадекватные методы анализа.
* Когда я говорю беспорядочно, я не имею в виду плохое курирование (хотя я также вижу здесь возможности — хотя, возможно, больше для бизнеса, чем для исследований), но подкрадывается реальность с множеством влияющих факторов, создающих структуру в ваших данных, где много (большинство?) данных подходы к анализу предполагают хорошо независимые данные. Я думаю, что это область, которая не только заслуживает дополнительных исследований, но и имеет большое практическое значение.
Я чувствую твою боль. Был (почти) там. На самом деле, я все еще им (просто моя кандидатская диссертация давно завершена): до сих пор с ≈ 15-летним профессиональным опытом в хемометрике все реальные данные, с которыми я сталкивался до сих пор, имеют одну общую черту: слишком маленький размер выборки (даже если на первый взгляд это может выглядеть красиво).
В моей области, я думаю, так и останется: хорошо охарактеризованные образцы стоят дорого .
В некотором отношении вы можете даже сказать, что базовые исследования не предназначены для удобного размера выборки. Он предназначен для поиска базовых знаний и указания многообещающих возможностей, но основная работа по получению (и оплате) больших размеров выборки, чтобы сделать метод надежным для повседневного использования, - это то, что прикладные исследования / промышленность должны делать (и платить за). Эта точка зрения гласила бы, что деньги налогоплательщиков не должны тратиться на работу, которую промышленность может и должна делать.
С другой стороны, я часто вижу излишне малые размеры выборки в академических исследованиях: здесь слишком малый означает, что, учитывая размер выборки, даже без каких-либо экспериментальных данных ясно (или было бы, если бы кто-то удосужился проверить) ясно, что никакое знание не является получено, потому что исследование слишком слабое. Это явно просто плохая наука и полная трата усилий по экспериментам и анализу данных.
Если это то, на что вы ссылаетесь в своем вопросе, будет сложно улучшить это, но не сдавайтесь! Науке нужны такие люди, как вы, указывающие на это.
Мой опыт в этом заключается в том, что, будучи аспирантом или новым постдоком, то, сколько вы действительно можете сделать для улучшения данных, может сильно зависеть от того, насколько то, что вы говорите, имеет значение для вашего руководителя (или даже директора высшего уровня).
Что вы можете (и должны) всегда делать, так это четко обсуждать ограничения с точки зрения возможной интерпретации результатов вашего исследования, в том числе в рукописях, которые вы пишете.
Честно говоря, существуют практические ограничения . Если мы изучаем редкое заболевание, когда крупная университетская больница получает, может быть, один образец в год, я склонен думать, что необходимо работать с очень небольшим количеством случаев (но опять же: разъясните ограничения). Ведь с чего-то надо начинать.
Принимая во внимание, что если мы говорим о легкодоступных измерениях, не представляющих особых этических проблем, болезни, когда в больнице регистрируют 10 случаев в неделю, то, конечно, диссертация о 5 случаях выглядит как-то лениво (хотя и не обязательно со стороны аспиранта: Аспирант, возможно, не смог изменить ранее существовавшие образцы планов)
Одним из следствий моей кандидатской диссертации было то, что, поскольку я занимался не только анализом данных, но и подготовкой образцов и измерениями для своей диссертации, я приложил значительные усилия, чтобы иметь больше образцов (к счастью, у меня был доступ к сравнительно большому банку данных, но, в конце концов, также этот подход был ограничен наличием более редких условий).
Я бы рекомендовал, по крайней мере, проявить решительный интерес к тому, как генерируются данные (проведите экскурсию по лаборатории, попросите партнеров по сотрудничеству объяснить, как все работает и что означают данные).
Однако, если входные данные случайны / мало признаков, которые будут статистически значимыми, я ничего не могу сделать.
Да. Опять же, это должно быть четко сообщено: у меня есть опыт, что прикладные группы могут ожидать чудес от анализа данных (и у вас может быть даже особенно тяжелая битва здесь, если эта группа в прошлом получила анализ данных, которые были сильно переобучены и, таким образом, выглядели слишком оптимистичен, и никто этого не осознавал).
Кроме того, вам придется документально подтвердить, что это не ваша «вина», что из этих данных не получаются хорошие результаты. Однако это выполнимо (и опять же, по моему опыту, то, что необходимо и в повседневной работе по анализу данных: у меня сейчас снова такая ситуация на моем столе).
[...] «группы» представлены только двумя авторами, текст иногда состоит всего из одного предложения, и довольно много постов выглядят так, как будто они созданы генератором случайных букв, в которых нет реальных слов. При этом мне обещали не менее 5 авторов в группе, минимум 5000 слов в тексте и конечно пост, реально написанный закрепленным за ним автором.
Несколько мыслей по этому поводу. Я «чую» здесь некоторые проблемы со связью/сотрудничеством . Опять же, это типичные повседневные проблемы в моей исследовательской работе и анализе данных:
Я сталкивался с подобными вещами из-за фундаментальных проблем коммуникации (например, между статистиками, говорящими о необходимых размерах выборки в 1000, чтобы ответить на конкретный вопрос, и учеными-экспериментаторами, «переводящими» это на «многие» ≈ 7.
«многие посты выглядят так, как будто они созданы генератором случайных писем».
Ваши партнеры по экспериментальному сотрудничеству могут не иметь ни малейшего представления о том, чего вы не знаете об их методах (опять же проблема с коммуникацией): если у вас нет опыта работы с этими методами, вы у них нет возможности распознать, что происходит в этих зашумленных измерениях и как с ними бороться.
Это может быть что угодно, от артефактов, которые следует удалить, потому что основной механизм, который их вызывает, хорошо известен и может быть проигнорирован из-за того, что «сигнал скрыт под этим шумом, и у вашего аналитика данных наверняка есть какое-то волшебство, чтобы получить его оттуда» (не буду работать, но типичное ожидание) до "ваш выброс - мой самый интересный случай" - без помощи людей, предоставляющих данные/экспериментаторы, вы выиграете'
Увидев все это, я задумался, достаточно ли у вас информации о предыстории исследования, чтобы даже решить, какой подход к анализу данных подходит?
Если вы являетесь аналитиком данных/ученым/статистиком, вам необходимо знать об ограничениях вашего подхода с учетом предоставленных вам данных . Если у вас недостаточно данных, вам не следует даже запускать анализ — если вы это сделаете, вы, скорее всего, примете результаты, если они соответствуют вашим «ожиданиям», и отбросите их в противном случае.
Это опасно.
Большая часть анализа данных — это знание ваших данных и их ограничений. Если вам предоставлены данные, которых недостаточно для того, чтобы сделать выводы, которые вас просят сделать, вы должны заявить об этом и отказаться от проведения анализа. Особенно в том нелепом случае, который вы привели в качестве примера, когда от вас ждут обобщений о группах от двух авторов. Это не имеет ничего общего с удачей .
Вы никогда не пришли бы к научному заключению, что группа A выше группы B, основываясь на n=1 в каждой группе. Не позволяйте себе попасть в ловушку, пытаясь сделать такой же вывод в другом контексте.
Я думаю, вы уже знаете большую часть этого, потому что вы говорите об остановке на этапе контроля качества, но если все ваши проекты заканчиваются именно так, то вы тратите слишком много времени на проект, не имея доступа к данным, которые показывает, что проект осуществим. Как только вам дали данные, которые не подходят, вы должны сказать своим сотрудникам, что они недостаточны, объяснить, почему, и двигаться дальше. Этот шаг должен занять 15 минут, если данные действительно так плохи, как вы описываете.
В науке мы исследуем неизвестное. Таким образом, невозможно гарантировать, что ваш проект принесет положительные результаты. Если вы заранее знаете, что ваша гипотеза верна, нет смысла делать проект. Однако, если все ваши проекты заканчиваются плохо, это тоже звучит необычно. Лучше всего поискать среди сверстников и коллег, которые занимаются подобными вещами — неужели им просто повезло больше, чем вам? А может они что-то по другому делают?
Почти любой научный проект будет иметь сильные и слабые стороны. Это не обязательно ваша работа, чтобы дать исчерпывающий отчет о слабых сторонах. Начиная с рецензентов и даже раньше, не будет недостатка в недоброжелателях, которые укажут на это. С другой стороны, продажа сильных сторон — это то, что можете сделать только вы. Если есть 99 признаков, не имеющих статистической значимости, зацикливаться на них непродуктивно. Очевидно, не отрицайте их, представляя свои результаты. Но наиболее интересным и достойным упоминания является сотый признак, имеющий значение, в дополнение к признакам, незначительность которых сама по себе бросается в глаза. Оттуда могут быть обнаружены более важные функции.
По мере того, как вы приобретете опыт анализа, вы должны научиться различать хорошие и плохие проекты. Плохо продуманные эксперименты, отсутствие контроля, экспериментаторы, известные своей небрежностью, сумасшедшие гипотезы, не имеющие литературного обоснования, — все это примеры подачек, от которых следует держаться подальше. Если вы загнаны в угол и все ваши потенциальные проекты имеют дерьмовые данные, то вы можете не обращать внимания на своих непосредственных сотрудников. Успешный анализ проводится постоянно, поэтому наверняка есть данные, которые не являются бесполезными. Как вы упомянули, обзоры — это хороший способ, по крайней мере, опубликовать что-то , они также могут привлечь новых сотрудников и помочь вам лучше понять область и стать более способными к обнаружению плохих проектов. Вы также можете попытаться повторно проанализировать данные других исследователей или статей.
Другой вариант — улучшить отношения с вашими сотрудниками. Несмотря на то, что отрицательный результат бесполезен для публикации, это все же полезная информация. Это удерживает их от траты времени на отвлекающий маневр. Если данные, которые вы получаете, в конце концов плохие, вы должны попытаться убедительно показать это как можно скорее, чтобы вы могли быстро вернуться к своим сотрудникам и начать придумывать решение. На самом деле, вы можете использовать свой опыт предыдущих неудач, чтобы направить их в план исследования и указать на ошибки, которые они могли допустить, которые доставляли вам проблемы раньше. Если слишком мало известно о том, что нужно для получения хороших данных, тогда проекты должны быть небольшими и быстрыми, чтобы вы могли повторять много раз, пока найдете правильные параметры. Следует избегать больших проектов, пока вы не будете уверены, что позаботились обо всех основных ошибках.
Это распространенная проблема, и именно поэтому я рекомендую больше разбираться в сорняках и быть более разборчивым в том, с кем вы работаете. (Я в основном всегда брал на себя руководство любым сотрудничеством... опять же, это проще, как синтезатор... такие люди, как вы, привыкли быть поддержкой... опять же, я проверял их работу и иногда находил проблемы... ни один из они когда-либо удосуживались задавать мне вопросы или изучать/критиковать мои методы!)
Аналогичные проблемы возникают, когда люди запрашивают математические модели и анализ PDE, но инженерные предположения неверны. На самом деле вы добавляете гораздо больше интеллектуальной ценности, «спрашивая пять раз» и проверяя качество ввода, предположения и т. д., чем просто запуская статистическую машину или решатель diffyQ. В идеале вы должны попытаться участвовать даже в разработке плана исследования.
Одна серьезная область, на которую вы могли бы обратить внимание, — это нефть/газ США. Есть большой интерес к оптимизации, нейронным сетям, большим данным и т. д. Также у них много денег. (Даже когда они говорят, что нет, они делают. Привыкли много платить за услуги, поездки, инструменты и т. д.) Данные не всегда идеальны, но у них есть опыт работы и работы с недостающими пунктами. Конечно, вам нужно больше заниматься очисткой, проверкой, исправлением и т. д. входных данных. Но я не думаю, что их оттолкнет вопросительный подход, только если вы посоветуете им переснять сейсмические данные или воспользоваться машиной времени и пробурить более качественные испытательные вертикали в 1950 году. Но я подозреваю, что ваши инструменты все еще могут приносить пользу даже с несовершенными данными ТОЛЬКО ПОКА несовершенства известны до начала анализа.
Ps Даже вопросы по SE часто страдают от этого. Люди обращаются за помощью с результатом X, ограниченным условиями 1, 2, 3. Но на самом деле им было бы лучше, если бы они задались вопросом о том, какова должна быть их реальная цель выпуска, и об ограничениях.
пользователь2768
Кэмерон Брик
Мартен Буис
Фабио Диас
ff524
Карл
cbeleites недовольны SX
скаймнинген