Использование общедоступных данных профиля с веб-сайта для исследования

Сотрудник нашего отдела планирует загрузить миллионы профилей с общедоступного веб-сайта. Данные находятся в свободном доступе после того, как вы вошли в систему, хотя за веб-сайтом стоит компания, которая имеет коммерческие интересы и продает премиум-членство. Положения и условия веб-сайта прямо не запрещают массовую загрузку информации, и он утверждает, что его программное обеспечение будет имитировать нормальное поведение пользователя, не мешая, таким образом, нормальной работе сайта.

Предварительная оценка нашего комитета по этике предполагает, что с этической точки зрения все будет хорошо, пока он не опубликует набор данных (чего он не планирует делать) и данные будут анонимными. Кроме того, он будет агрегировать данные, поэтому никакая информация, касающаяся отдельных лиц, не будет понятной.

Тем не менее, я не полностью убежден, что это исследование должно быть проведено, и окончательное голосование еще не завершено. Есть ли другие вещи, которые следует учитывать? Может ли компания, управляющая веб-сайтом, подать в суд на университет (или на него) за использование данных, или это будет оправдано законом о защите свободы прессы или чем-то подобным? Мы находимся в Германии, поэтому применяются законы Германии и ЕС.

То, что вы описываете, — это выпуск данных OKCupid , просто без публикации набора данных. Я бы порекомендовал проконсультироваться с юристом по поводу условий использования веб-сайта. Или получить ОК с сайта.
Я настоятельно рекомендую поговорить с компанией, владеющей веб-сайтом. Если исследование не выставит их в плохом свете, им также может быть интересно узнать что-то о своей пользовательской базе. Кроме того, вы можете узнать соответствующую информацию о данных, такую ​​как скрытые механизмы выбора и т.п.
(На самом деле, никто здесь не может сказать вам о вероятности предъявления иска или проигрыша судебного процесса. Судебный процесс, вероятно, будет основан на положениях и условиях веб-сайта; попросите юриста просмотреть их. Оценка вашего коллеги, что они «не «явно запретить массовую загрузку информации» не совсем обнадеживает.)
Как Google на самом деле хранит в кеше множество веб-сайтов, если они не загружают их изначально — будут ли они нарушать все веб-сайты? Независимо от T&C? С другой стороны, я неоднократно слышал, что в Германии запрещено парсить любые веб-сайты без согласия владельца веб-сайта.
@Michael Google уважает файл robots.txt, который разрешает (или запрещает) поисковым системам очищать содержимое сайта. Это как T&C для поисковых систем. Кроме того, на Google подали в суд за кэширование контента на основании авторских прав (они выиграли иск, но все же). Наконец, когда дело доходит до закона, довольно опасно предполагать: «Эта вещь имеет некоторое сходство с тем, что я хочу сделать, и кажется законной, вероятно, никто не будет подавать на меня в суд» ;) Веб-сайты выигрывают от того, что делает Google; у них нет причин предъявлять иск (обычно).
@ ff524 Я знаю о robots.txt, однако, как вы сказали, это не дает разрешения на очистку, а только на посещение. И я не выбирал "Гугл делает, значит и ты можешь" :) Интересно, что они выиграли судебный процесс. Спасибо за информацию
@Michael Дальнейшее чтение этого судебного процесса, если вам интересно.
Релиз OKCupid звучит очень интересно. Спасибо вам за это! Член комитета по этике также предложил связаться с владельцами веб-сайтов, хотя он, похоже, сопротивлялся, вероятно, потому, что, если они скажут «нет», его исследование закончится еще до того, как оно начнется. Маловероятно, что его исследование выставит их в дурном свете, хотя они, вероятно, считают свою информацию своей коммерческой тайной и скорее не захотят делиться чем-либо (но я все равно могу подтолкнуть его к этому). Как отметил @ff524, Google соблюдает robots.txt, что запрещает загрузку информации об участниках этого веб-сайта.
@ ff524 Не могли бы вы превратить свои комментарии в ответ?

Ответы (1)

То, что вы описываете, — это выпуск данных OKCupid , просто без публикации набора данных. Обратите внимание, что «исследование» OKCupid и аналогичные исследования данных Facebook были сочтены некоторыми спорными с этической точки зрения, которые утверждают, что пользователи, которые участвуют в веб-сайте, не обязательно дают согласие на участие в исследовании, особенно когда данные профилей пользователей доступны только для авторизованных пользователей. (Также см.: «Но данные уже общедоступны»: об этике исследований в Facebook Майкл Циммер.)

Re: чтобы избежать судебного иска, вы должны получить согласие на веб-сайте. Как отметил Wrzlprmft в комментарии:

Если исследование не выставит их в плохом свете, им также может быть интересно узнать что-то о своей пользовательской базе. Кроме того, вы можете узнать соответствующую информацию о данных, например о скрытых механизмах отбора и т.п.

Если вы решите не идти по этому пути, я бы порекомендовал проконсультироваться с юристом по поводу условий веб-сайта. На самом деле, никто здесь не может сказать вам вероятность судебного преследования или проигрыша судебного процесса. Судебный процесс, вероятно, будет основан на условиях веб-сайта; попросите юриста просмотреть их. Оценка вашего коллеги о том, что они «прямо не запрещают массовую загрузку информации», не совсем обнадеживает. (Например, формулировка в положениях и условиях, в которой перечисляется разрешенное использование веб-сайта, может потенциально исключать другие виды использования без явного перечисления запрещенных видов использования.)

Судебная практика по этому вопросу далека от завершения. Решения до сих пор были ограничены. Не существует юридического прецедента, четко устанавливающего, что «скрапинг всегда разрешен, если Условия прямо не запрещают это». Есть некоторые избранные случаи, которые начали намечать случаи, когда парсинг запрещен и не запрещен, но правовая территория еще не полностью изучена. Еще немного о прецедентном праве в США и ЕС: