Запрос у компании разрешения на использование данных веб-сайта для исследований

Я исследователь и хочу выполнить парсинг веб-сайта (в частности, TripAdvisor) для сбора данных, чтобы использовать их в исследовательском проекте. Однако, ознакомившись с положениями и условиями веб-сайта , я обнаружил, что компания запрещает пользователю:

... копировать любое содержимое или информацию этого веб-сайта с помощью любого робота, программы-паука, скребка или других автоматизированных средств или любого ручного процесса для любых целей без нашего явного письменного разрешения.

-- Запрещенная деятельность, пункт (ii)

Таким образом, я хочу связаться с компанией, чтобы спросить разрешения. Мне было трудно найти какую-либо информацию о том, как связаться с компанией, чтобы запросить разрешение на использование данных. Тем не менее, мой вопрос заключается в том, что при отправке подобных запросов компаниям, как лучше всего убедиться, что я связываюсь с нужным отделом/человеком?

Вы начали с их контактной информации? tripadvisor.com/PressCenter-c6-About_Us.html
Я нашел только их физический почтовый адрес. Мне нужна их электронная почта.
Их номер телефона указан ниже их почтового адреса. Позвоните им и спросите, с кем вам следует поговорить. Мне повезло начать сохранение со слов "У меня странный вопрос".
Хорошо. Я оставлю этот вариант как последний вариант. Спасибо
Это слишком локализовано и не по теме. В лучшем случае вы могли бы отредактировать, сказав «как обращаться к онлайн-агрегаторам, чтобы использовать их данные для исследований», но я подозреваю, что на этот вопрос будут только ответы, которые вам не помогут («найдите электронное письмо и напишите им»). К вашему сведению, у tripadvisor есть целый веб-сайт справочного центра, где ваши усилия, вероятно, будут потрачены с пользой.
Я попытался сделать вопрос более общим, но может потребоваться дополнительная настройка (или он может не подходить для этого сайта).
Хорошо. спасибо всем за вашу помощь. Очень интересно.
Вы также можете попробовать немного использовать LinkedIn. Если вы сможете хотя бы выяснить название отдела, которое звучит реалистично для этого типа запроса, у вас может быть лучший шанс.
Я всегда думал, что использование данных может быть выгодно для обеих сторон. Я думаю, что, используя Tripadvisor в качестве эталонного набора данных, компания станет более заметной в кругу ученых в качестве эталона в эталонном наборе данных. А что касается «Звучит реалистично», я бы сказал, что я прихожу сюда только для того, чтобы найти помощь в получении электронной почты, а не для того, чтобы уговорить кого-либо помочь мне ;)
@Superbest - я внес несколько правок, чтобы сделать вопрос более общим. Я думаю, что здесь можно задать хороший вопрос, который, вероятно, имеет отношение к довольно большому количеству исследований, надеющихся получить данные с общедоступных веб-сайтов с аналогичными ограничительными TOS.
@MOHBOB: «Я нашел только их физический почтовый адрес. Мне нужен их адрес электронной почты». - Ну зачем? Почему бы просто не отправить письмо (да, на бумаге)? Удалить электронное письмо по-прежнему немного проще, чем «стирать» физическое письмо.
И, просто для полноты картины, вот ветка на форуме tripadvisor.com , где другой исследователь хотел получить доступ к некоторым данным в апреле 2016 года.
Спасибо за вашу помощь @ORMapper. Я живу в стране, где письмо в США может идти месяцами. Если бы я мог отправить просто письмо :)
@MOHBOB: Может быть, это относится только к «обычным» письмам, и есть приоритетные службы, которые могут сократить это время до одной или двух недель? Кроме того, нет ли каких-либо веб-сервисов виртуальной и физической почты, которые позволили бы вам загрузить файл онлайн, а затем распечатать его и отправить физически из США?
@ORMapper: Спасибо за идею. Действительно, это может быть решением. Я подумаю об этом.

Ответы (3)

Во-первых, признайте, что они, вероятно, поместили эти Условия использования по некоторым или всем из следующих причин:

  1. Им нужны правовые основания для подачи иска против тех, кто пытается украсть что-то с их сайта.
  2. Им нужны правовые основания для того, чтобы подать в суд на какого-то идиота-программиста, который валит их сайт из-за плохо запрограммированного бота, который он написал "для проекта".
  3. Их адвокат сказал им разместить эти Условия использования, потому что он видел их на каком-то другом крупном сайте и подумал, что там они хорошо смотрятся.
  4. ...?

Скорее всего, вы попадаете во вторую категорию (а может быть, и в четвертую, я не знаю, от чего еще они себя защищают). В этом смысле вы должны убедить их, что вы не идиот, который будет буйствовать на их серверах. Если вы связаны с известным университетом, возможно, вам повезет больше, но даже в этом случае это будет натяжка... это коммерческая компания, а не научно-исследовательский институт. Даже если вы сможете убедить их, что вы не полный идиот, у них все равно будет очень мало причин давать вам такое разрешение. Ваш любимый проект не принесет им ничего, и на самом деле может продемонстрировать что-то плохое в их сайте, что они не хотят публиковать. Аргумент «Я поделюсь своими выводами» на самом деле не заходит слишком далеко... у компаний есть свои собственные интересы, которые регулируются многими вещами, включая политику, программы, эго и все, что у вас есть. Ваша презентация в PowerPoint, которая может быть сделана через год или два, и которая, вероятно, будет слишком технической для вице-президента по бизнесу, чтобы ее понять, в любом случае не принесет им никакой ценности для бизнеса.

Смысл всех предыдущих слов просто в том, чтобы убедить вас в том, что здесь предстоит довольно тяжелая битва.

Все это говорит о том, что я просто начну звонить по всем номерам «свяжитесь с нами», которые попадутся мне в руки. Обязательно начните с номеров на странице «Контакты». Не бойтесь отправить письменное письмо! Что касается телефонных звонков, мне нравится фраза, которую Джек Сент-Клер использовал в своем комментарии: «У меня странный вопрос».

Успех легко определить. Проверьте свою почту... есть ли у вас письмо (письменное или электронное) от юридического отдела TripAdvisor, разрешающее вам провести исследование? Если нет, то вы еще не добились успеха. Продолжайте пытаться! Упорство будет ключевым здесь.

"но даже тогда это будет натяжка" - хотя ваши контраргументы могут быть в принципе верны, я все же думаю, что это утверждение звучит слишком пессимистично. Исследовательские проекты, получающие временный доступ к данным компании, — явление далеко не редкое... или, может быть, это мое впечатление, учитывая, что я из области, которая скорее упрощает использование услуг компании, чем раскрывает какие-либо нежелательные детали. . В любом случае, у меня сложилось впечатление, что компании больше всего заботятся не о том, что «любимый проект ничего им не принесет» (это несколько компенсируется тем простым фактом, что они...
... получить еще немного рекламы (в основном) бесплатно), а скорее, что некоторые из их данных не предназначены для публичного доступа (пользовательские данные, данные с платным доступом, ...), и что, как только они согласились для предоставления данных, все еще может быть немного сложно заставить что -то двигаться.
Это именно мое мнение @ORMapper.
@eykanal: Я работаю над системами рекомендаций и очень часто вижу академические исследовательские проекты, использующие данные Tripadvisor. Что касается аргумента «не принесет им никакой коммерческой ценности», кажется, у Tripadvisor есть привычка предоставлять доступ исследователям, но запрашивать результаты в качестве контрагента. Я думаю, что такие проекты, как рекомендательные системы, могут быть очень полезными для своего типа услуг.
@MOHBOB - Если у TripAdvisor хорошая репутация, отлично! Это в ваших интересах. Как по моему опыту, так и по опыту моих коллег, большинство компаний даже не удосуживаются уделить вам время суток.
@ORMapper - Поработав на данный момент с тремя из этих компаний, мой опыт показывает, что (1) они очень консервативны в отношении того, с кем они делятся своими данными, (2) у них очень смутное представление об ученых и (3) их впечатление заключается в том, что любая реклама, которую вы получите, может быть как плохой, так и хорошей. Таким образом, они вряд ли будут делиться данными. Некоторые компании, конечно, будут отличаться, но это мой общий опыт.
@eykanal: Спасибо, что поделились с нами своим опытом. Я думаю, что будет использоваться набор данных из archive.ics.uci.edu/ml/datasets . Я думаю, что это больше подходит для академического проекта, и это бесплатно (только запрос на цитирование).

Я бы предложил 2 вещи.

1) связаться с другими академическими исследователями, которые получили эти данные ранее (вы упоминаете в комментариях, что это произошло) и спросить, как они это сделали. Это действительно ваш лучший выбор и единственное, что когда-либо действительно работало для меня.

2) Используйте LinkedIn, чтобы выяснить, кто может обработать такой запрос. Для TA это может быть кто-то из их юридического отдела или, возможно, из их группы машинного обучения. По крайней мере, вы можете получить здесь представление о том, что такое отделы. Я использовал этот метод в прошлом, чтобы получить ответы на свои запросы, хотя они были «нет».

Также отмечу, что однажды у меня было разрешение от компании на сбор данных, и тогда компания не закрыла меня, а мой университет, потому что он подумал, что я «хакер из Китая». Затем подключились оба юридических отдела и забрали данные. Поэтому постарайтесь получить набор данных непосредственно от компании, а не разрешение на парсинг.

Наконец-то я нашел помощь на ResearchGate.com. Один исследователь предоставил мне несколько адресов электронной почты, которые он нашел на этой странице , и предложил мне отправить запрос на разрешение генеральному директору (Стиву Кауферу). Я отправил ему запрос по электронной почте, и я жду его ответа. Надеюсь, это может помочь кому-нибудь в будущем.

Два комментария: (1) адрес электронной почты, который вы разместили, не обязательно правильный (например, я нашел еще один здесь ... я подозреваю, что они просто следуют общепринятым форматам адресов электронной почты) и (2) электронное письмо генеральному директору компании стоимостью 9 миллиардов долларов. компания, запрашивающая разрешение на проведение исследования, почти наверняка ведет в тупик. Вероятность того, что вы получите положительный ответ, практически равна нулю.
Не пытаясь разочаровать вас, но определенно пытаясь поощрять пути, которые, скорее всего, будут продуктивными.
Это действительно не тот человек, который вам нужен. Вам нужен кто-то вроде главы отдела исследований или аналитики.