Использование обработки естественного языка для мониторинга трафика с видео

Я застрял, пытаясь научиться использовать обработку видео, как описано в связанных документах, в области обнаружения поведения человека или наблюдения за дорожным движением (любой вид деятельности по мониторингу). В частности, я не знаю, как сформулировать задачу, используя какие-либо доступные модели.

Я нашел две статьи (Haag & Nagel (2000; Paper 1) и Arens, Gerber, & Nagel (2008; Paper 2)), которые на примере иллюстрируют использование естественного языка для мониторинга трафика с использованием последовательностей видеоизображений. Мой вопрос

  1. При каких предположениях генерируются действия? В чем преимущество nlp здесь или в любом другом приложении, кроме того факта, что оно дает иерархическое представление информации/знаний?
  2. Как генерируются действия и графики (обозначенные автором как деревья ситуационных графов) (при каких предположениях) на Рис. 2 из Документа 1 и Рис. 1 из Документа 2?
  3. Таблица 5 в статье 1: Инкрементальное распознавание дорожных ситуаций из последовательностей видеоизображений и последующие таблицы были сгенерированы с использованием каких-либо инструментов программирования?

использованная литература

Хааг М. и Нагель Х.-Х. (2000) « Пошаговое распознавание дорожных ситуаций из последовательностей видеоизображений ». Image and Vision Computing 18(2): 137-153.

Аренс М., Гербер Р. и Нагель Х.-Х. (2008) « Концептуальные представления между видеосигналами и описаниями на естественном языке ». Вычисление изображения и зрения 26: 53–66.

Я не могу понять, что вы спрашиваете. Кроме того, если вы не знаете, что «вещи» вы делаете, как вы можете просить инструменты с открытым исходным кодом для этого? Выясните, что вы хотите сделать и как точно и точно сформулировать это в форме одного вопроса, а затем, основываясь на том, что вы узнали в своем первоначальном поиске, задайте конкретные хорошо сфокусированные вопросы. На данный момент я должен проголосовать за закрытие как «не настоящий вопрос».
Ваш вопрос сбивает с толку из-за некоторой нечистой грамматики, а также из-за отсутствия внимания. Я думаю, вы должны сначала попытаться разделить это на два вопроса. Один о визуальной классификации (может быть, вы хотите изучить перевод языка жестов, визуальное распознавание жестов и т. д.). После того, как вы найдете что-то более интересное, на чем вы хотите сосредоточиться, будет легче спросить об инструментах с открытым исходным кодом для этого.
Например, работа над распознаванием жестов sciencedirect.com/science/article/pii/S0262885606002897
Я отредактировал вопрос, чтобы улучшить грамматику и форматирование, чтобы OP мог затем отредактировать его, чтобы сделать его более точным. На самом деле есть два вопроса, в обоих случаях объем желаемого познания робота слишком широк. ИМХО более плодотворной отправной точкой для такого сложного вопроса была бы более ограниченная сфера познания роботов.
ОП, я думаю, тебе следует ознакомиться с основами НЛП. Некоторые вводные ресурсы см. в этом вопросе и ответах на ling.SE.
Кроме того, рис. 1 из документа 2 — это просто краткое изложение (в виде рисунка) ключевых идей из документа 1. Я не уверен, о чем вы спрашиваете.

Ответы (1)

Я думаю, вы во многом неправильно поняли, что сделали Haag & Nagel (2000; то, что вы называете Paper 1) и как Arens, Gerber & Nagel (2008; Paper 2) расширили это. Рис. 1 AGN08 — это хорошее резюме HN00. Что HN00 сделал, так это создал систему, которая могла смотреть видео с перекрестка, обнаруживать автомобили и переводить поведение автомобиля в концептуальную основу. В качестве вдохновения для своей системы они использовали свое представление о том, как люди представляют задачу:

кажется, задействованы пять уровней репрезентации: (i) репрезентация геометрии пространственно-временных изменений в сцене дорожного движения, включающая как двумерный уровень в плоскости изображения, так и трехмерный уровень, относящийся к изображаемой сцене, (ii) представление маневров вождения, тесно связанных с конкретными дорожными ситуациями, (iii) концептуальное представление видимых тел, их атрибутов и их элементарных движений, (iv) общие концептуальные представления пространственно-временных конфигураций тела и их ожидаемых временных изменений, и (v) одна или несколько версий представления событий на естественном языке, сосредоточенных вокруг текущего момента времени.

Другими словами, цель HN00 состояла в том, чтобы посмотреть на 2D-изображение перекрестка и построить на его основе 2D/3D-представление сцены. В этой сцене идентифицируйте и маркируйте объекты и описывайте их на концептуальном языке, называемом SIT++. Оказавшись в этом концептуальном представлении (в виде деревьев ситуаций), они могут провести логический вывод (используя нечеткую метрическую логику временного рога) на своем представлении, чтобы решить, что пытаются сделать идентифицированные ими агенты.

Обратите внимание, что HN00 вообще не включал обработку естественного языка (NLP). Хотя им пришлось использовать множество алгоритмов распознавания образов и различных алгоритмов машинного обучения, которые были бы знакомы практикам НЛП. Однако их областью было преобразование визуальной сцены во внутреннее представление концептуального (не естественного языка).

Как AGN08 выходит за рамки этого? Они изменили то, что хотели сделать. Их задачей было не просто просмотреть сцену и преобразовать ее во внутреннее представление, но и затем вывести это внутреннее представление в описание на естественном языке . Таким образом, они добавляли в HN00 систему генерации естественного языка . Генерация естественного языка из внутреннего представления, очевидно, является важной частью НЛП.

В процессе добавления этой функциональности AGN08 пришлось расширить внутреннее представление несколькими способами. Это было связано с тем, что для создания хорошего вывода на естественном языке требовалось больше внутренней информации, а также с тем, что они хотели иметь дело с более сложными сценами, чем HN00. В статье основное внимание уделяется этому аспекту работы (расширение внутреннего представления) и лишь косвенно затрагивается вывод на естественном языке. Они подробно описывают вывод на естественном языке в:

Р. Гербер, Naturlichsprachliche Beschreibung von Straßenverkehrsszenen durch Bildfolgenauswertung. Диссертация, Факультет информатики Университета Карлсруэ (TH), Карлсруэ, январь 2000 г.

К сожалению, я не готов учить немецкий и читать целую диссертацию, чтобы дать вам более полный ответ о деталях. Прежде чем вы попытаетесь сделать это самостоятельно (надеюсь, вы уже знаете немецкий язык) или просмотрите более свежие статьи, я рекомендую изучить некоторые основы НЛП. Хорошим источником является следующий вопрос:

Ищу хороший справочник для начинающих по изучению вычислительной лингвистики

Спасибо, что взяли на себя труд объяснить так подробно. Как я предполагаю, эти документы трудно реализовать для моей задачи и не связаны с тем, что меня интересует. Не могли бы вы предложить, в общем, с чего мне начать или что должно быть отправная точка и этапы построения системы наблюдения для ситуационной оценки на основе естественного языка.