Другие эмоции, связанные с базовыми эмоциями гнева/радости.

По моему непрофессиональному опыту, я смутно знаю, что есть четыре базовых эмоции: радость, грусть, страх/удивление и гнев/отвращение . 1

Немного предыстории: мы обучаем ИИ различать счастливые голоса и злые голоса. Мы добились определенного успеха, показав ему 200 сердитых аудиоклипов, 200 радостных аудиоклипов и 200 нейтральных . Теперь он может разумно сказать, когда мы разговариваем приятно или конфронтационно... но точность могла бы быть и лучше.

Наш общий набор обучающих данных состоит из следующих аудиоклипов: счастливый, злой, нейтральный, спокойный, грустный, испуганный, отвращенный и удивленный . Я думаю, что мы можем быть более точными, включив эти эмоции.

Но вот проблема:

Счастливый/сердитый/нейтральный охват противоположных концов спектра; как двоичный. Легко сказать:

Happy     1
Neutral   0
Angry    -1

Это форма данных, которые нам нужны, чтобы обучить нейронную сеть распознавать «Happy».

Таким образом, вопрос будет заключаться в том, есть ли какой-либо «правильный ответ» на заполнение этих пробелов? Ниже я изложил свои лучшие предположения, но я надеюсь на что-то более научное....

Happy     1
Angry    -1
Neutral   0
Calm      X  (0.5?)
Sad       X  (-1?)
Fearful   X  (-0.5?)
Disgust   X  (-0.75?)
Surprised X  (0.75?)

1: http://www.theatlantic.com/health/archive/2014/02/new-research-says-there-are-only-four-emotions/283560/

Я считаю, что это больше вопрос StackOverflow, но вы могли бы иметь 8 различных выходных узлов в выходном слое, которые могут быть либо 0, либо 1. С некоторыми сигмоидными функциями в скрытом слое и контролируемым обучением я считаю, что это может быть лучший способ . Вы также можете вывести вероятность (от 0 до 1) для каждой эмоции. Затем вы можете выбрать тот, у которого наибольшее значение. Я бы не рекомендовал использовать ваш подход, потому что он, вероятно, часто будет путать удивление с радостью, например, учитывая их близость. Я не верю, что вы можете расположить эти эмоции именно так линейно.
Каковы доказательства (или аргументы) того, почему счастье и гнев охватывают противоположные концы спектра? Какой спектр?
Чтобы уточнить, перечисленные вами эмоции могут либо отличаться, либо пересекаться по нескольким параметрам, включая валентность, возбуждение и концептуальное содержание. В парадигме счастья, нейтральности и гнева вы можете различать не эмоции как таковые, а их валентность или возбуждение.
@mrt Спектр - это удовлетворенность клиентов, поэтому неудовлетворенность, кажется, переводится в гнев, а удовлетворенность - в радость, вы согласны? Мы также фиксируем значение/ощущение сказанных слов для контекста, но это отдельный процесс.
@RobinKramer Мы используем pyAudioAnalysis для нашего черного ящика. Не очень представляю, как он изучает звук. Наша гипотеза не обязательно состоит в том, чтобы точно определить эмоцию, но в том, чтобы быть в состоянии отличить «хорошее настроение» от голоса «плохого настроения» — путем определения черт отрицательно и положительно заряженных эмоций.

Ответы (1)

Как я упоминал в комментариях, мы используем инструмент pyAudioAnalysis . Автор инструмента, Теодорос Яннакопулос, также написал более раннюю статью « Многомерный подход к распознаванию эмоций речи из фильмов » .

Это «Колесо эмоций» из этой статьи, кажется, именно то, что я искал:введите описание изображения здесь

Возможно, также стоит упомянуть, что в этой более поздней статье , по-видимому, описаны все конкретные характеристики, которые анализирует pyAudioAnalysis: «энергия сигнала, энтропия энергии, скорость пересечения нуля, спектральный центроид, спектральный поток, кепстральные коэффициенты Mel Frequency, характеристики на основе цветности, так далее."

Кстати, колесо эмоций называется циркумплексной моделью аффекта (см. Джеймса Рассела и Лизу Фельдман Барретт). Аффект — это всего лишь одна из характеристик эмоций (например, колесо не фиксирует концептуального содержания). На самом деле вы не «узнаете» эмоции, распознав валентность и возбуждение. Вы распознаете аффект. Например, сильное возбуждение + положительная валентность не равняется возбуждению, но эмоциональное «возбуждение» (обычно, но не всегда) включает в себя сильное возбуждение и положительную валентность.