По моему непрофессиональному опыту, я смутно знаю, что есть четыре базовых эмоции: радость, грусть, страх/удивление и гнев/отвращение . 1
Немного предыстории: мы обучаем ИИ различать счастливые голоса и злые голоса. Мы добились определенного успеха, показав ему 200 сердитых аудиоклипов, 200 радостных аудиоклипов и 200 нейтральных . Теперь он может разумно сказать, когда мы разговариваем приятно или конфронтационно... но точность могла бы быть и лучше.
Наш общий набор обучающих данных состоит из следующих аудиоклипов: счастливый, злой, нейтральный, спокойный, грустный, испуганный, отвращенный и удивленный . Я думаю, что мы можем быть более точными, включив эти эмоции.
Но вот проблема:
Счастливый/сердитый/нейтральный охват противоположных концов спектра; как двоичный. Легко сказать:
Happy 1
Neutral 0
Angry -1
Это форма данных, которые нам нужны, чтобы обучить нейронную сеть распознавать «Happy».
Таким образом, вопрос будет заключаться в том, есть ли какой-либо «правильный ответ» на заполнение этих пробелов? Ниже я изложил свои лучшие предположения, но я надеюсь на что-то более научное....
Happy 1
Angry -1
Neutral 0
Calm X (0.5?)
Sad X (-1?)
Fearful X (-0.5?)
Disgust X (-0.75?)
Surprised X (0.75?)
Как я упоминал в комментариях, мы используем инструмент pyAudioAnalysis . Автор инструмента, Теодорос Яннакопулос, также написал более раннюю статью « Многомерный подход к распознаванию эмоций речи из фильмов » .
Это «Колесо эмоций» из этой статьи, кажется, именно то, что я искал:
Возможно, также стоит упомянуть, что в этой более поздней статье , по-видимому, описаны все конкретные характеристики, которые анализирует pyAudioAnalysis: «энергия сигнала, энтропия энергии, скорость пересечения нуля, спектральный центроид, спектральный поток, кепстральные коэффициенты Mel Frequency, характеристики на основе цветности, так далее."
Робин Крамер-тен Хав
мрт
мрт
RJB
RJB