Мои родители писали короткие рассказы в то время, когда компьютеров еще не было. К сожалению, многие из этих рукописных рукописей, похоже, утеряны. Однако есть много старых кассет, на которых могут быть записаны рассказанные истории.
Мы собираемся избавиться от кассетных плееров, и мы также хотим избавиться от всех этих старых кассет, но я хотел бы сохранить истории, если это возможно.
Маркировка далека от совершенства, поэтому мне, вероятно, придется просмотреть все ~90 из них, записать их на свой компьютер с помощью Audacity, а затем найти истории. Конечно, там также записано много музыки.
Поэтому мне нужно программное обеспечение, которое могло бы помочь мне отличить устный текст от музыки в аудиофайлах (MP3). В идеале это должно генерировать изображение или подобное, которое классифицирует звуки. И у него должен быть встроенный проигрыватель, чтобы я мог напрямую переходить на соответствующие позиции.
Пример классификации: красный = музыка, зеленый = текст, серый = тишина:
Мне это нужно с готовым пользовательским интерфейсом для Windows, и это должно быть бесплатно.
Я нашел smacpy скрипт Phython на Github , но это требует обучения программного обеспечения. Насколько я понимаю, он может классифицировать только целые файлы, а не части внутри файла. pyAudioAnalysis (Github) может классифицировать звуковые части, но не имеет пользовательского интерфейса для удобства использования.
Решение не обязательно должно быть полностью автоматизировано, но должно давать четкие подсказки. Из того, что я видел в Audacity, мне трудно отличить текст от музыки. Но если есть плагин для Audacity, это тоже нормально.
Если вы используете Audacity для просмотра различных аспектов записей, вполне вероятно, что разница между музыкой и устной речью будет очень заметна визуально.
Стив Барнс
Томас Веллер