Программное обеспечение, позволяющее отличать музыку от разговорного текста

Мои родители писали короткие рассказы в то время, когда компьютеров еще не было. К сожалению, многие из этих рукописных рукописей, похоже, утеряны. Однако есть много старых кассет, на которых могут быть записаны рассказанные истории.

Мы собираемся избавиться от кассетных плееров, и мы также хотим избавиться от всех этих старых кассет, но я хотел бы сохранить истории, если это возможно.

Маркировка далека от совершенства, поэтому мне, вероятно, придется просмотреть все ~90 из них, записать их на свой компьютер с помощью Audacity, а затем найти истории. Конечно, там также записано много музыки.

Поэтому мне нужно программное обеспечение, которое могло бы помочь мне отличить устный текст от музыки в аудиофайлах (MP3). В идеале это должно генерировать изображение или подобное, которое классифицирует звуки. И у него должен быть встроенный проигрыватель, чтобы я мог напрямую переходить на соответствующие позиции.

Пример классификации: красный = музыка, зеленый = текст, серый = тишина:

Пример вывода

Мне это нужно с готовым пользовательским интерфейсом для Windows, и это должно быть бесплатно.

Я нашел smacpy скрипт Phython на Github , но это требует обучения программного обеспечения. Насколько я понимаю, он может классифицировать только целые файлы, а не части внутри файла. pyAudioAnalysis (Github) может классифицировать звуковые части, но не имеет пользовательского интерфейса для удобства использования.

Решение не обязательно должно быть полностью автоматизировано, но должно давать четкие подсказки. Из того, что я видел в Audacity, мне трудно отличить текст от музыки. Но если есть плагин для Audacity, это тоже нормально.

Я бы посоветовал сначала захватить и сделать резервную копию аудиофайлов - это единственное, что нужно сделать как можно скорее , потому что после того, как они исчезнут, их уже нельзя будет восстановить. Тогда почему бы не попробовать smacpy — он бесплатный — и сначала обучить его с полдюжиной файлов, которые вы классифицировали вручную, а затем попробовать с остальными — если вам придется оставить его работающим на день или два, пусть будет так.
@SteveBarnes: я уже начал запись. Может быть, вы правы. Я бы не стал полностью доверять программному обеспечению, поэтому все равно прослушал бы некоторые из них. Возможно, мне стоит попробовать.

Ответы (1)

Если вы используете Audacity для просмотра различных аспектов записей, вполне вероятно, что разница между музыкой и устной речью будет очень заметна визуально.

Я предполагаю, что спрашивающий хочет автоматизированное решение. Изучение каждого трека в Audacity, вероятно, занимает столько же времени, сколько и прослушивание в режиме ускоренной перемотки.
Основываясь на его формулировке («В идеале он должен генерировать изображение или подобное, которое классифицирует звуки. И он должен иметь встроенный проигрыватель, чтобы я мог напрямую переходить к соответствующим позициям»), мне не кажется, что ему нужно полностью автоматизированное решение. .
Я обновил вопрос. Пользуюсь Audacity уже давно. Может быть, вам просто нужно сказать мне а) какие настройки использовать и б) как определить разницу. Это не обязательно должно быть полностью автоматизированное решение. Я думаю, что в Audacity можно вручную открыть 90 файлов, если с остальными все в порядке.