Я ищу коммерческую утилиту командной строки для расшифровки моих голосовых заметок MP3 в текстовые файлы. Мой рабочий процесс заключается в том, чтобы записывать голосовые заметки в течение дня и загружать эти заметки в виде файлов MP3 в Dropbox. Я хотел бы преобразовать эти файлы MP3 в эквивалентные файлы TXT на пакетной основе. Мои голосовые заметки варьируются от < 1 минуты до максимум ~ 10 минут.
Я попытался использовать Dragon Dictate 4 для Mac и нашел это приложение кошмарным в использовании и очень ненадежным. Я был бы рад приобрести урезанную версию этого приложения, которое только транскрибирует аудиофайлы, но я не могу найти такой продукт на веб-сайте Nuance. К сожалению, мне не удалось заставить это приложение работать достаточно надежно, чтобы искать API или интерфейс сценариев... и я немного скептически отношусь к этому поставщику, прочитав об аналогичном опыте других пользователей.
Я также смотрел на облачные сервисы, но те, которые я нашел, кажутся довольно дорогими — 0,20 доллара в минуту и с ограничениями на максимальный размер аудиофайла, который можно загрузить.
Я сомневаюсь, что вы сможете найти коммерческое приложение командной строки.
Вы можете лучше использовать какую-нибудь библиотеку с открытым исходным кодом, например pocketsphinx http://cmusphinx.sourceforge.net
Для расшифровки файла вы можете использовать последнюю версию 5prealpha:
ffmpeg -i file.mp3 -ar 16000 -ac 1 file.wav
pocketsphinx_continuous -infile file.wav -logfn /dev/null
это должно дать вам автоматическую транскрипцию. Для повышения точности вы можете адаптироваться к собственному голосу.
дастробу