Коммерческая утилита командной строки для расшифровки голосовых заметок в текст?

Я ищу коммерческую утилиту командной строки для расшифровки моих голосовых заметок MP3 в текстовые файлы. Мой рабочий процесс заключается в том, чтобы записывать голосовые заметки в течение дня и загружать эти заметки в виде файлов MP3 в Dropbox. Я хотел бы преобразовать эти файлы MP3 в эквивалентные файлы TXT на пакетной основе. Мои голосовые заметки варьируются от < 1 минуты до максимум ~ 10 минут.

Я попытался использовать Dragon Dictate 4 для Mac и нашел это приложение кошмарным в использовании и очень ненадежным. Я был бы рад приобрести урезанную версию этого приложения, которое только транскрибирует аудиофайлы, но я не могу найти такой продукт на веб-сайте Nuance. К сожалению, мне не удалось заставить это приложение работать достаточно надежно, чтобы искать API или интерфейс сценариев... и я немного скептически отношусь к этому поставщику, прочитав об аналогичном опыте других пользователей.

Я также смотрел на облачные сервисы, но те, которые я нашел, кажутся довольно дорогими — 0,20 доллара в минуту и ​​с ограничениями на максимальный размер аудиофайла, который можно загрузить.

Взгляните на askubuntu.com/a/423849 . Он работает и на macOS.

Ответы (1)

Я сомневаюсь, что вы сможете найти коммерческое приложение командной строки.

Вы можете лучше использовать какую-нибудь библиотеку с открытым исходным кодом, например pocketsphinx http://cmusphinx.sourceforge.net

Для расшифровки файла вы можете использовать последнюю версию 5prealpha:

   ffmpeg -i file.mp3 -ar 16000 -ac 1 file.wav
   pocketsphinx_continuous -infile file.wav -logfn /dev/null

это должно дать вам автоматическую транскрипцию. Для повышения точности вы можете адаптироваться к собственному голосу.

Это качество очень плохое.