Программное обеспечение с открытым исходным кодом для преобразования речи в текст для аудиофайлов на английском языке

У меня есть сотни часов аудиофайлов на английском языке, которые мне нужно транскрибировать на тот же язык. Знаете ли вы программу преобразования речи в текст, которую я могу использовать для автоматического преобразования ?

  • Даже если его автоматическая транскрипция не будет идеальной, она будет достаточно хороша для моего случая использования.
  • Поддержка английского языка по крайней мере
  • Открытый исходный код
  • Он должен работать на Linux, но на других платформах все в порядке.
  • Аудиофайлы в формате MP4, но я могу конвертировать их в другой формат, если это необходимо.
  • В результате должны получиться простые текстовые файлы
  • Конфиденциальность важна, поэтому я не могу использовать онлайн-сервис

Я представляю это как приложение, которое я мог бы использовать следующим образом:

$ transcriber --input 001.mp4 --output 001.txt

С чем-то вроде этого будет легко написать сценарий для расшифровки всех аудиофайлов.

Спасибо,

Это одноразовая транскрипция? Вам может быть лучше с онлайн-сервисом, например IBM Watson Speech-to-Text : не с открытым исходным кодом, очевидно, но недорогим по 2 цента за минуту и ​​первые 1000 минут бесплатно.
Я этого не знал. Это очень интересно, но идея с открытым исходным кодом состоит в том, чтобы сэкономить немного денег и, самое главное, мне не придется беспокоиться о проблемах конфиденциальности, потому что это будет работать на моем компьютере.
Поиск в Google программного обеспечения для преобразования речи в текст приводит меня, например, к Top Software Recognition Software Products , но я не знаю, насколько это независимо/хорошо.
@JanDoggen Спасибо. Вы задели правильный аккорд! Это то, что я искал. Я нашел эту ссылку в Википедии en.wikipedia.org/wiki/List_of_speech_recognition_software Вариантов много, так что стоит их попробовать. Однако я оставлю этот вопрос открытым на тот случай, если у кого-то есть непосредственный опыт работы с одним приложением или библиотекой.
github.com/openai/whisper отлично подходит для этого
Спасибо, @ChrisStryczynski! я попробую

Ответы (3)

Это прозвучит несколько странно, но вы можете загрузить его на Youtube (при условии, что это материал, не защищенный авторским правом), добавить автоматический CC и загрузить этот файл.

Далеко не идеальное, но возможное решение.

Конфиденциальность важна. Я обновил вопрос. Спасибо, в любом случае,
Я понимаю. Youtube по-прежнему можно рассматривать как вариант, файл может быть приватным (конечно, вы будете загружать его онлайн). Мне действительно любопытно, найдете ли вы лучшее решение

Whisper от OpenAI довольно медленный, но обладает высочайшей производительностью. В настоящее время не существует системы с более высокой точностью для транскрипции общего назначения.

Я рекомендую использовать https://transcribe.wreally.com . Ни ваш аудиофайл, ни ваша транскрипция не передаются на их веб-сайт, поэтому ваше требование конфиденциальности выполнено. Вы можете использовать его в автономном режиме, но вы должны использовать его в браузере Chrome. (К сожалению, это не удовлетворяет вашим требованиям к открытому исходному коду.)

Это похоже на процесс транскрипции YouTube, но лучше.

Как это с открытым исходным кодом? Можете ли вы дать ссылку на лицензию с открытым исходным кодом, которую они предоставляют?
@ThomasWeller - я думаю, вы пропустили, где я написал: «К сожалению, это не удовлетворяет вашим требованиям к открытому исходному коду». Запрос JonDoe включает множество ограничений. Мне было ясно, что один из них не удовлетворен моим предложением.
Хорошо. Я думаю, что это нормально, поскольку вы явно упоминаете об этом. Если это предложение было в вашем исходном сообщении, я, должно быть, пропустил его. Извиняюсь.
@ aparente001 Я искал программное обеспечение для автоматической транскрипции. Не только транскрипция. По моей вине вопрос был не так ясен, как я думал. Во всяком случае, я обновил его и добавил новый комментарий. Спасибо.
Это очень трудная проблема. Это может быть выполнимо, если это один громкоговоритель, говорящий очень четко и с отличными акустическими условиями. Источник Wreally, который я процитировал, предлагает это, но я его не проверял. Хотя это не открытый исходный код, это может быть способом проверить реальность, т. е. проверить осуществимость вашей идеи.