Я пытаюсь преобразовать аудиофайл в сигнал FFMPEG, обучить его в HyperGAN и создать файл изображения для преобразования в аудиофайл. Я спрашиваю, есть ли способ преобразовать изображение формы волны обратно в аудиофайл без потери качества (в основном, если бы вы хэшировали оригинал и преобразованный, это был бы один и тот же хеш), и если FFMPEG является правильным инструментом для использования. В настоящее время у меня есть пакетный скрипт для просмотра всех моих аудиофайлов и преобразования их в изображения (ffmpeg.exe -i %1 -lavfi showwavespic=s=1024x800:colors=0971CE %1.png), но я не могу их преобразовать вернуться к аудиофайлам, что противоречит цели того, что я делаю.
РЕДАКТИРОВАТЬ: FFMPEG преобразует аудиофайл размером 5 МБ в изображение размером 32 КБ, поэтому я не думаю, что он будет конвертировать обратно. Можно ли как-то сделать его более подробным?
FFmpeg не может этого сделать.
Даже теоретически метод кажется несостоятельным (без каламбура). Аудио обычно сэмплируется с частотой 40 000 000 000 Гц в секунду. Максимальный размер изображения в ffmpeg составляет 65 КБ. Таким образом, даже при таком размере едва ли можно представить 1,5 секунды звука при полном разрешении выборки. Как только вы опуститесь ниже и полагаетесь на интерполяцию, качество вашего вывода начнет ухудшаться, поскольку ваша реконструкция становится более грубой.
См. документацию по фильтру SpectraSynth. Вместо этого вам нужно будет использовать фильтр showspectrum. И иметь еще и фазовое видео. Использование только showspectrumpic невозможно, так как резко сокращается временное разрешение.
Пинты Six40
Гьян
Пинты Six40