Почему человеческий голос не может воспроизводить тон Шепарда?

Аудио тона Шепарда на YouTube.

Так что же такое тон Шепарда ?

Тон Шепарда, названный в честь Роджера Шепарда, представляет собой звук, состоящий из наложения синусоидальных волн, разделенных октавами. Когда базовая высота тона движется вверх или вниз, это называется шкалой Шепарда. Это создает слуховую иллюзию тона, который постоянно повышается или понижается по высоте, но в конечном итоге кажется, что он не становится выше или ниже. ( википедия ).

Звук Шепарда, смоделированный компьютером, продолжается, продолжается и продолжается... Он никогда не заканчивается, в буквальном смысле. Мы чувствуем (наш мозг воспринимает), что амплитуда или частота или что-то еще постепенно увеличивается, но через некоторое время мы чувствуем, что этот тон повторяется снова, начиная с той же точки. Итак, частота тона периодически меняется, как синусоида.

Но почему мы, человеческий голос, не можем воспроизвести этот тон? Как бы мы ни старались, мы не можем произвести. Это может быть связано с истощением или емкостью легких. Кажется, что наш голос становится насыщенным после определенного предела, дальше которого мы не можем воспроизвести звук. Почему? Если частота тона периодически меняется, как синусоида, мы должны быть в состоянии продолжать воспроизводить тон с того места, где мы его начали. Но нет, этого не происходит. Почему?

PS - моя терминология может быть неправильной. Так что смело редактируйте.

Просто мысль - тон Шепарда представляет собой смесь нескольких тонов. Люди, как правило, производят только один тон за раз, но, возможно, с группой людей, каждый из которых издает тон, это было бы возможно (подобно акапелле)
Прохладный! Я узнаю что-то новое каждый день! NB: я нашел это видео и поиграл, засовывая пальцы в уши и обратно в такт прыгающему мячу, пытаясь разрушить иллюзию.
Этот нисходящий тон Шепарда звучит очень похоже на саундтрек к сумеречному фильму «Сумеречная принцесса» — и это во многом объясняет его неземную жуткость.
Человеческий голос будет иметь основной и много гармоник. Распознавание гласных и согласных зависит от того, какая из этих гармоник сильнее.
@Soren: Мне интересно познакомиться с человеком, который может воспроизводить только один тон за раз. Это было бы замечательно!
Вы можете сделать это, типа. Вам просто нужны друзья (или постобработка), чтобы помочь вам. youtube.com/watch?v=PwFUwXxfZss Звучит жутко...

Ответы (2)

Человеческий голосовой аппарат производит основную частоту и ее гармоники, потому что механизм подобен релаксационному генератору . Однако у нас есть ограниченный контроль над относительной амплитудой гармоник (некоторые у нас есть — так мы изменяем «цвет» тона, который мы поем, и звучание гласных).

Чтобы создать шкалу Шепарда, вы должны иметь возможность контролировать относительную амплитуду различных гармоник, особенно соотношение двух самых низких гармоник. В некоторой степени мы делаем это, когда меняем гласную, которую мы поем: в звуке «оо» мало «действительно высоких» гармоник, а в звуке «ах» их много. Например, с сайта гиперфизики получаем такое изображение:

введите описание изображения здесь

показывая, что в голосе много гармонического содержания. Но он не «равномерно распределен» — поэтому, если вы опускаетесь на октаву, вы создаете звук, который настолько отличается, что у вас действительно не возникает ощущения, что у вас есть «вечный» звукоряд.

Я подозреваю, что самая важная проблема заключается в том, что вы захотите повторно ввести самую низкую гармонику с медленно увеличивающейся амплитудой, чтобы нота «возвратилась в нижний диапазон», даже не прыгнув туда. Но механизм голосовых связок слишком прост, чтобы это допустить.

Кстати, когда сопрано поют очень высокие ноты, многие люди теряют способность различать, какую гласную они поют, поскольку гармоники дальше друг от друга, а ухо различает гласные, оценивая форму огибающей частоты в диапазоне до нескольких кГц. ; когда в этом диапазоне очень мало гармоник, форму определить невозможно. «Высокая до» (C7) имеет частоту 2093 Гц, поэтому может быть всего пара гармоник, доступных для понимания звука. Это затрудняет различение гласных в верхнем регистре.

@Micah - спасибо, что указали на мою ошибку. Я считаю, что исправил это сейчас.
"ухо различает гласные, оценивая форму огибающей частоты в диапазоне до нескольких кГц" <-- ссылка?
@DanielSank: человеческое ухо может слышать звуки частотой до 20 кГц, но на этих частотах точность падает довольно быстро. Вы не можете услышать точную высоту тона или громкость, это почти двоичный код (звук присутствует/отсутствует).
@MSalters Я не думаю, что вы ошибаетесь, я просто прошу ссылку.
@DanielSank: см . здесь . Краткая версия: восприятие гласных в первую очередь основано на частотах первых двух формант (пиков в спектральной огибающей). Самая низкая форманта будет варьироваться от примерно 200 Гц до примерно 800 Гц в зависимости от гласной, а вторая самая низкая - от примерно 800 Гц до примерно 2000 Гц.

Я запрограммировал несколько звуков Шепарда и даже голосовой генератор.

Человеческий голос не может воспроизвести этот звук по той же причине, по которой его не могут воспроизвести одна или даже три трубы. если бы у вас было 12 труб, вы могли бы поместить их в колесную систему, чтобы высота каждого из них увеличивалась, а когда верхний доходил до верха, он приглушался и опускался до самого низкого тона. Возможно, кто-то построил механический пастуший тон, но я сомневаюсь в этом, и для имитации звука голосом потребовалось бы несколько певцов. Обычно это цифровой эффект, а не акустический инструментальный.

Человеческий голос является монофоническим звуковым генератором (за исключением тибетского тантрического голоса) с одним основным выходным каналом, ртом, и несколькими выходными каналами меньшей громкости, т. е. щеками, горлом и носом, и все они исходят из одного голосового аппарата.

Это полифоническая природа тона Шепарда, которая сбивает с толку ухо, давая ему слишком много гармоник, чтобы четко определить тон в данный момент времени. Это похоже на аккорд из 12 или 20 нот, очень широкий набор тонов.

Тон Шепарда требует либо нескольких генераторов, изменяющих высоту тона, либо нескольких статических генераторов, проходящих через несколько фильтров. Тот, который я нашел на YouTube, особенно хорош, потому что он использует около 50 синусов с мягкими атаками, поэтому трудно отличить один звук от другого.

Человеческий голосовой аппарат не может сделать что-то подобное, потому что ему нужно будет одновременно генерировать как минимум дюжину контролируемых гармоник для базовой иллюзии тона Шепарда, тоны, которые равномерно распределены и цикличны по своей природе, то есть амплитуда самого низкого тона увеличивается по мере уменьшения самого высокого тона.

Люди едва ли могут издавать низкий и высокий тона одновременно и независимо, так что тон одного можно точно контролировать по отношению к другому, а громкость можно точно контролировать по отношению к другому. Голосовой ящик, конечно же, не может воспроизводить несколько гармоник одинаковой громкости с постоянным интервалом между тонами и контролировать их громкость.

Кроме того, человеческий голос изо всех сил пытается воспроизвести один четкий, тщательно подобранный тон, и необходимы несколько тщательно контролируемых сигналов до или после фильтрации.

Голосовой ящик должен иметь несколько независимых резонаторов.

Посмотрите, как эта дама поет полифонические обертоны: youtube.com/watch?v=vC9Qh709gas
Как насчет хора из 12 человеческих голосов?
RedSonja это круто. это похоже на тибетскую трантрическую песню. Мне не удалось найти какую-либо информацию об анатомии этой вокальной техники, будь то нос или горло. это полифония с 2 голосами. Вы можете легко сделать то же самое, насвистывая и напевая одновременно. 12 человеческих голосов определенно могли бы создать крутой эффект тона Шепарда. Самые интересные голосовые ящики — у птиц, которые столь же очаровательны и универсальны, как перья.