Когда задержка звука имеет значение, а когда нет?

Когда задержка звука (физическое воздействие на слышимый звук) имеет значение и/или не имеет значения?

Сообщается, что задержка прикосновения к звуку в iOS составляет порядка 50 миллисекунд, однако некоторым музыкантам удается воспроизводить музыкальные приложения для iOS без особых жалоб.

Я также слышал сообщения о задержке даже в 5 мс, хотя музыканты привыкли стоять на расстоянии более 10 футов (по диагонали от уровня земли до уровня головы) от своих сценических мониторов, что добавляет более 10 мс к задержке любой аудиосистемы.

Итак, каковы ситуации, когда задержка в несколько миллисекунд действительно имеет значение? И каковы ситуации, когда даже десятки миллисекунд задержки все еще могут позволить приемлемую (виртуальную или MIDI) музыкальную (инструментальную) практику или исполнение?

Я не чувствую, что у меня достаточно знаний, чтобы дать фактический ответ, но я понимаю, что средний человек может услышать, что два повторения одного и того же звука произошли в разное время, когда они> 30 мс. В этом контексте я предполагаю, что задержка станет наиболее заметной около 30 мс. Это, как правило, имеет гораздо большее значение при записи наложений, где слишком большая задержка действительно заметна, постоянна, и, как правило, вы собираетесь прослушивать эту запись неоднократно, поэтому небольшие проблемы, которые могут остаться незамеченными в живом исполнении, будут выделяться больше.
@Basstickler - я тоже не решался дать реальный ответ. Вы можете «почувствовать» задержку около 5–7 мс, хотя и не «услышать» ее строго [не считая фазового несоответствия]. Тем не менее, в течение долгого времени ранние синтезаторы/миди-клавиатуры имели задержку 10-25 мс, даже когда просто играли на подключенной клавиатуре; musos просто «привыкли к этому», и благодаря этому мир изменился. [Я до сих пор не могу дать реальный ответ на основе этой информации]
@Tetsujin - я в основном понял, что некоторые слышат / чувствуют это больше, чем другие. Мне также интересно, в какой степени правило 30 мс действительно применимо к двум разным звукам. Обычно человеческое состояние приводит нас к несоответствиям в ритме, так что небольшая задержка мало чем отличается от этого, за исключением того факта, что все это отбрасывается назад, какой бы ни была задержка, делая вещи, которые отстают от ритма, еще дальше, а те, впереди либо меньше впереди, вовремя или позади. Таким образом, я полагаю, что разница в общей производительности может быть ощутима.
Я во-вторых, что «некоторые слышат/чувствуют это больше, чем другие», хотя я думаю, что технически любого можно научить замечать различия. Это действительно вопрос того, к чему вы привыкли, чего вы ожидаете и каковы ваши требования к производительности. Чтобы сделать плотную запись студийного качества и действительно запереть себя в «зоне», я утверждаю, что все, что превышает 5 или 6 миллисекунд, действительно может вызвать проблемы. Если вы участвуете в живом выступлении, увеличьте это значение до 20, и никто не станет мудрее. Если вы играете что-то с мягкой, медленной атакой, такой как синтезаторные пэды, я осмелюсь сказать, что даже 500 мс могут быть в порядке.
О, вы знаете, кому приходилось иметь дело с задержкой в ​​эпоху до электричества? Органисты, игравшие на органах с пневматической передачей. Прочитайте это.
Даже проводные органные клавиатуры будут иметь большие проблемы, если трубы находятся на расстоянии 30+ миллионов (100+ мс, задержка близка к 16-й ноте). Как органист играет в такт хоровому дирижеру?

Ответы (6)

Очевидно, AES в какой-то момент задалась тем же вопросом и провела это исследование: http://lsbaudio.com/publications/AES_Latency.pdf

У них была выборка, состоящая из разных инструменталистов, дающих субъективную оценку системе мониторинга, сконфигурированной с определенной задержкой,

Хотя в заголовке написано «в мониторинге живого звука», если вы прочтете его, вы увидите, что тесты наушников-вкладышей идеально отвечают на ваш вопрос даже в условиях студии (клиновые тесты по-прежнему интересны, хотя и менее актуальны).

Вы также можете найти эту таблицу от уважаемого автора полезной: http://www.soundonsound.com/sos/jan05/articles/pcmusician.htm#7

Это сводится к, грубо говоря, оптимальным значениям около:

  • вокал < 3 мс;
  • барабаны < 6 мс;
  • гитары < 12 мс;
  • фортепиано < 10 мс;
  • клавиатуры (пэды и т. д.) < 20 мс

Обратите внимание, как, по мнению автора,

«Скорость звука в воздухе составляет примерно тысячу футов в секунду, каждая миллисекунда задержки эквивалентна прослушиванию звука из точки, удаленной на один фут. Так что, если вы можете играть на электрогитаре на расстоянии 12 футов от вашего усилителя, вы можете легко справиться с задержкой в ​​12 мс».

а также

«Вокал: это самый сложный пример, потому что любой, кто слушает свой вокал в «реальном времени», наденет наушники и, следовательно, будет слышать звуки «внутри своей головы». В таких условиях задержка даже в 3 мс может сбить с толку».

Я думаю, что выше этих значений все зависит от того, насколько это приемлемо для вас лично (насколько вы разборчивы) и для вашей работы.

Если вы делаете более 100 вокальных наложений (или многослойных перкуссий), значение, близкое к 0, является хорошим значением — вы просто не хотите, чтобы задержка согласных накапливалась.

То же самое, если вы Мэрайя Кэри и просто можете позволить себе лучшее.

Если вы делаете быстрое демо в домашней студии — что угодно — вы будете перемещать «s» с помощью мыши, верно?

«Если вы делаете более 100 вокальных наложений (или многослойную перкуссию), значение, близкое к 0, является хорошим значением — вы просто не хотите, чтобы задержка согласных накапливалась». Я не думаю, что это правильно — любое программное обеспечение для записи может автоматически перемещать наложения в нужное положение, все, что вам нужно, — это известная и предсказуемая задержка в оба конца. Абсолютное значение задержки имеет большее значение, если вам нужно контролировать себя с помощью программного обеспечения (например, если вы хотите, чтобы ваша DAW применяла некоторые эффекты к тому, что вы слышите вживую. Если это не имеет значения, аппаратный мониторинг с нулевой задержкой обычно легкий.)

Я могу говорить только о своем собственном опыте живого электронного музыканта.

Значения ms - это то, что я прочитал в своем программном обеспечении. Я не знаю, насколько это точно, но они реплицируются на нескольких устройствах и в пакетах программного обеспечения. Поэтому я склонен использовать эти значения.

Я заметил, что все, что выше 100 мс, является достаточной задержкой, чтобы ее беспокоить, вплоть до того, что ее можно назвать «неиграбельной». Наш мозг может компенсировать только это.

Если, например, у меня есть задержка 100 мс, я услышу свою ноту не менее чем через 120 мс после того, как сыграю ее на инструменте. Мало того, что мне нужно будет играть свои ноты раньше, чем когда мне действительно нужно их играть, чтобы звук не испортился, но также, если я сыграю неправильную ноту, я не услышу ее до 120 мс, обработаю ее и откорректирую, и вся эта задержка может сделать 0,5-секундную поездку туда и обратно очень слышимой для аудитории!

Для живого музыкального оборудования 100 мс — это абсолютный верхний средний показатель, сравнимый с установкой инструментальных мониторов на другой стороне футбольного поля. Вы уже играете новую ноту, когда слышите, как играется первая нота. Это как читать субтитры и видеть, как персонаж по телевизору произносит одно слово после слова, которое вы на самом деле слышите через динамики. Очень надоедливый!

Я стараюсь стремиться к 32 или 24 мс. Для современных ноутбуков возможны значения от 18 до 12 мс. Все, что ниже ~ 12-10 мс, неотличимо от ввода. Например, я могу сыграть ноту и в то же время, когда инструмент издает щелкающий звук от игры ноты, слышу, как эта нота играется через мониторы (без задержки).

По этой причине, как играющий на живом инструменте, я стараюсь установить как можно более низкую задержку, не перегружая ЦП. Если я установлю его на 10 мс, мой процессор может начать потрескивать, а использование ядра процессора может быть выше 100% на одном ядре!

Как только я нахожу золотую середину, например, как в примере ниже (использование ЦП означает процент использования ЦП в зависимости от того, сколько потоков программа фактически использует):

128ms = 2% CPU utilization
 64ms = 2.5% CPU utilization
 32ms = 3% CPU utilization
 18ms = 5% CPU utilization
 15ms = 10% CPU utilization
 12ms = 22% CPU utilization
 10ms = 85% CPU utilization

Я могу решить установить значения между 15 и 18 мс. Как музыкант, играющий на живом инструменте, я не могу позволить себе ни одного треска или треска из-за опустошения буфера.

«Выше 100%»? Как это должно работать? На самом деле проблема в том, что даже если среднее использование составляет всего <30%, при малой задержке какой-нибудь системный вызов может «отвлечь» ЦП на достаточно долгое время, чтобы вызвать опустошение буфера. Вот почему аудиопотоки должны выполняться с высоким приоритетом, а аудиопрограммы должны быть написаны на языках программирования с детерминированным управлением памятью.

Я хотел бы поделиться своими мыслями, связанными с вашим вопросом о задержке касания iOS к звуку и «(виртуальной или MIDI) музыкальной (инструментальной) практике или исполнении?»

Я должен предположить, что вас в первую очередь интересует задержка в отношении музыкальных инструментов и устройств iOS или других «виртуальных и цифровых музыкальных звуков (MIDI) во время «практики или исполнения» на устройствах или «инструментах» такого типа».

Для TL;DR пропустите до конца. Чтобы понять, как я пришел к выводам в конце — продолжайте читать.

Исследования, приведенные в ответе Some Dude , и часть анекдотической информации, приведенной в комментариях, — относятся к музыкантам, играющим на реальных (в отличие от виртуальных) инструментах . Но то, что мы узнаем из этих исследований и наблюдений, приведет нас к некоторым логическим выводам, касающимся вашего конкретного вопроса.

Сначала позвольте мне добавить к анекдотическому свидетельству с моей точки зрения выступающего гитариста и вокалиста, который также немного играл на клавишных и фортепиано. Я часто выступаю в полностью акустической обстановке с акустической гитарой без усилителя и без микрофона. В таком случае задержка очень мала, особенно на вокале. Когда я выступаю с подключением и пою через микрофон, я обычно использую напольные мониторы довольно близко. Ни один из этих сценариев не представляет для меня никаких проблем.

Когда я выступаю в больших залах с домашней акустической системой и мониторами, которые могут быть подвешены к потолку, мне очень не нравится задержка между моментом, когда я дергаю струну на гитаре, и моментом, когда я слышу звук через монитор. трудное время выступления в таких условиях. Я уверен, что если бы я делал это все время на практике, я мог бы в конечном итоге привыкнуть к этому и адаптироваться.

Итак, давайте посмотрим, что мы можем экстраполировать из исследования AES, которым поделился Some Dude . Затем мы можем сделать некоторые выводы о том, что результаты могут предложить для виртуальных инструментов.

В этом исследовании мы узнали, что вокалисты и саксофонисты наименее терпимы к задержке , а клавишники и барабанщики имеют наибольшую терпимость, а гитаристы находятся посередине. Результаты исследования ясно показывают, что уровни толерантности напрямую связаны с прибором , а НЕ с отдельными людьми. Один и тот же человек, играющий на разных инструментах, будет иметь уровни толерантности к задержке, соответствующие другим результатам на данном инструменте.

Итак, давайте рассмотрим, почему это может быть правдой. Всякий раз, когда вы говорите или поете, ваш мозг ожидает немедленной реакции с нулевой задержкой на звук, исходящий изо рта, в то же самое время, когда ваша диафрагма и легкие проталкивают воздух через голосовые связки. Так было с тех пор, как вы вошли в мир с криком и впервые услышали звук собственного голоса. Поэтому легко понять, почему у вокалиста низкая терпимость к задержке. Мозг привык к немедленной обратной связи при вокализации.

Мозг саксофониста выработал подобное ожидание. Воспроизведение звука с помощью рожка имеет одну очень важную причинно-следственную общность с воспроизведением звука с помощью вашего голоса. Акт выдувания воздуха - производит немедленный звук. Будь то пение или игра в рог, происходит очень сознательное физиологическое мышечное действие, которое вызывает одновременную и мгновенную реакцию. Валторнисты привыкли дуть в свой инструмент и сразу же слышать звук.

РЕДАКТИРОВАТЬ: член сообщества Supercat сделал отличный комментарий в комментариях, и я почувствовал себя обязанным включить его в этот ответ. Чтобы спеть ноту голосом или сыграть ноту с помощью многих типов валторн - мышцы лица и голосовые мышцы фактически контролируют звук в процессе его создания , и в процессе создания необходимо внести небольшие корректировки, чтобы достичь желаемой высоты тона. Таким образом, певец, например, может услышать на мониторе, если он / она немного резкий или плоский, и немедленно внести необходимые коррективы в лицевые / голосовые мышцы, чтобы исправить высоту тона. Еще одно хорошее объяснение более низкой терпимости к задержке для певца или валторны.

Теперь давайте рассмотрим, почему у клавишников такая высокая терпимость к задержке. Большинство клавиатур, включая акустические пианино, имеют небольшую задержку между нажатием клавиши и моментом, когда вы слышите звук. На акустическом фортепиано нажатие клавиши вызывает механическое действие, которое в конечном итоге заставляет молоточек внутри фортепиано ударять по струнам. Но это не немедленный эффект «ударь и услышь». Синтезаторы, цифровые и электрические пианино всегда имели некоторую степень задержки. Таким образом , клавишник должен был научиться приспосабливаться к неизбежной задержке с момента, когда он начал играть. Таким образом, для клавишника задержка является нормальной и ожидаемой, поэтому хорошо переносится. Это то, чего они научились ожидать с самого начала.

С барабанщиком, это ведь удар его и слышишь ответ. Итак, как мы можем объяснить толерантность барабанщика к задержке в исследовании AES? В исследовании, проведенном в 2007 году, не упоминалось об использовании электронных барабанов для проверки устойчивости барабанщика к задержке, поэтому я должен предположить, что барабанщики в тесте использовали акустическую установку.

Барабанщику, ударяющему палочкой по акустическому барабану, откровенно говоря, не нужен монитор, чтобы слышать звук своего барабана. Барабанщик использует монитор НЕ для того, чтобы слышать себя (некоторые барабанщики даже носят затычки для ушей, потому что они СЛИШКОМ хорошо слышат свои барабаны) , а для того, чтобы слышать других музыкантов (и другие музыканты включают свои мониторы, чтобы они могли слышать себя поверх барабанщика). .

Таким образом, логический вывод, который мы можем сделать на основе результатов исследования AES, заключается в том, что толерантность к задержке ** обучается**. Мозг усваивает всевозможную полезную информацию, которая поддерживает нас в здравом уме. Например, каждый раз, когда ваши глаза открыты, вы видите свой нос, но мозг научился игнорировать этот образ, потому что он знает, что это не важно.

Мозг научился ожидать немедленной обратной связи, когда мы совершаем необходимые мышечные сокращения, чтобы выпустить воздух — либо через рожок, либо через наши голосовые связки. Если мы учимся играть на фортепиано или другом клавишном инструменте - мозг с самого начала НАУЧИЛСЯ приспосабливаться к встроенной задержке клавиатуры.

Таким образом, я ожидаю, что мы можем легко научиться терпеть задержку с большинством виртуальных инструментов, потому что мы не были предварительно подготовлены, чтобы ожидать иного . Если мы никогда не научимся ожидать немедленного отклика от виртуальных инструментов, задержка не должна представлять собой ту же проблему, что и для вокалиста, саксофониста или гитариста.

Я также ожидаю, что с барабанами iOS, играемыми на сенсорном экране, задержка вполне может вызвать некоторые проблемы с синхронизацией. Если вы нажмете на экран и не услышите немедленной реакции на барабан, это может сильно затруднить игру вовремя. Прямо противоположное тому, что испытали живые барабанщики на настоящих акустических установках в тесте на устойчивость к задержке.

На самом деле для барабанщика нет терпимости к задержке . Невозможно создать или имитировать задержку для барабанщика на живой акустической установке. Но на барабане iOS вы можете ввести задержку — и я подозреваю, что это будет единственный случай — когда задержка в несколько миллисекунд будет иметь значение.

Запись и мониторинг вокала не входят в объем этого ответа, потому что в вопросе вы не упомянули вокал или даже запись (просто игра и занятия на инструментах). Так что это совсем другой разговор.

TL;DR — Суть ответа на ваши вопросы:

  1. Вопрос: «В каких ситуациях действительно имеет значение задержка в несколько миллисекунд?» Ответ: При игре на барабанах iOS или MIDI на бесшумном пэде или сенсорном экране при воспроизведении другой музыки, где важно время.

  2. Вопрос: «Каковы ситуации, когда даже десятки миллисекунд задержки все же могут позволить приемлемое (виртуальное или MIDI) музыкальное (инструментальное) упражнение или исполнение?»

Ответ: При занятиях или выступлении на любом iOS, MIDI или виртуальном инструменте , кроме ударных.

Итак, учитывая ваш опыт, кажется, что не только барабаны, но и имитации струнных инструментов на любом iPhone или iPad также должны казаться неприемлемыми для опытного музыканта, если предположить, что отчеты о минимальной задержке около 50 мс от физического прикосновения до аудиовыхода верны. . То же самое с «выдувными» виртуальными духовыми инструментами, при минимальной задержке от микрофона до аудио от 15 до 17 мс (не считая обнаружения «дуновения» DSP).
@hotpaw2 смоделированная гитара на iPhone отличается от настоящей гитары. Ему не хватает тактильного ощущения перетягивания струны, ощущения результирующей вибрации и т. д. Это будет больше похоже на игру на клавиатуре, даже если «клавиатура» сделана так, чтобы выглядеть и звучать как гитара. Но для серьезной игры в кармане с другими инструментами я бы предпочел как можно меньше задержек. У меня нет личного опыта работы с миди-горнами, обдуваемыми ветром. Но, читая онлайн-обзоры и форумы, кажется, что они требуют «корректировки мыслительного процесса» и «кривой обучения».
Я подозреваю, что еще одним критическим фактором устойчивости к задержке на клавиатуре и ударных является то, что все действия по началу ноты должны быть завершены до того, как что-либо будет слышно, в то время как пение или игра на саксофоне требуют, чтобы человек регулировал свои лицевые/вокальные мышцы в ответ на то, что происходит. делает голос или инструмент.
@supercat Отличный момент. Другими словами, мышцы лица и голосовые мышцы фактически контролируют звук в процессе его создания, и в процессе создания необходимо внести небольшие корректировки.

Эффекты задержки представляют собой скользящую шкалу, варьирующуюся от:

  • нуль
  • незаметный
  • воспринимается как «ощущение» (как барабанщик, который слегка тянет)
  • воспринимается как "что-то не так"
  • воспринимается как «что-то совершенно неправильное»; делает игру совершенно невозможной

Эффект также зависит от типа звука, который вы создаете. Если вы играете что-то с мягкой атакой, например, смыв синтезатора, то точное время не имеет большого значения. Если вы играете что-то ритмичное и отрывистое, например, ударные или партию ритм-гитары, время играет решающую роль.

Даже партия соло-гитары может быть довольно терпимой к временным сдвигам по сравнению с партиями ритма, которые должны быть плотными.

Задержка в 50 мс, которую вы упомянули, находится на уровне «ощущения» или «что-то немного неправильного» и не может полностью испортить музыку или затруднить ее воспроизведение.

Однако задержка накапливается. 50 мс от сенсорного экрана до генерируемого звука может быть в порядке. 50 мс для прохождения звука от динамика к уху может быть нормально. Сложите их вместе, и вы получите 100 мс, что не нормально.

Задержка в 5 мс в педали эффектов может показаться незначительной, но некоторым гитаристам нравится объединять 10 и более эффектов, поэтому на счету каждая миллисекунда.

Существуют всевозможные ситуации, в которых накапливается задержка — например, при наложении нескольких дорожек, и вы (и/или авторы программного обеспечения) должны помнить об этом при проектировании.

Когда (ISA)Turtle Beach Pinnacle была королем звуковых карт для ПК с задержкой звука 750 мс, нам каким-то образом удавалось делать идеально синхронизированные многодорожечные записи, организовав прямой мониторинг ввода и предварительно выбирая уже записанные треки. .

Но если вы хотите воспроизвести программный сэмплер в режиме реального времени с MIDI-клавиатуры или услышать обработанную (компьютером) версию вашего аудиовхода, вам нужно стремиться к низкой задержке.

Все, что находится в районе 10 мс или ниже, обычно считается приемлемым. Низкие однозначные значения достигаются довольно легко. Любой, кто довольствуется 50 мс, либо очень нетребователен, либо введен в заблуждение поклонением iPad :-)

Когда рекламируется «мониторинг с нулевой задержкой», это вводит в заблуждение. Ноль недостижим. Они говорят о повторной зацикливании входного сигнала без прохождения через систему обработки звука на компьютере. Это не нулевая задержка, это просто полное отсутствие задержки. (Как мы сделали в первом абзаце этого ответа.)

Один из примеров, когда задержка звука практически не имеет значения:

Вы записываете чистый вокал в аудиоинтерфейс своего ПК, подпевая уже записанным трекам. Будет эффект задержки как на входе в ПК, так и на выходе. Однако компьютер знает, насколько велик аудиобуфер на выходе, и воспроизводит «раннее» для компенсации; точно так же DAW знает, что то, что вы воспроизвели, на самом деле было воспроизведено немного раньше по времени, и сдвигает его вперед во времени на длину буфера. Таким образом, хотя в этой системе есть две стадии задержки, почти все они учтены; вы его почти не замечаете (если все работает, конечно)

Я говорю «почти» решен, потому что в системе есть некоторые задержки, которые не так легко поддаются количественной оценке. Но на практике кажется, что это очень близко.

Это если не через комп мониторить :)
Да, в моем сценарии я представлял, что мы вообще не мониторим (просто слушаем свое пение). Но верно, если вы хотите осуществлять мониторинг и быть в описанном мной сценарии, мониторинг должен осуществляться с точки, прежде чем сигнал попадет в цифровой мир ПК.