Если тысяча человек шепчет неслышно, будет ли слышен полученный звук? (...при условии, что они шепчутся вместе.)
Я считаю, что ответ «да», потому что амплитуды просто складываются и, таким образом, достигают слышимого порога. Это правильно?
если возможно, пожалуйста, дайте объяснение, достаточно простое для людей, не являющихся физиками
Да всегда.
Я хотел бы не согласиться с ответом Стафуса здесь, расширяя комментарий Рода. Помехи возникать не будет, так как для шепота источники звука будут статистически независимыми .
Для демонстрации давайте посмотрим на двух человек. Человек 1 издает шепот, который можно охарактеризовать как распространяющееся звуковое поле. , куда положение в пространстве и время. Точно так же человек 2 издает шепот . Полное поле в точке пространства тогда просто
поскольку звуковые волны приблизительно линейны (по крайней мере, для амплитуд волн, достижимых голосом).
То, что вы воспринимаете как «объем» (я назову это для интенсивности) представляет собой среднее по времени значение суммарного сигнала
То есть ваше ухо усредняет очень короткие колебания сигнала. Затем мы можем расширить это с точки зрения сигналов двух людей, чтобы получить
Пока это совершенно общее. Теперь мы предполагаем статистическую независимость источников, что делает последний член равным нулю:
Таким образом, общая интенсивность — это просто сложение двух интенсивностей шепота.
Амплитуда суммы одинаково громкие некоррелированные шумы будут примерно , или примерно , умноженная на амплитуду одиночного шума. Этого может быть достаточно, чтобы сделать неслышный шепот просто слышимым. Однако подумайте о практичности. Люди не могут все занимать одно и то же место. Если их рассредоточить, большинство из них окажутся слишком далеко, чтобы их можно было услышать. Даже если их собрать вместе, их тела и одежда станут отличной звукопоглощающей средой. Скорее всего, все, что вы услышите, — это непроизвольный звук, издаваемый время от времени одним человеком.
Ответ "может быть". 1000 неслышных шепотов могут быть неслышными; вопрос, который вы, вероятно, хотели задать: «Будет ли звук шепота 1000 человек громче, чем звук шепота 1 человека?»
Ответ на этот вопрос – решительное «да». Насколько громче они будут - и приведет ли это к слышимому / понятному сообщению?
Для этого вам нужно понять концепцию интерференции и когерентности . Два источника (звука) когерентны , если они производят одинаковую форму волны. В реальном мире когерентность обычно ограничена во времени: если у меня есть два камертона, которые воспроизводят номинальную частоту 440 Гц, один из них может воспроизводить частоту 440,1 Гц, и через 5 секунд две формы волны расстроятся на 180 градусов (это и есть причина "биений"). Любой звук, который вы издаете, состоит из множества частот — см., например, этот вопрос .и связанные ответы, которые вместе составляют узнаваемую фонему (звук, который издает буква или группа букв). Когда два человека «разговаривают одновременно», они будут воспроизводить фонему, но с разной частотой. Тем не менее, когда два человека говорят «А», наши уши довольно хорошо улавливают тот факт, что они говорят «А», даже если они используют другую основную частоту.
Когда две формы волны некогерентны (как в случае с несколькими говорящими людьми), мы можем сложить вместе мощность отдельных голосов, которая представляет собой квадрат амплитуды отдельных голосов. Реальные амплитуды иногда складываются в фазе (амплитуда удваивается - мгновенная мощность в четыре раза), в других случаях они будут интерферировать разрушительно (нулевая амплитуда, нулевая мощность). Среднее время по-прежнему такое же, как сумма мощности двух источников.
То же верно и для «многих» источников. Таким образом, если у вас есть 1000 шепчущих голосов, вы можете ожидать, что амплитуда в среднем увеличится примерно в 30 раз. ); если этой амплитуды достаточно, чтобы превысить порог слышимости для вас, возможно, вы сможете их услышать; и если их голоса «очень похожи» по высоте, вы сможете понять, что они говорят. Но последнее вовсе не обязательно — способность различать фонемы становится сложнее, когда присутствует больше частот. На самом деле, если каждый будет говорить «на свой лад», то в результате звук станет похож на белый шум, и вы не поймете, о чем идет речь.
ОБНОВИТЬ
Я решил провести эксперимент. Я записал, как произношу определенную фразу 19 раз примерно в том же темпе и громкости. Я уменьшил амплитуду записи и добавил немного шума. Это привело к « неразборчивому сообщению ».
Затем я разрезал звуковую дорожку на 19 сегментов, которые я выровнял с помощью некоторой обработки сигнала (в начале сообщения был отчетливый звук «th»). Добавление этих сигналов (помните — это «разные» записи одного и того же сообщения — что-то вроде 19 разных людей, пытающихся одновременно прошептать одно и то же) с таким же количеством добавленного шума привело к звуковому сообщению .
Наконец-то я разобрался с задержками. Предполагая, что люди будут стоять на расстоянии не менее 1 м друг от друга, вы можете предположить, что большой «хор» людей будет иметь некоторую относительную задержку в своем шепоте; Я добавил сдвиг «1 м задержки» между каждым из 19 сигналов перед их суммированием, и, хотя сигнал становится немного менее четким, он все еще отчетливо слышен .
Конечно, будет организована группа из 1000 человек, чтобы попытаться свести к минимуму эту задержку — если вы разместите большую группу людей в ряд концентрических (полу) кругов, задержка поступления голосов не должна быть намного хуже, чем в моем случае. пример.
Если вас интересует код Python, который я использовал для обработки изображений (обратите внимание — в этом коде есть ряд других экспериментов и графиков... не стесняйтесь играть с ним):
# read the whisper file
import scipy.io.wavfile as WVF
from scipy.signal import argrelextrema
import numpy as np
import matplotlib.pyplot as plt
import wave
# convert mp3 to wav:
# ffmpeg -i ~/Desktop/170826_0080.mp3 ~/Desktop/longwhisper.wav"
A = WVF.read('/Users/floris/Desktop/longwhisper.wav')
# attenuate the sound wave so I have some dynamic range for adding later
soundWave = 0.1*A[1].astype('float')
N = len(A[1])
timeAxis = np.arange(N).astype('float')/A[0]
# visualize sound wave
plt.figure()
plt.plot(timeAxis, soundWave)
plt.title('original sound wave')
plt.show()
# do some filtering
tt1 = np.linspace(-5,5,1000)
filt1 = np.exp(-tt1*tt1/2)
filt1 = filt1 / np.sum(filt1)
tt = np.linspace(-5,5,50000)
filt = np.exp(-tt*tt/2)
filt = filt / np.sum(filt)
baseline = np.convolve(soundWave, filt1, mode='same')
# high frequencies only:
hf = soundWave - baseline
plt.figure()
plt.plot(timeAxis, hf)
plt.plot(timeAxis, baseline, 'r')
plt.title('after subtracting baseline')
plt.show()
soundPower = hf*hf
soundPower = np.convolve(soundPower, filt, mode='same')
plt.figure()
plt.plot(timeAxis, soundPower)
plt.title('smoothed sound power')
plt.xlabel('time (s)')
plt.show()
# find the actual peaks
pks = argrelextrema(soundPower, np.greater)
pkVals = soundPower[pks[0]]
pkSort = np.argsort(pkVals)
# time points corresponding to the 40 largest peaks... this includes the "pops"
# at the start of each phrase
timePoints = np.sort(pks[0][pkSort[-40:]])
# look at the spacing between pops - we know it should be roughly 82000 samples
makeSense = np.diff(timePoints)
startPoints = []
currentTime = makeSense[0]
lastTime = currentTime
for ii in makeSense[1:]:
if abs(currentTime - 82000 - lastTime) < abs(currentTime + ii - 82000 - lastTime):
startPoints.append( currentTime)
lastTime = currentTime
currentTime += ii
# shift back a bit - we need to start just before the pop:
startPoints = np.array(startPoints)+timePoints[0]-8000
plt.figure()
for ii in range(len(startPoints)):
temp = soundPower[startPoints[ii]:startPoints[ii]+78000]
plt.plot(temp/np.max(temp)+0.1*ii)
plt.title('sound power after aligning')
plt.show()
# sum the blocks:
# high frequency filter on the noise - make it a bit more "pink":
tt2 = np.linspace(-5,5,20)
filt2= np.exp(-tt2*tt2/2)
filt2 = filt2 / np.sum(filt2)
def addNoise(waveIn, noiseAmp):
noise = np.convolve(np.random.random_integers(-noiseAmp, noiseAmp, size=np.shape(waveIn)), filt2, mode='same')
return waveIn + noise
def writeFile(block, fileName):
pv = block.astype(np.int16).tobytes()
sound = wave.open(fileName, 'w')
sound.setparams((1,2,44100, 0, 'NONE', 'not compressed'))
sound.writeframes(pv)
sound.close()
def hpFilter(block, f=filt1):
return block - np.convolve(block, f, 'same')
# for noiseAmplitude in [0, 100, 200, 500, 1000]:
# stagger the sounds: 1 m = 1/300th second = 130 samples
# a crowd of 1000 people could be placed in a semicircle of 50 people, 20 deep
# that makes the delta x about 10 m if they are "optimally aligned"
noiseAmplitude = 500
for spacing in np.arange(0,2,0.5):
stagger = int(spacing * 44100 / 340.)
duration = 78000
start = startPoints[0]-10*stagger
sumblock = addNoise(soundWave[start:start+duration], noiseAmplitude)
catblock = np.copy(sumblock)
# add the shifted samples:
for ii in range(1,19):
ti = startPoints[ii] +(ii-10)*stagger
temp = hpFilter(soundWave[ti:ti+duration])
sumblock = sumblock + temp;
catblock=np.r_[catblock, addNoise(temp, noiseAmplitude)]
writeFile(sumblock,'/Users/floris/Desktop/onewhisper_%d_s=%.1f.wav'%(noiseAmplitude, spacing))
writeFile(catblock, '/Users/floris/Desktop/evenwhisper_%d_s=%.1f.wav'%(noiseAmplitude, spacing))
plt.figure()
plt.plot(sumblock)
plt.title('sum signal: noise = %d'%noiseAmplitude)
plt.show()
С "спасибо!" AccidentalFourierTransform , который предложил использовать Archive.org в качестве возможного места для размещения аудиофайлов.
Я думаю, это зависит от того, что вы подразумеваете под "невнятным шепотом". Есть сценический шепот, который на самом деле предназначен для того, чтобы его услышали издалека, и настоящий шепот, который должен быть услышан человеком рядом с вами, но не человеком рядом с ним, и неслышимый шепот, который даже не слышен человеку. кто их излучает.
Я только что вернулся с репетиции хора, на которой дирижер заставил хор немного растянуться, затем сделал перерыв и сказал: «Сделайте пять глубоких вдохов». Сразу же последовало: «Сделайте пять глубоких вдохов , чтобы я их не слышал ». Мгновенная разница в звуке в комнате была поразительной.
Я, конечно, был в толпе из тысячи человек, где многие шептались, и результат был слышен --- но я не могу припомнить толпу, где все "невнятно" шептали одно и то же. Ближе к концу второй симфонии Малера есть место, где большой хор -- примерно 100--150 певцов --- входит как можно тише , надеюсь, тише, чем один кашляющий зритель . Я могу сказать вам по опыту, что способ добиться этого состоит в том, чтобы все в хоре пели «неслышно» --- но это не шепотом. И я также был в толпе более тысячи человек, где была полная тишина, где я чувствовал себя вынужденным шептать себе «неслышно» только для того, чтобы убедиться, что я ничего не слышал.
Итак, мой неподтвержденный опыт показывает, что «шептание неслышно» определяется достаточно туманно, поэтому корпоративный тихий шум может упасть выше порога слышимости, а также может остаться ниже порога слышимости даже для очень больших скоплений людей. . Это зависит от того, что вы подразумеваете под «неразборчиво».
Да и если сделать аккуратно, то не только слышно, но и понятно.
[ Обновление : действительно, смотрите ответ от Флориса — включите аудиофайлы, чтобы доказать это!]
Например, они должны шептать ровно вместе только в том случае, если они равноудалены от точки слышимости — для произвольно выбранной точки они должны шептаться с небольшими задержками между собой, чтобы звук доходил до точки синхронно, конструктивно мешая .
Редактировать : Это так, если, помимо слышимости, желательно, чтобы звук был еще и понятным. Как многие отмечали, даже шепот случайного шума приведет к увеличению громкости.
Кроме того, «сделано тщательно» может быть достигнуто способами, отличными от описанных выше, что является лишь примером. Другой способ — шептать/говорить медленно: например, когда ученики в унисон приветствуют входящего учителя или люди в аудитории отвечают на просьбу артиста.
И, наконец, вероятно, это действительно должно быть только «несколько осторожно», так как увеличение громкости также происходит (и слова часто можно понять), когда публика на концерте, хор или группа прихожан поют вместе.
Пример хорового шепота может убедить скептиков ;-) https://youtu.be/yaNeIgBZSUE?t=89
Это интересный вопрос, на который нельзя дать точный ответ, но есть над чем подумать.
Для «стандартного» уха согласно Википедии порог слышимости на частоте
считается
что соответствует звуковому давлению
. Поэтому я буду использовать эту цифру для всего диапазона частот человеческого голоса и предположу, что это шепот из одного источника, который доходит до уха человека, слушающего тысячу.
Если это уровень звука шепота у источника, то необходимо сделать поправку на уменьшение интенсивности звука из-за того, что звук должен пройти расстояние между источником и приемником.
Теперь нужно подумать о природе звуков, исходящих из каждого из источников.
Я предполагаю, что интенсивность звука из-за каждого источника одинакова.
Если источники звука когерентны, то нужно добавить давления (амплитуды), а затем возвести их в квадрат, чтобы получить интенсивность.
Итак, для одного источника куда является интенсивность.
За когерентных источников уровень звука
который, согласно Википедии, является звуком телевизора или обычного разговора.
Другой крайностью является наличие источников звука как полностью некогерентных.
В этом случае надо "сложить" интенсивности, а интенсивность для 1000 таких источников будет
что, согласно Википедии, является уровнем звука в очень спокойной комнате, которую, конечно, можно было услышать.
Вероятно, толпа склонялась бы к тому, чтобы быть набором несвязных источников?
Таким образом, в зависимости от того, как далеко от толпы, кажется, что вы (очень?) вероятно услышите «жужжание» от толпы из 1000 человек.
Слышите ли вы звук, зависит от нескольких факторов:
Насколько интенсивен звук, когда он достигает вашего уха. Это, в свою очередь, также зависит от нескольких факторов, среди которых наиболее важными являются:
С какой интенсивностью излучения звук излучается в вашем направлении источником звука,
Как далеко вы находитесь от источника звука, поскольку интенсивность звука обратно пропорциональна квадрату расстояния, и
С какого направления к вам распространяется звук и его спектральный состав (т.е. как интенсивность звука распределяется в звуковом спектре), так как ваша голова и уши будут по-разному блокировать или усиливать конкретную часть звукового спектра в зависимости от частоты и направления , как кратко объясняется в этом видео SmarterEveryDay .
Спектральный состав звука, поступающего в ваше ухо, так как ваше ухо будет улавливать разные части спектра по-разному и требует разной интенсивности звука, чтобы два разных монохроматических звука с двумя разными частотами воспринимались одинаково громко (некоторые частоты трудно воспринимать или вообще не воспринимать, например).
Если громкость звука превышает определенный порог , его можно услышать.
Если предположить, что все тысячи человек шепчутся примерно одинаково громко и примерно с одинаковым спектральным составом голосов, и смотрят на вас примерно одинаково, и что пункт 1.3 оказывает незначительное влияние, то из перечисленных пунктов нам остается рассмотреть только пункт 1.2.
Кроме того, как отмечают некоторые люди, звуковое давление звука (примерно эквивалентное звуку «амплитуда» для монохроматических звуков), состоящего из нескольких звуков, будет просто суммой различных звуковых давлений, создаваемых различными источниками звука.
Поскольку можно предположить, что все звуковые волны параллельны, когда они входят в один из ваших слуховых проходов, скорость частиц воздуха будет пропорциональна звуковому давлению, а интенсивность звука будет пропорциональна квадрату звукового давления.
Поскольку усредненное по времени звуковое давление равно нулю, средняя интенсивность звука будет пропорциональна дисперсии звукового давления. Если все звуки от всех тысяч шепчущихся людей можно считать некоррелированными , то дисперсия суммы различных звуковых давлений равна сумме дисперсий различных звуковых давлений.
Следовательно, средняя сила звука всего звука равна сумме средних значений силы звука различных звуков, если это имеет какой-либо смысл.
Или, другими словами, громкость увеличивается с увеличением количества (некоррелированных) источников звука.
Однако, если тот факт, что вы увеличиваете количество людей с одной до тысячи, означает, что они должны стоять дальше от вас, этот дополнительный факт уменьшит громкость звука и может свести на нет эффект увеличения количества людей. , или даже сделать звук менее громким, чем если бы он был только с одним человеком, в зависимости от того, как люди размещены, так как интенсивность звука будет пропорциональна
куда это расстояние до человек и это количество людей.
Есть простой способ проверить это, добавив несколько синусоид с разными фазами.
Если мы возьмем случайный набор фаз на интервале
тогда мы можем получить конструктивное и деструктивное вмешательство . Используя Mathematica , это можно настроить как:
xx := RandomReal[{0,2 \[Pi]},20]
mysin[t_] := Sum[Sin[t + xx[[i]]],{i,1,20,1}]
Plot[mysin[t],{t,0,2 \[Pi]}]
Конечным результатом будет зашумленная форма сигнала, показанная ниже. Обратите внимание, что амплитуды превышают ~ 10, но максимальная величина синуса равна 1,0. Большая амплитуда является результатом конструктивной интерференции.
Если мы позволим фазам изменяться только на интервале
тогда мы получаем почти полностью конструктивную интерференцию, видимую как «нечеткая» синусоида ниже.yy := RandomReal[{0,\[Pi]},20]
mysin2[t_] := Sum[Sin[t + yy[[i]]],{i,1,20,1}]
Plot[mysin2[t],{t,0,2 \[Pi]}]
Если тысяча человек шепчет неслышно, будет ли слышен полученный звук? (...при условии, что они шепчутся вместе.)
Ответ в основном да именно из-за эффекта, наблюдаемого в первом примере выше. Вот почему болото, полное лягушек или сверчков, может звучать почти оглушительно, даже если каждый из них не очень громкий.
Я считаю, что ответ «да», потому что амплитуды просто складываются и, таким образом, достигают слышимого порога. Это правильно?
Некоторые добавляют «да», а некоторые «вычитают», что я и имел в виду под деструктивным вмешательством. Вот почему первый пример синусоиды выше выглядит как беспорядок.
Второй пример формы волны был бы чрезвычайно идеализированным результатом оркестрованного шепота толпы в унисон. Однако звук, воспроизводимый при разговоре, почти никогда не бывает красивой одиночной синусоидой, такой как эта, а скорее представляет собой множество синусоид с модулированной огибающей .
Думайте об этом как о динамиках. Если у вас есть один динамик с определенной громкостью, а затем вы добавляете второй динамик в диапазоне первого, громкость звука увеличится.
Крэйг Хикс
Флорис
длинная
пользователь 2357112
пользователь129544
САХ