Датчик микрофона для улавливания голоса с другой стороны комнаты

Я хотел бы создать что-то вроде Google Home своими руками, используя Raspberry Pi и программное обеспечение для распознавания голоса.

Я ищу датчик микрофона, который уловит мой голос через всю комнату, но почти все микрофоны, которые я видел, выглядят примерно так: и явно предназначены для того, чтобы быть рядом с чьим-то ртом/источником звука. (Пожалуйста, поправьте меня, если я ошибаюсь.)
Голосовой микрофон

Я нашел дешевый конденсаторный микрофон, который выглядит так: и будет ли он работать? Или я смотрю совсем не на то?
конденсаторный микрофон

Это больше связано с усилением и шумом в усилителе микрофона (бит между микрофоном и R-Pi), чем с внешним видом микрофона.
Есть ли в комнате другие источники звука?
Вам необходимо ознакомиться с основными понятиями распространения звука, ближнего и дальнего поля, отражений и т. д., прежде чем приступать к распознаванию голоса на дальнем расстоянии.
Вам не нужен действительно специальный микрофон. Обычный микрофон уловит почти все в обычной комнате. Проблема заключается в отделении голоса от других звуков. Вы можете использовать несколько микрофонов и некоторую обработку сигналов для выделения голосов, но это не будет тривиально.
Я думаю, что SNR будет во многом зависеть от того, какой выбор вам придется сделать. Но я бы начал такой проект, сначала обдумав идею покупки как минимум двух микрофонов. Возможно, даже четыре. (Я думаю здесь о применении концепций формирования луча или пространственной фильтрации к обработке.) Я почти уверен, что в этой ситуации вам придется подумать о включении более одного микрофона.

Ответы (3)

Вам НЕ нужен высокий коэффициент усиления на микрофоне.

Что вам нужно, так это высокое отношение сигнал (голос) к шуму.

Вы не получите высокого соотношения сигнал/шум, просто усилив сигнал микрофона. Это усилит окружающий шум вместе с голосом — отношение сигнал/шум останется прежним (или немного ухудшится, так как усилитель добавит собственный шум).


Что вам нужно, так это небольшое усиление — ровно столько, чтобы громко говорящий голос, используемый близко к микрофону, приблизил вас примерно к половине полной шкалы. Обеспечивает максимальный диапазон без искажений.

Далее вам потребуются несколько микрофонов и аналого-цифровой преобразователь с достаточным количеством входов для всех микрофонов, 16-битная дискретизация и, вероятно, частота дискретизации не менее 22 кГц.

Когда у вас есть звук в форме, которую можно обработать, вам понадобится программное обеспечение для выделения голоса.

Выделить голоса из фонового шума не так уж и просто. Решение включает в себя формирование луча («направление» микрофонов на выделение определенных источников без физического перемещения микрофонов) и подавление шума.

После того, как вы выбрали и изолировали голос, вы можете использовать каскад автоматического усиления, чтобы довести голос до определенного уровня, чтобы упростить работу секции распознавания речи.

Наконец, вы сами решаете, как ваш гаджет должен реагировать на определенные слова или фразы.


Проект Jasper уже решил для вас большинство этих проблем, если вы используете Raspberry Pi.

Обычные микрофоны не очень чувствительны. Поговорите с ними, контролируя выходное напряжение на прицеле, и вы поймете, что я имею в виду. Углеродный микрофон, который был в моем ящике для мусора 1970-х годов, имел высокий уровень выходного сигнала, но много искажений. попробовал параболический микрофон. Что всегда будет работать, так это громкоговоритель в обратном направлении. Я попробовал рупорный динамик в обратном направлении, и это сработало еще лучше. Большинство динамиков имеют низкий импеданс, скажем, 4 или 8 Ом. В 1975 году я использовал выходной трансформатор в обратном направлении, чтобы обеспечить лучшее согласование с предусилителем. Сетевой шум был проблемой, а выходные трансформаторы становилось все труднее найти, поэтому я использовал простой транзисторный каскад с общей базой, смещенный примерно на 1 мА, а затем поданный на более традиционный усилитель AF. Я мог слышать вещи на расстоянии 30 футов с транзисторами Ge 1960-х годов.

В детстве, когда я собирал биполярные усилители с высоким коэффициентом усиления и связью по переменному току, единственным источником сигнала, который у меня был, был 2-дюймовый транзисторный радиодинамик. Поцарапайте конус, чтобы получить сильный сигнал. Говорите в конус, чтобы получить нормальный сигнал.

В конце концов, я научился правильной фильтрации VDD. Первые 2 или 3 биполярных каскада имели свои собственные частные VDD (эквивалент местной батареи) с 5000 мкФ и 100 Ом. Последние 2 или 3 ступени работали напрямую от 9-вольтовой батареи размера «B». Выход, вероятно, был на магнитные наушники, чтобы предотвратить акустическую обратную связь.

Этот усилитель со звукоснимателем громкоговорителя легко прослушивал голоса на расстоянии 10 или 20 футов.

Сегодня вы сможете сделать то же самое с 2 или 3 каскадами операционных усилителей. Просто предусмотрите частное питание для первой ступени, чтобы избежать колебаний обратной связи на основе VDD.

Вот что предлагает Signal Chain Explorer: 3 этапа усиления операционных усилителей, 40 дБ/этап с использованием моделей по умолчанию (UGBW = 1 МГц); вход 1 мкВПП; Мне пришлось отредактировать первый операционный усилитель, уменьшив его плотность шума с 4 нановольт (1 кОм) до 0,5 нановольт (16 Ом); Я также отредактировал резисторы регулировки усиления первого каскада: 5 Ом и 495 Ом. Результат? 18 дБ SNR для входа 1 мкВпик.введите описание изображения здесь

Нет---это слишком просто. Давайте использовать 2 стадии биполярного. Добиваемся 1000*1000 прироста.

схематический

смоделируйте эту схему - схема, созданная с помощью CircuitLab