Одним из распространенных критических замечаний по поводу глубокого обучения является то, что его алгоритмы обучения, обратное распространение ошибки (back-prop) не имеют биологически правдоподобной реализации, несмотря на свидетельства того, что что-то подобное происходит в мозгу. Реализация по умолчанию считается биологически неправдоподобной из-за того, что она зависит от двунаправленных синапсов. Тем не менее, было опубликовано много публикаций, показывающих реализации, которые должны быть правдоподобными. В частности, из раздела 2.2.2 обзора «На пути к интеграции глубокого обучения и нейронауки» и некоторых обсуждений, которые у меня были:
Можно ли что-то из этого реализовать в импульсных нейронах, способных масштабироваться до более чем двух слоев и работать ли на обычных тестах глубокого обучения, таких как MNIST или ImageNet?
Нет, алгоритм обратного упора (BP) не является биологически правдоподобным. Однако есть и другие средства, которые включают распространение ошибки через несколько слоев нейронов в сети с прямой связью, что является биологически правдоподобным. Но прежде чем мы оценим эти замены, давайте рассмотрим, почему обратное проп не является биологически правдоподобным [1]:
BP использует одни и те же веса для прямого и обратного распространения ошибок. Но синапсы однонаправлены.
Производная каждого нейрона используется для модуляции сигнала ошибки в BP. Кроме того, производная распространяется через каждый слой. Как эта производная вычисляется нейронами и затем распространяется, неясно.
Путь обратной связи BP линейный, но нейроны нелинейны.
Нейроны шипят. BP определяется для ставок.
Ожидается, что сигнал ошибки BP будет распространяться мгновенно. Расчеты и передача сигналов в мозгу не происходят мгновенно.
Большинство приложений BP полагаются на множество примеров с заданными метками, но откуда берутся эти метки?
Большинство замен на заднюю опору решают часть этих проблем, однако ни одна из них не решает их все. В статье « Добавление глубоких нейронных сетей: инженерные и биологические подходы к распознаванию объектов » с использованием NEF строится метод, который решает все проблемы, кроме целевой проблемы. Это означает, что нет заменителей BP, которые работали бы во всех случаях, когда применяется BP, что и следовало ожидать, учитывая, что это обычно происходит, когда подчеркивается биологическая достоверность.
Однако следует отметить, что в глубоком обучении задействовано нечто большее, чем обратное распространение через полностью подключенные сети. В частности, используется ряд различных архитектур, таких как сверточные нейронные сети (CNN) и рекуррентные нейронные сети (RNN).
Эта путаница между глубоким обучением, архитектурами нейронных сетей и обратной опорой является причиной того, что Янн ЛеКанн пытается заставить людей принять термин «дифференцируемые вычисления» вместо «глубокое обучение». В этот момент вопрос должен сместиться с «Является ли глубокое обучение биологически правдоподобным?» в «Какие аспекты дифференцируемых вычислений биологически правдоподобны?» На который гораздо сложнее ответить, но, по крайней мере, у нас есть лучший вопрос, чем когда мы начинали!
[1] Резюме из докторской диссертации Эрика Хансбергера « Добавление глубоких нейронных сетей: инженерные и биологические подходы к распознаванию объектов » .
[2] При этом существуют и другие способы изучения (предположительно) биологически правдоподобных рекуррентных весов нейронной сети ( обучение FORCE , Conceptors), однако они никоим образом не напоминают BPTT. Обсуждение этих методов выходит за рамки данного вопроса.
Я мало что знаю об этом, но все равно вот.
Я слышал, что причина, по которой обратное распространение не является биологически правдоподобным, заключается в том, что для распространения градиентов требуется глобальный контроль/координация. (проверить это было бы неплохо...)
Развязанный нейронный интерфейс , по-видимому, решает эту проблему, делая распространение градиента локальным (используя аппроксимацию конечных разностей для разрыва зависимости). Так что это может быть биологически правдоподобно, сохраняя при этом большую часть аромата обратного распространения.
Кроме того, на мой взгляд, двунаправленный аргумент не является большой проблемой. Как вы можете просто иметь другой нейрон/путь, выполняющий обратный шаг/распространение?
В то время как потенциал действия обратного распространения может предположительно вызывать изменения в весе пресинаптических связей, не существует простого механизма для распространения сигнала ошибки через несколько слоев нейронов, как в компьютерном алгоритме обратного распространения. Однако простые линейные топологии показали, что эффективные вычисления возможны за счет обратного распространения сигнала в этом биологическом смысле.
Из википедии https://en.wikipedia.org/wiki/Neural_backpropagation
Это вопрос времени и более точных исследований. Я уверен, что это главная подсказка
сдс
мемминг