В общей теории относительности идея ковариантной производной на многообразии очень важна и обычно определяется набором аксиом:
Позволять быть гладким многообразием. Ковариантная производная на это карта который принимает векторное поле и -тензоры для всех производство тензор и удовлетворительно:
- когда ,
- и так же для всех -тензор
Я знаю, что в более общем контексте эту ковариантную производную можно восстановить из соединения на основном расслоении.
Я говорю не об этом. Я говорю здесь именно об этом определении ковариантной производной, которое обычно используется в общей теории относительности.
Проблема в том, что ковариантная производная очень важна в контексте общей теории относительности, однако определение с этими аксиомами слишком абстрактно.
Можем ли мы каким-либо образом обосновать это определение в контексте общей теории относительности? Или, в более общем смысле, есть ли способ обосновать это определение ковариантной производной с точки зрения физики?
Опять же, я мог бы просто принять аксиомы и двигаться дальше, но, поскольку это слишком абстрактно, и я имею дело с физикой, а не с математикой, я хотел бы получить немного мотивации и понимания, если это возможно.
Конечно. Позвольте мне начать с истории до этого момента (когда-нибудь я запишу ее в каком-нибудь центральном месте), чтобы мы могли иметь примеры, расставленные по всему тексту.
Итак, вы начинаете с набора объектов и мы на самом деле не собираемся заглядывать в структуру самих объектов (за исключением, возможно, равенства), поэтому мы просто называем их «точками», чтобы показать, что нас не волнует их внутренняя структура. Как и в теории категорий, мы будем рассматривать их как черные ящики и описывать их структуру, добавляя набор функций: в данном случае скалярные поля который мы хотим сделать «гладким». Чтобы получить эту гладкость, мы переинтерпретируем функции как функции применяя их «точечно». Позвольте мне обозначить эту двойственную природу квадратными скобками (сторона скалярного поля) и круглыми скобками (сторона функции), формально
Итак, у нас есть набор точек с другим набором гладких скалярных полей, заданных над ним, и закрыто под -функторы для всех . Они на самом деле делают массу работы заранее; и являются 2-функторами, поэтому согласно нашей аксиоме закрыто под -функторы (они отображают ) это разрешенные точечные операции над скалярными полями. Еще лучше: определите, что подмножество замкнут , если он является ядром для поля в или открытым, если его дополнение замкнуто, и у вас есть естественная топология: точечное умножение дает операцию объединения, точечное сложение квадратов дает пересечение, и вы можете без проблем разрешить бесконечные пересечения и конечные объединения. Используя функции рельефа, вы можете даже доказать, что все скалярные поля в являются непрерывными отображениями в на этой топологии. В качестве примера этого теоретического пункта: теперь мы можем потребовать, чтобы пространство было связным, что в топологии означает, что «все пространство не является объединением двух непересекающихся открытых множеств». Возвращаясь к определениям, мы сначала перепишем утверждение до его дополнения; если с непересекающийся быть открытым означает закрыто. Так что это эквивалентно не объединение двух непересекающихся замкнутых множеств. Итак, аксиоматически мы говорим, что если это нулевое поле (которое должно существовать, потому что это -функтор!) то есть какой-то смысл такой, что И это хорошее свойство, потому что в этих скалярных полях отсутствует это важнейшее свойство, к которому мы так привыкли: подразумевает либо или Каждое из скалярных полей может быть нулевым на непересекающихся подмножествах, чтобы умножаться вместе, образуя ноль. Но пока пространство связано, по крайней мере, мы восстанавливаем что-то похожее.
Итак, для реальных примеров скалярных полей на поверхности сферы точки на самом деле но мы отказываемся заглянуть внутрь напрямую. Вместо этого мы начинаем со скалярных полей которые извлекают эти компоненты и закрывают гладкие функции, чтобы получить полный набор скалярных полей. С другой стороны, скажем, (азимутальный угол — полярный угол, я думаю, это нормально) не является действительным гладким скалярным полем, потому что у него есть эта неприятная неоднородность, которая уводит нас от очевидной топологии, которую мы хотели бы использовать. Вы также можете видеть, что "локально" это будет выглядеть так и будут иметь аналогичные открытые наборы. Мы могли бы сделать то же самое с тором и т. д.
Затем у нас есть одна из наших самых важных аксиом: утверждение, что вокруг любой точки существует открытое множество, содержащее и скалярные поля, которые могут (а) использоваться для различения точек в этом открытом наборе и (б) могут использоваться для расширения скалярных полей, так что каждое скалярное поле в этом открытом наборе может быть расширено как -функтор координатных полей. Итак, опять же, на сфере мы можем использовать поля как наши координаты в северном или южном полушариях (которые являются открытыми наборами, если мы не включаем экватор: используйте функцию рельефа на увидеть это). Точно так же у нас есть перекрывающиеся полушария относительно и которые не включают их соответствующие «экваторы». Однако даже если какая-то точка находится на двух из этих экваторов, мы можем видеть, что ее нет на третьем: так что каждая точка имеет открытый набор и два поля «координаты», и в этом подмножестве все скалярные поля могут быть записаны как функции или что у тебя. Это означает а сфера двумерная. Очень просто.
Теперь введем векторные поля, которые представляют собой множество подчиняется закону Лейбница. Сказать является частной производной от (которая является некоторой функцией в , ум) по отношению к его аргумент. Этот закон Лейбница гласит, что для любого -функтор
Если у нас есть векторные поля, у нас есть ковекторные поля (назовем это ), линейные карты . и тогда мы можем представить тензорные поля как полилинейные отображения из Назовите это для натуральных чисел Теперь есть геометрическая версия нотации Эйнштейна, где мы просто создаем множество копий этого тензорного пространства. и аннотировать его новой буквой плюс отдельные верхние символы и взаимно различные нижние символы. Мы также аннотируем всех резидентов одного из этих пространств соответствующими символами, и нам может потребоваться указать, чтобы эти символы находились в порядке, зависящем от тензора (т. е. не все тензоры симметричны). Внешние продукты определяются очевидным образом, например, карта из . Насколько я помню, нам нужна дополнительная аксиома, утверждающая, что каждый тензор, скажем, можно записать в виде суммы внешних произведений членов в но это (если не изменяет память) видимо следствие паракомпактности или существования метрики или еще чего-то. Дело в том, что каждый тензор официально является «любой полилинейной картой из векторов и ковекторов в скаляры», но тайно является конечной суммой внешних произведений векторов и ковекторов.
В любом случае, причина, по которой эта последняя аксиома важна, заключается в том, что она позволяет выполнять сокращения индексов : разложить в терминах конечной суммы, тогда вы можете применить одно из условий к соответствующему сроку чтобы получить скалярное поле. И, как вы можете ожидать, мы можем символизировать это, повторяя индекс между верхним и нижним векторами, чтобы сказать «они соединяются». Так живет в и имеет чисто геометрическую интерпретацию, здесь нет «неявного суммирования» «компонент».
На данный момент у нас также есть автоматическая операция градиента на скалярных полях; отображает любое скалярное поле в ковекторное поле. Мы также вводим метрический тензор, специальный и тензор, который стягивается к тождеству тензор и показать особую биекцию между ковекторными полями и векторными полями.
ОК, так как у нас есть вся эта история, очевидный вопрос заключается в том, существует ли осмысленное обобщение к векторам, поскольку он однозначно определен для скаляров. И ответ: «Ну, это не так уж уникально, но да, во многих случаях это существует».
Но мы в основном только начинаем с аксиом. Например, мы начинаем с быть значимым, а затем мы хотим обобщить до с правилом Лейбница, и мы находим, что это должно быть Так же мы хотим как прямое требование линейности. Наше определение его действия на ковекторы также очень простое; напомню, что сокращение является скаляром, и мы ожидаем Поскольку первый и второй члены уже определены, мы просто определим действие на ковектор как разность этих двух членов, и мы получаем это уравнение бесплатно. Итак, мы предполагаем, что некоторое обобщение этой формы существует.
Все ваши уравнения касаются этого оператора Связь легко увидеть, если вспомнить, что определяется как по геометрическому определению ковектора Ваше выражение поэтому эквивалентно и мы обобщаем для работы с векторами, поэтому имеет смысл, что тогда также обобщается. Ваша первая аксиома: «необобщенная форма все еще должна делать то, что делает скалярный градиент, пожалуйста, не связывайтесь с этим». Ваша вторая аксиома — «это линейный оператор», третья — «это оператор Лейбница», а четвертая — просто прямое следствие того, что предварительный множитель и операция сжатия также линейны на или другими словами карты
Основная причина того, что это не уникально в целом, также не слишком сложна для понимания. Параллельная передача скаляра имеет смысл; если вы идете в направлении градиента, он увеличивается, в противоположном направлении он уменьшается, и это просто число в конце дня, поэтому вы можете поверить, что всегда получаете одно и то же число, независимо от того, как вы идете. . Но параллельный перенос вектора сложнее. Предположим, я нахожусь в Канзас-Сити в США, смотрю на север и вытягиваю правую руку в виде вектора, указывающего на восток. Теперь я иду к Северному полюсу, указываю на Юг (конечно, я иду, все направления на юг от Северного полюса), примерно в сторону Мадрида. Но предположим, что я сначала делаю шаг в сторону на восток, я должен более или менее натолкнуться на Вашингтон, округ Колумбия: теперь, если я пойду на север к полюсу, я укажу вместо этого на Рим. Путь, который вы выбираете, имеет значение, и вы можете примерно предсказать, что он включает 3 тензорных индекса; там что-то есть о том, что «вы принимаете в качестве входных данных векторное поле и направление (которое также является векторным полем) и даете в качестве вывода новое векторное поле», которое, кажется, связывает 3 разных векторных поля, 2 как вход и 1 как выход. Другими словами, это выглядит как -тензорное поле.
Давайте сделаем это формально с помощью геометрии. Предположим, у вас есть два разных подключения и . Сформируйте разностный оператор между ними,
Затем, конечно, мы используем эту свободу, чтобы получить случай, когда и где — метрический тензор, и это связность Леви-Чивиты. Но это уже очень длинный ответ. Я дам вам подсказку: определите и используйте немного более интересную версию приведенного выше аргумента, чтобы доказать, что на самом деле это вывод скаляров и, следовательно, принимает форму , этот является тензором кручения. Что меняет наше соединение добавлением делать с этим?
Нетехнический или удовлетворительный (даже для меня), но простой подход состоит в том, чтобы сначала рассмотреть физические законы в плоском пространстве-времени. Там производная по направлению тензора (с компонентами вдоль векторного поля (с компонентами ) имеет компоненты . В плоском пространстве-времени этот член преобразуется как тензор при преобразованиях координат, которые оставляют инвариантным метрический тензор (Минковского), которые являются преобразованиями Лоренца. Они линейны, т.е. являются константами. Затем
Если вы теперь заинтересованы в написании подобных термов, но сохраняющих тензорный характер при общих преобразованиях, которые оставляют общий метрический тензор инвариантным, вам нужен новый объект (назовем его ) такой, что:
(i) восстанавливает обычную производную в локально-инерциальной системе отсчета, поскольку мы хотим, чтобы общая теория относительности была верна в негравитационных ситуациях, и
(ii) удовлетворяет в любой системе отсчета тем же свойствам, что и в локально инерциальной системе отсчета. Это подразумевало бы линейность и правило Лейбница, обычные вещи для производных.
Четко не может быть равным в любой системе отсчета, так как при общих преобразованиях координат компоненты зависят от координат, и (1) больше не верно. Ты можешь написать , где зависит от метрического тензора, и в плоском пространстве-времени. Теперь я предполагаю, что наложение совместимости этой производной с метрическим тензором дало бы это связаны с обычными символами Кристофера для связи Леви-Чивиты, и вы сможете выполнить обратный процесс и получить свое свободное от координат и независимое от метрического тензора определение для направленной ковариантной производной, которую вы дали в своем вопросе.
Подводя итог, я бы сказал, что вам просто нужно что-то, что ведет себя как производная, но что ее действие на тензор также является тензором, поскольку с обычной производной этого не происходит.
Примечание. Когда я изначально писал этот пост, я неправильно понял вас и в основном упустил из виду, что мотивация является «физической». Однако я потратил очень много времени на написание этого ответа и не собираюсь его удалять. Надеюсь, это будет полезно для вас, но если не для вас, то для кого-то еще, кто найдет этот вопрос. С учетом сказанного я добавил в конце раздел, в котором приводятся «физические» мотивы для ковариантной производной. Этот раздел выделен жирным шрифтом в начале предложения.
Мотивация состоит в том, что когда вы переходите к многообразию вместо векторного пространства, вы теряете способность дифференцировать тензорные поля.
Если некоторое тензорное поле с компонентами , то производная не преобразуется как тензор. Причины, почему это так, обычно обсуждаются в литературе.
Если мы хотим пропустить какое-либо аксиоматическое определение дифференциального оператора, у нас все еще есть несколько вариантов. Один из них заключается в том, чтобы понять, что причина, по которой «обычная дифференциация» терпит неудачу, заключается в том, что вектор, расположенный в является элементом и вектор, расположенный в является элементом , это отдельные векторные пространства, сравнение невозможно.
Затем мы вводим понятие параллельного транспорта. Если — гладкая кривая, то пусть быть параллельной транспортной картой, называемой параллельным пропагатором, связанным с кривой. Он перемещает вектор, расположенный в к .
Здесь нужна некоторая аксиоматика:
Получив это, мы можем определить следующее: Если представляет собой векторное поле вдоль (строго говоря, это «сечение» вида такой, что ), то мы определяем ковариантную производную вдоль в как
Чтобы явно оценить эту карту, нам нужно внести некоторые изменения.
Мы позволим быть локальной картой в окрестностях , а координаты обозначим как . С является линейным преобразованием между конечномерными пространствами, его можно представить в виде матрицы при условии, что базы выбраны в обоих векторных пространствах. Локальная карта дает нам выбранную основу, поэтому мы имеем для , . Чтобы убедиться, что отображает инвариантные векторы в инвариантные векторы, нам нужен верхний индекс на матричное представление для преобразования в виде вектора в а нижний индекс преобразовать как вектор в , так по существу является двухточечным тензором.
Фактические модификации происходят сейчас. Вместо того, чтобы рассматривать одну кривую , рассмотрим векторное поле и его течение , где это инструкция двигаться по интегральной кривой, которая начинается в на период времени .
Позволять обозначать , где представляет собой интегральную кривую, которая начинается в . На самом деле у нас есть следующие зависимости: на самом деле составная функция в пути , так что у нас есть . Если является матричным представлением, мы имеем
Это сбивает с толку, потому что почти все обозначения для производных в некотором роде ужасны, но поток всегда тождество для , так что мы на самом деле имеем , поэтому первая производная может быть записана как , что совершенно ужасно, потому что это не то, что на самом деле напрямую зависит от позиций, но для удобочитаемости я напишу это так. У нас есть, то
Все это нужно, чтобы, наконец, иметь возможность иметь, для который не расширен для определения в подходящей открытой области, а не только вдоль кривой,
Мы хотим выразить это в терминах локальных координат. Прежде чем мы это сделаем, заметим, что если это -зависимая матрица, обратимая для всех песок , то имеем
Также мы априори называем как .
Выражения локальных координат следуют как
Из этого выражения мы можем прочитать все свойства ковариантной производной, например, что она тензорна в и что это все еще имеет смысл, если определяется только вдоль кривой.
Замечания: Как видите, этот подход гораздо более трудоемок, чем определение оператора алгебраического дифференциала. И мое заявление о том, что на самом деле несколько сомнительно. Это правдоподобно, но я, честно говоря, не знаю, как сделать этот вывод без этого «сомнительного» утверждения или даже сделать это без координат. Фактические функциональные зависимости параллельного распространителя чрезвычайно нетривиальны.
Но у этого подхода есть то преимущество, что мы начинаем с легко мотивируемой концепции параллельного переноса векторов вдоль кривых, и в конце хорошо получается знакомая ковариантная производная.
Если вас интересует мотивация ковариантной производной Леви-Чивиты , мы можем добавить к списку требований параллельного переноса, что параллельный перенос сохраняет длины и углы векторов. Когда вы определяете ковариантные производные тензоров произвольного ранга, это требование, естественно, означает, что метрический тензор переносится параллельно по всем кривым. Однако отсутствие кручения не может быть легко мотивировано.
Однако эта мотивация не была основана на какой-либо физике, вместо этого я попытался сделать ковариантную производную интуитивно понятной, исходя из того факта, что мы можем параллельно транспортировать векторы в евклидовом пространстве, но не в многообразиях в целом. Так что мы, зная, какими свойствами обладает старый добрый параллельный транспорт, ставим его вручную.
Если вам нужна действительно физическая мотивация , лучшее, что мы можем сделать, — это следовать Вайнбергу и основывать ОТО на принципе эквивалентности, а не на римановой геометрии. На самом деле они эквивалентны, потому что принцип эквивалентности римановы нормальные координаты Риманова геометрия и последствия двусторонние.
По принципу эквивалентности примерно при любом пространственно-временному событию можно задать координаты, для которых в а в его бесконечно малой окрестности первого порядка действуют законы специальной теории относительности.
Позволять быть эти специальные координаты, и пусть — вполне общие координаты. Кроме того, пусть штрихованные индексы относятся к специальной системе координат, а нештрихованные индексы относятся к общей системе координат.
Если есть некоторое векторное поле, то выражение справедливо в специальной теории относительности и содержит только первые производные, поэтому давайте интерпретируем это выражение как сделанное в специальной системе координат в точке , и запишем это как . По принципу эквивалентности это выражение справедливо.
Введем обозначение для штрихованных индексов, и пусть означает тензор - преобразованную форму этого выражения в общей системе координат, поэтому
Мы хотели бы связать выражение к частным производным от в общей системе координат .
Обратите внимание, что
Что мы получаем
Примечания:
Все выражения оцениваются в выбранной точке , поскольку эти специальные координаты являются «специальными релятивистскими» только в этой точке.
Это рассуждение более «физическое», потому что принцип эквивалентности, по сути, является основным физическим постулатом ОТО.
Этот подход имеет то преимущество, что ковариантная производная сразу не имеет кручения и совместима с метрикой, однако у него есть недостаток, заключающийся в том, что не существует выражения в закрытой форме для символов Кристоффеля, которые ссылаются только на общую систему координат. Это можно исправить, используя условие совместимости метрик, чтобы вывести обычное выражение для .