Двойной интегратор: максимально быстрое согласование скорости и положения с ограниченным количеством доступной силы

Если тело массой м начинается с позиции Икс 0 со скоростью в 0 и испытывает силу, которая изменяется в зависимости от времени ф ( т ) (и мы игнорируем гравитацию, трение и все остальное, что может усложнить дело), ​​то мы можем вычислить положение и скорость тела в любой момент времени:

в ( т )   "="   0 т ф ( т ) м г т + в 0 ,
и
Икс ( т ) "=" 0 т 0 т ф ( т ) м г т + в 0 г т + Икс 0 .

Теперь, если у нас есть другое тело той же массы, которое начинается в положении Икс ^ 0 со скоростью в ^ 0 и мы хотим применить силу, ф ^ ( т ) , чтобы как можно быстрее согласовать траекторию (положение и скорость) первого тела с учетом ограничения, которое | ф ^ ( т ) | ф м а Икс .

Какие инструменты мне нужны, чтобы решить эту проблему?

Ответы (2)

Давайте переформулируем вопрос (v1) как одномерную кинематическую задачу оптимального управления мышью и кошкой . Массы не имеют отношения к кинематической задаче и, следовательно,

м   "="   1.

1) Рассмотрим сначала кота. Задача кота — как можно быстрее определить положение и скорость (!) мыши. Кот может ускориться

| а |     а 0 ,

где а 0 > 0 это максимальное ускорение. (Обновление: задача такого типа в теории оптимального управления известна как двойной интегратор . См. также учебник HP Geering, Optimal Control with Engineering Applications, Springer, 2007, Section 2.1.4.) Мы хотим показать, что в идеале , существует оптимальная стратегия, при которой ускорение кота всегда либо максимально допустимое, либо его нет,

а ( т )   е   { а 0 , 0 , а 0 } ,

т. е. управляющий параметр а обладает свойством взрыва .

Определим кинетическую энергию со знаком

К   "="   м в | в | 2   "="   в | в | 2   "="   Т   с г н ( в ) , Т   "="   м в 2 2   "="   в 2 2   "="   | К | .

Удобно рассматривать а ( Икс , К ) система координат. Его можно рассматривать как конфигурационное пространство (или фазовое пространство) системы, поскольку карта в К является биекцией: р р . В частности, можно построить траектории кошки и мыши в виде графика. ( Икс , К ) диаграмма. Из теоремы о работе энергии наклон траектории равен (с точностью до знака) ускорению

а   "="   м а   "="   г Т г Икс   "="   г К г Икс с г н ( в ) .

Таким образом, кошка в исходном состоянии ( Икс 0 , К 0 ) должен двигаться внутри конуса С ( Икс 0 , К 0 ) как показано красным на рисунках 1, 2 и 3. Кошка может выйти из конуса С ( Икс 0 , К 0 ) сквозь Икс -ось К "=" 0 только, и повернуться, чтобы достичь конечного состояния ( Икс , К ) вне конуса.

Рис. 1. Случай К 0 > 0 . Красная область обозначает конус С ( Икс 0 , К 0 ) . Пути, ориентированные черным цветом, указывают оптимальные стратегии для достижения кошкой трех различных конечных состояний. ( Икс , К ) .

Рисунок 2. Конус С ( Икс 0 , К 0 ) отмечено красным на корпусе К 0 "=" 0 .

Рисунок 3. Конус С ( Икс 0 , К 0 ) отмечено красным на корпусе К 0 < 0 .

В математических деталях конус С ( Икс 0 , К 0 ) является

С ( Икс 0 , К 0 )   "="   { С + ( Икс 0 , К 0 ) ф о р К 0 > 0 , С + ( Икс 0 , К 0 ) С ( Икс 0 , К 0 ) ф о р К 0 "=" 0 , С ( Икс 0 , К 0 ) ф о р К 0 < 0 ,

где мы определили положительные и отрицательные конусы как

С ± ( Икс 0 , К 0 )   "="   { ( Икс , К ) е р 2 ± а 0 ( Икс Икс 0 ) | К К 0 | ± К 0 } .

Чтобы кошка вышла из состояния ( Икс 0 , К 0 ) констатировать ( Икс , К ) , существует оптимальная стратегия, которая приводит к минимальным затратам времени т ( Икс , К ; Икс 0 , К 0 ) , что мы и попытались обозначить на рисунке 1. Грубо говоря, кошка должна выбрать маршрут как можно Икс -ось К "=" 0 насколько это возможно, так как наиболее затратно по времени иметь малую скорость. Если конечное состояние ( Икс , К ) е С ( Икс 0 , К 0 ) находится в конусе, то необходимы два участка (один с максимальным ускорением и один с максимальным торможением). Несложно подсчитать, что минимальное время т ( Икс , К ; Икс 0 , К 0 ) для ( Икс , К ) е С ( Икс 0 , К 0 ) является

т ( Икс , К ; Икс 0 , К 0 )   "="   2 | К | + | К 0 | + а 0 | Икс Икс 0 | 2 | К | 2 | К 0 | а 0 .

Есть аналогичные выражения для т ( Икс , К ; Икс 0 , К 0 ) в различных случаях, когда ( Икс , К ) С ( Икс 0 , К 0 ) но с большим количеством ножек/терминов, которые мы оставим в качестве упражнения для определения.

2) Далее рассмотрим мышь. Предположим, что полная будущая траектория мыши т Икс 1 ( т ) , т 0 , известно всезнающему коту. (Есть и другие возможные правила игры, но эта установка кажется наиболее близкой к тому, что нужно OP.) Пусть скорость и кинетическая энергия мыши со знаком обозначены

в 1 ( т )   "="   г Икс 1 г т а н г К 1 ( т )   "="   в 1 ( т ) | в 1 ( т ) | 2 ,

соответственно. Для каждого будущего времени т 0 , определите разницу

Δ т ( т )   "="   т ( Икс 1 ( т ) , К 1 ( т ) ; Икс 0 , К 0 ) т

между моментами, когда кошка могла быть в состоянии мыши ( Икс 1 ( т ) , К 1 ( т ) ) (если кошка убежала), а время т мышь была бы там. Если два начальных состояния кошки и мыши различны,

( Икс 0 , К 0 )     ( Икс 1 ( т "=" 0 ) , К 1 ( т "=" 0 ) ) ,

затем Δ т ( т "=" 0 ) > 0 . Первое мгновение т * что кошка может получить ( Икс , К ) состояние мыши - это первый раз, когда Δ т ( т ) становится неположительным,

т *   "="   инф { т е р + Δ т ( т ) 0 } .

Это ответ на то, как быстро кошка может определить положение и скорость мыши.

Идеальный. Спасибо. Кажется неинтуитивным, что стратегия «взрыва» была бы оптимальной, но то, что вы проиллюстрировали, имеет смысл. Также интересно, как критический коэффициент демпфирования ζ "=" 1 встраивается в конфигурационное пространство в виде наклона ± 1 .

На самом деле вы можете найти здесь две физические аналогии, которые могут объяснить мой ответ.

  1. В пружине возвращающая сила пропорциональна отклонению от положения равновесия. С некоторым демпфированием по пути он в конечном итоге займет исходное положение.

  2. В динамике частиц (рассмотрим сопротивление Стокса) сила сопротивления частицы в вязкой жидкости пропорциональна разнице скоростей между частицей и жидкостью. В конце концов, частица приспособится к скорости жидкости.

Если объединить обе идеи, то сила

ф ^ ( т ) "=" ф ( т ) + α ( Икс ^ ( т ) Икс ( т ) ) + β ( в ^ ( т ) в ( т ) )

в принципе должен делать то, что вы хотите (конечно, вы всегда можете добавить свое ограничение в качестве ограничителя). На самом деле член разности скоростей будет действовать как демпфирующий член для члена разности положений.

Ваш вопрос также включает в себя как можно быстрее . Это можно сделать, грамотно подобрав коэффициенты α и β . Они могут выбираться динамически: например, быть функцией разницы скорости и положения. Для этого следует ознакомиться с такими терминами, как критические времена затухания и релаксации.