Помимо научного интереса к проблеме ходьбы, отмечает Юэн Дантек, аспирант робототехники из высшей инженерной школы INSA Toulouse, развитие робототехники «с ногами» мотивировано несколькими многообещающими перспективами: например, старение населения в богатых странах подпитывает идею роботизированной медпомощи на дому; некоторые тяжелые или опасные производственные задачи могут быть возложены на шагающих роботов, более универсальных и более автономных; наконец, для спасения людей в районах бедствия более эффективны проворные двуногие роботы.
Чтобы развиваться в среде, предназначенной для людей (с дверями, лестницами, перилами и т. д.), роботам лучше стать прямоходящими, как все мы.
Но, несмотря на достигнутые достижения в области инженерии, шагающие роботы все еще редки. Это выглядит странно, учитывая захватывающие дух достижения в смежных областях, таких как языковые возможности искусственного интеллекта. Так почему же инженерам так трудно научить робота ходить?
Дело в том, что прямохождение, инстинктивное для многих живых существ, представляет собой сложный процесс с математической точки зрения.
Для здоровых людей ходьба является естественным процессом, которому практически не уделяется внимания. Первые шаги новорожденный обычно делает между 10 и 18 месяцами, задолго до того, как он сможет понять основную механику своих движений. Умение ходить на двух ногах – навык, которому все мы учимся в младенчестве практически в одиночку, подражая окружающим, применяя метод проб и ошибок. В случае четвероногих животных все кажется еще проще, так как большинство из них способны ходить, прыгать и даже бегать уже через несколько часов после рождения.
Однако прямохождение человека представляет собой чрезвычайно сложную с математической точки зрения задачу, предполагающую управление в реальном времени примерно 360 суставами и 640 мышцами с учетом центра тяжести, баланса, точек опоры и данных от органов зрения.
И несмотря на то, что ходячие роботы очень хорошо передвигаются в лабораториях, где экспериментальная среда исследователями четко контролируется, способности роботов к прямохождению еще недостаточно надежны, чтобы они могли справляться с хаосом и непредсказуемостью реального мира.
Существует несколько методов обучения робота прямохождению, рассмотренных Юэном Дантеком далее.
Разделение проблемы на две составляющие
Первые убедительные результаты по двуногому передвижению роботов были получены путем разделения проблемы на планирование и на контроль.
Во-первых, траектория движения, которую необходимо выполнить, рассчитывается на основе методов оптимизации, минимизирующих затраты (например, время в пути из точки А в точку Б) при определенных ограничениях (например, не падать). На втором этапе происходит выполнение расчетной траектории и отслеживание, чтобы робот следовал по заданному маршруту даже в случае внешних помех или ошибок.
На заре робототехники не было компьютеров, достаточно мощных для полного планирования в режиме реального времени – способности, имеющейся у всех людей. Поэтому для генерации определенных сложных движений алгоритмам оптимизации часто требовалось несколько секунд и даже несколько минут, для чего весь процесс ходьбы для робота нужно было планировать заранее.
Планирование движений подобно человеку
Недостаток этого подхода в том, что он не позволяет роботу изменить поведение в случае внезапной трансформации окружающей среды (например, появление перед ним человека или падение некого объекта на пути движения): робот будет стараться следовать рассчитанной траектории, несмотря ни на что.
Сейчас исследователям известно, что во время движения люди планируют только два-три следующих шага, когда оценивают свою траекторию (это занимает одну-две секунды).
Поэтому робототехники упростили задачу планирования, включив в нее лишь очень близкие временные горизонты, чтобы решить вопросы планирования следующих шагов максимально быстро. Этот метод, называемый «прогностическим управлением», состоит в вычислении желаемой траектории для робота, в которой будет использоваться только первая точка, например, один шаг. После того, как эта точка будет достигнута, новая желаемая траектория пересчитывается с учетом свежей информации, доступной роботу – данные приборов видеонаблюдения, внутренних датчиков и содержание инструкций, что в сумме может указывать, например, на появление препятствия.
За последние несколько десятилетий вычислительная мощность компьютеров значительно возросла, что позволило реализовать более сложные модели. Теперь робототехники могут учитывать полную динамику тела робота внутри прогнозируемого горизонта событий. В основе впечатляющей акробатики робота «Атлас» (на фото выше), разработанного Boston Dynamics, лежат именно методы прогностического управления.
Методика обучения с подкреплением
Несмотря на свои преимущества, прогностическое управление по-прежнему ограничено рамками передвижения в реальном времени и большим числом возникающих в связи с этим проблем.
Поэтому робототехники в последнее время больше интересуются «обучением с подкреплением», стараясь применить этот метод для управления походкой робота. Идея состоит в том, чтобы задать определенную функцию вознаграждения (например, достижение объекта за закрытой дверью) и позволить роботу самому отрабатывать движения в симуляторе до тех пор, пока он методом проб и ошибок не найдет модель ходьбы, которая приблизит его к вознаграждению.
Этот подход во многом вдохновлен тем, как дети учатся ходить – сначала с помощью случайных движений, а затем все более и более точно, пока их движения не станут естественными и легкими. Однако обучение с подкреплением остается дорогостоящим методом, поскольку требует много времени на машинное обучение, а его результаты в некоторых случаях трудно перенести в реальность. Это иллюстрируется очень неустойчивой походкой, просчитанной гугловским ИИ DeepMind, научившемся ходить самостоятельно (на скриншоте выше): полученное решение хорошо работает в смоделированной виртуальной среде, но наверняка потерпит неудачу, если будет реализовано в реальном роботе.
Разработчики некоторых роботов стараются сочетать прогностический контроль и обучение с подкреплением: идея состоит в том, чтобы в автономном режиме создать память движений, которые могли бы использоваться контролером робота, чтобы ускорить исполнение действия, если возникает ситуация, требующая быстрой и сложной реакции, к примеру, шаг в сторону, чтобы избежать столкновения с автомобилем. В этом контексте прогностический контроль служит для адаптации к текущим условиям ранее приобретенного и усвоенного движения, которое больше незачем просчитывать с нуля.
Эта диалектика между адаптацией и памятью очень напоминает функционирование человека, которому требуется все меньше времени для выполнения задачи, многократно отработанной им в прошлом.