Новые горизонты взаимодействия человека и робота

Новые горизонты взаимодействия человека и робота

За последнее десятилетие общество становится свидетелем знаменательного прогресса во взаимодействии человека и робота, которое теперь стало обычным явлением в повседневной жизни. От устройств, помогающих с домашними делами, до коллаборативных роботов, работающих рядом с людьми на производственных линиях, такое взаимодействие оказывает значительное влияние на человеческую жизнь. Ключом к исследованиям в этой области является понимание природы интерактивности и социального поведения между искусственным разумом механизмов и людьми, целью которого является наделение роботов способностью оценивать намерения людей, для более эффективного выполнения задач, отвечающих требованиям пользователей.

Появление искусственного интеллекта, а особенно больших языковых моделей (LLM - Large Language Models), открыло потенциал для решения давних проблем, благодаря замечательной способности их алгоритмов к рассуждению и, в некотором роде, генерации идей. Первоначально разработанные для текстовых задач, таких как перевод, теперь эти технологии применяются в робототехнике. Обладая здравым смыслом, они способны интерпретировать неоднозначный человеческий язык в конкретные ответы, а также обрабатывать мультимодальные входные данные и генерировать желаемый результат. Наделённые подобием человеческого здравого смысла, они способны интерпретировать неоднозначный человеческий язык в конкретные ответы, а также обрабатывать мультимодальные входные данные и генерировать желаемый результат. Применяемые методы необходимы для дальнейшего прогресса, и многие недавние исследования были сосредоточены на улучшении структуры модели, для повышения надёжности и эффективности. Время от времени появляются новые достижения, ведущие к разработке интеллектуальных систем взаимодействия и позволяющие роботам легче интегрироваться в человеческое общество.

Ранее применявшиеся традиционные методы контроля во взаимодействии людей и робототехники, пересматривается, в связи с бурным развитием искусственного интеллекта. В настоящее время проводится большой объём многогранных исследований, темой которых становятся различные аспекты - от базовых методов до этики высокого уровня. Применение роботов в различных областях деятельности заставляет учёных изучать, помимо прочего, политику осуществления мониторинга действий человека при управлении роботами, корректность и безопасность действий механизмов при выполнении повседневных задач, совместную работу людей и промышленных роботов в опасных и замкнутых пространствах, непосредственное общение роботов с людьми, задействование устройств для оказания помощи тем, кто в ней нуждается. Помимо различных применений, таксономию взаимодействия можно разграничить на подгруппы, в соответствии с различными подходами, различающимися взаимодействием с человеком.

Взаимодействия без посредника, которые называются физическими, представляют собой прямой и интуитивно понятный подход, который позволяет людям и роботам эффективно общаться, а также может предоставлять огромное количество тактильной информации. На ранних стадиях развития робототехники, когда роботам не хватало тактильных ощущений, традиционная обратная связь обычно достигалась с помощью носимых устройств (датчиков), которые позволяли воспринимать величину усилия. Был даже разработан своего рода экзоскелет, который мог определять крутящий момент, прикладываемый пользователем, и его направление, так что устройство допускало свободное или ограниченное перемещение руки манипулятора и обеспечивало обратную связь усилий при мультимодальном контакте. Далее развитие технологий виртуальной реальности (VR) адаптировало эти устройства к виртуальным средам, которые позволяют настраивать алгоритмы генерации движения, позволяющие роботу находить оптимальный путь в виртуальной среде с препятствиями, обеспечивая тактильную обратную связь для восприятия человеком. В сочетании с применением виртуальной реальности, была разработана система, использующая скрытые марковские модели, которая позволяет человеку физически пожимать руку виртуальному визави, похожему на реального, через тактильный интерфейс, передающий мультимодальные сигналы обратной связи.

В то время как внедрение виртуальной реальности значительно снижает сложность моделирования и снимает ограничения, существующие в реальности, такие проблемы, как скорость рендеринга устройств, могут задержать реагирование агентов к определённым целям, вызывая несоответствия между визуальной и тактильной информацией пользователя, что ухудшает восприятие. Чтобы решить эту проблему были представлены стратегии движения, использующие направление взгляда глаз и руки пользователя для прогнозирования движения, что значительно сокращает время обнаружения входных данных. Вместо того, чтобы полагаться на носимые устройства, другим успешным подходом является прямое взаимодействие с мобильными роботами. Распространённым применением этой технологии является сотрудничество между людьми и коллаборативными роботами. При этом, основное внимание уделяется интерпретации намерений человека.

Подход управления посредством телеоперации использует преимущества концепции косвенного управления роботами, обычно путём удалённой отправки команд через консоль с функциональными кнопками, что выгодно, поскольку позволяет роботам работать во взрывоопасных зонах и труднодоступных местах, недоступных для человека. Однако его эффективность во многом зависит от мастерства и компетентности оператора; что ещё более важно - этот метод работы не соответствует привычкам человека, поскольку ему не хватает естественного языка тела. Чтобы решить эту проблему, техники разработали манипулятор, который может управляться движением человеческой конечности (если на неё одевается специальная перчатка с инерционными датчиками положения в трёхмерном пространстве). Кроме того, в сочетании с алгоритмом совместного импеданса этот манипулятор способен обнаруживать контакт с объектом, что позволяет безопасно взаимодействовать с неструктурированной средой. Но и такое взаимодействие порождает проблему: подчинённый робот должен быть интегрирован в сенсорно-моторную среду оператора, как если бы он был продолжением/дубликатом его тела. Однако размеры двух пространств могут сильно отличаться, что существенно ограничивает его практическое применение.


Диалог действует как естественный способ человеческого общения, а его применение к взаимодействию способствует упрощённой интеграции роботов в человеческое общество. Однако проблемы не ограничиваются необходимостью лингвистического понимания того, как действует искусственный интеллект в диалоге, и практических знаний о том, как сотрудничать при выполнении задач, но также робот должен быть способен интерпретировать и генерировать поведение, которое демонстрирует намерение поддерживать разговор или прекратить действие.

С этой целью важно разработать модель состояния участия для измерения участия в общении и методы структурирования поведения робота, позволяющего инициировать разговор на соответствующем расстоянии, а также поддерживать его. Это позволит роботу понимать общепринятые манеры общения, чтобы сделать диалог размеренным и приемлемым, выполнять задачи навигации в многолюдной среде (например, ИИ может запрашивать дополнительные указания, когда путь заблокирован).

Система включает в себя интерактивный процесс, который ищет дополнительную информацию для различения описанных объектов. Это делается с использованием базы знаний, которые робот может понять из запроса и объектов в окружающей среде, которые робот знает. Но должна существовать вероятность другого поведения, если встречаются объекты, незнакомые данному юниту. В этом случае посылается дополнительный запрос в общий банк знаний (на специальные сервера, располагающиеся в крупных дата-центрах, где аккумулируется информация с множества роботизированных систем). Разработчики до сих пор не решили некоторую этическую проблему - должен ли робот сначала испрашивать разрешения у человека на отправку такого запроса? С одной стороны, ожидание разрешения затягивает время реагирования на проблему - это может стать критическим фактором в некоторых случаях. А с другой стороны, неизвестно к какому развитию событий могут привести несанкционированные запросы многих роботов. Помимо произнесения слов, люди, во время общения, также используют невербальные сигналы и интонации, а роботу необходимо понимать их значение, чтобы реагировать релевантным образом.

Несмотря на стремительное развитие, всё ещё остаётся множество проблем, которые предстоит решить. Ключевыми из них является степень, в которой робот берет на себя выполнение задач: для простых погрузочно-разгрузочных операций на складе роботы могут достичь полной автоматизации, но вмешательство человека необходимо в областях, требующих высокой точности, таких как аэрокосмическая промышленность и хирургия. Здесь существуют значительные риски. Более существенные риски могут возникнуть при автоматизации инфраструктуры, обеспечивающей жизненные процессы общества (энергетика, водоснабжение, транспорт, вооружение и т.п.).