Читаем без скачивания Антология машинного обучения. Важнейшие исследования в области ИИ за последние 60 лет - Терренс Дж. Сейновски
Шрифт:
Интервал:
Закладка:
Рис. 12.3. Род Брукс наблюдает за роботом Baxter, готовящимся поместить пробку в отверстие на столе. Это тот самый Род Брукс, которого я упоминал в рассказе о посещении Лаборатории искусственного интеллекта в МТИ в 1989 году. Он предприниматель, основавший компанию iRobot, производящую роботы-пылесосы Roomba, а также компанию Rethink, производящую роботов Baxter
Двуногие роботы неустойчивы, и им требуется сложная система управления, помогающая удерживать равновесие. Проходит около года, прежде чем ребенок начинает ходить. Природа начинала не с двуногих существ. Род Брукс (рис. 12.3), о котором я уже упоминал в главе 2, хотел создать робота, перемещающегося как насекомые. Он изобрел новый тип контроллера, который согласовывает движение шести ног и позволяет роботам-тараканам передвигаться, сохраняя равновесие. Его инновационной идеей было заменить абстрактное планирование и вычисления механическим взаимодействием ног с окружающей средой. Он утверждал, что у роботов для выполнения повседневных задач их высшие когнитивные способности должны основываться на сенсомоторном взаимодействии с окружающей средой, а не на абстрактном мышлении. Слоны общительны, у них хорошая память[310], но они не играют в шахматы[311]. Род Брукс основал компанию iRobot, которая продала более десяти миллионов пылесосов Roomba, чистящих полы.
Рис. 12.4. Диего-сан, робот-ребенок. Пневматические приводы позволяют суставу двигаться податливо, так что роботу можно пожать руку. Лицо было создано Дэвидом Хэнсоном и компанией Hanson Robotics
Промышленные роботы имеют жесткие соединения и мощные сервоприводы, что делает их узкоспециализированными. Для новых разработок Брукс основал компанию Rethink Robotics, которая создала робота, названного Бакстер (Baxter), с гибкими послушными суставами, позволяющими вам двигать его рукой (см. рис. 12.3). Вместо того чтобы писать программу для перемещения рук робота, вы перемещаете его руку через нужные движения, и он программирует сам себя, чтобы повторить эту последовательность.
Мовеллан пошел дальше Брукса и разработал робота-ребенка по имени Диего-сан[312], все суставы которого были подвижными. Логика в том, что когда мы что-то берем, в той или иной степени задействована каждая мышца в нашем теле (когда вы двигаете одновременно только одним суставом, вы выглядите как робот). Так мы легче приспосабливаемся к изменяющимся условиям нагрузки и взаимодействия с миром. Мозг может плавно контролировать все степени свободы в теле – все суставы и мышцы, – и целью проекта было выяснить, как он это делает. Моторы, приводящие в движение Диего-сан, были пневматическими, работающими благодаря давлению воздуха, поэтому все 44 соединения легко сгибались (рис. 12.4). Лицо Диего-сан имело 27 подвижных частей и могло выражать широкий спектр человеческих эмоций[313]. Движения робота-ребенка были удивительно реалистичными. Но несмотря на ряд достижений, Диего-сан победил Хавьера, который признал, что не знает, как заставить робота совершать действия так же плавно, как человеческий ребенок.
Выражение лица – окно в вашу душу
Представьте, что вы смотрите на экран своего сотового, видите, как падают ваши акции, и тут компьютер спрашивает, почему вы расстроены? Выражение вашего лица – окно в эмоциональное состояние вашего мозга, и теперь глубокое обучение может в него заглянуть. Познание и эмоции традиционно считали отдельными функциями мозга, полагая, что познание – корковая функция, а эмоции – подкорковые. И действительно, есть подкорковые структуры, такие как миндалевидное тело, которые регулируют эмоциональное состояние и участвуют, когда уровень эмоций высок, но эти структуры тесно взаимодействуют с корой головного мозга. Например, если миндалевидное тело вовлечено в общение между людьми, событие лучше запоминается. Познание и эмоции взаимосвязаны.
В 1990-х годах я сотрудничал с Полом Экманом (рис. 12.5), психологом из Калифорнийского университета в Сан-Франциско и ведущим мировым экспертом в области мимики. Пол Экман стал прототипом доктора Кэла Лайтмана в сериале «Обмани меня», хотя в общении он намного приятнее Лайтмана. Экман отправился в Папуа – Новую Гвинею, чтобы выяснить, показывают ли доиндустриальные культуры эмоции теми же выражениями лица, что и мы. Во всех видах человеческого общества он нашел шесть универсальных проявлений эмоций: счастья, печали, гнева, удивления, страха и отвращения.
Рис. 12.5. Пол Экман с племенем Форе в Папуа – Новой Гвинее в 1967 году. Он нашел доказательства шести универсальных выражений эмоций: счастья, печали, гнева, удивления, страха и отвращения. Пол был научным консультантом создателей сериала «Обмани меня», и образ доктора Кэла Лайтмана в некоторой степени списан с него
В 1992 году мы с Экманом организовали семинар «Понимание выражения лица» («Facial Expression Understanding»), спонсируемый Национальным научным фондом при правительстве США[314]. В то время было довольно трудно получить поддержку исследований мимики. Наш семинар собрал специалистов в области нейробиологии, электротехники и компьютерного зрения, а также психологии, что открыло новую главу в анализе лиц. Для меня стало неожиданностью, что, хотя анализ мимики потенциально так важен для многих сфер науки, медицины и экономики, его никто не хочет финансировать.
Рис. 12.6. Марни Стюарт-Бартлетт демонстрирует анализ мимики. Временные отрезки – результат работы сетей глубокого обучения, которые распознают на лицах выражения счастья, печали, удивления, страха, гнева и отвращения
Экман разработал систему кодирования лицевых движений (Facial Action Coding System; FACS; СКЛиД), чтобы отслеживать состояние каждой из 44 мышц лица. Эксперты СКЛиД, обученные Экманом, тратят час на покадровую обработку минуты видео. Выражения изменчивы, они могут сохранятся многие секунды, но Экман обнаружил, что некоторые остаются всего на несколько кадров. Эти микровыражения – эмоциональные «утечки» подавленных состояний мозга и часто говорят о бессознательных эмоциональных реакциях и даже выявляют их. Например, микровыражения отвращения во время консультации по вопросам брака были надежным признаком того, что брак не сложится[315].
В 1990-х годах мы использовали видеозаписи с обученными актерами, которые, как и Экман, могли контролировать каждую мышцу на лице, чтобы обучать нейронные сети с обратным распространением ошибки для автоматизации СКЛиД. В 1999 году сеть, созданная моей аспиранткой Марни Стюарт-Бартлетт (рис. 12.6), имела точность 96 процентов в лаборатории[316] при идеальном освещении, лице, смотрящем строго в камеру, и вручную размеченном времени на видео.