Шрифт:
Междисциплинарный подход был крайне важен из-за сложности перевода эмоциональной экспрессии в форму, которую компьютеры могут опознать как процесс. Некоторые студенты и научные сотрудники группы создавали системы, способные распознавать выражения лиц, используя фотоснимки и видеокамеры. Другие записывали голос и пытались по интонации определить настроение говорящего, независимо оттого, какие слова он произносит. Некоторые работали с физиологическими сигналами, такими как показатели электромиографии, пульсовые колебания объема крови, кожно-гальванический рефлекс и дыхание. Ко многим из них они применили ряд техник распознавания образов, обучая системы определять значения и варианты экспрессии, которое нам, людям, удается естественно и без труда.
Распознавание образов – это отрасль машинного обучения и искусственного интеллекта, сложность которой возрастает на протяжении десятилетий. Поскольку это очень узкоспециализированная область искусственного интеллекта, ее часто называют одной из форм ограниченного или слабого ИИ. Программы пытаются повторить невероятную работу по распознаванию образов, которую без труда выполняет человеческий мозг. Однако механизм работы нейронов нельзя имитировать с помощью машинной логики. Таким образом, компьютерные методы значительно отличаются от естественных процессов. Например, распознавание образов посредством машинного зрения происходит в несколько этапов, на которых объекту или месту нужно присвоить значения. Первые стадии – установление и обработка, на которых изображение принимается и упорядочивается. За этими этапами может следовать стадия извлечения деталей, на которой в элементах выделяют линии, углы, области интереса и, возможно, текстуру, форму и движение. При распознании и делении на сегменты точки и области разбивают на категории, создавая иерархию для дальнейшей обработки. На этапе высокоуровневой обработки данные группируют, классифицируют и маркируют. Кроме того, изображение, которое нам кажется простым, может оказаться насыщенным с точки зрения вычислений.
Исследователи из группы по эмоциональному программированию обнаружили, что более прямые методы измерения эмоциональных изменений полезны сами по себе или в качестве дополнения к другим эмоциональным системам. Определение активных изменений с помощью отслеживания психологических сигналов позволяет сделать общее предположение о настроении тестируемого. Исследователи уже делали подобное в прошлом веке, изучая автономные сигналы, что в конечном итоге привело к созданию полиграфа и других разновидностей детектора лжи (подробнее об этом в главе 10).
Считывать выражение лица для машины намного сложнее, чем распознавать и сопоставлять визуальные структуры. Нюансы и варианты, возникающие в различных культурах, у разных людей и даже у одного человека могут быть настолько значительными, что совсем недавно специалисты считали, что проблему нельзя решить компьютерными средствами. Даже при доступных сегодня возможностях распознавания все еще актуальна проблема, как классифицировать и различить то, что компьютер распознал. Например, разница между экспрессивными и более сдержанными людьми. Как отличить искреннюю улыбку от фальшивой? Скалится ли человек от гнева или это ироническая ухмылка?
К счастью, группа по эмоциональному программированию, как и многие лаборатории, открывшиеся при институтах и на предприятиях по всему миру, знала ответ. В 1960-х годах молодой психолог Пол Экман начал исследование о том, как люди в разных культурах выражают эмоции. То есть зависит ли их проявление эмоций от места и условий, в которых человек вырос? За время исследования Экман объехал Соединенные Штаты, Бразилию, Чили и Аргентину. При помощи определенного набора изображений и вопросов он пытался определить, насколько универсальны эмоциональные проявления. Обнаружив высокую степень совпадения в разных культурах, Экман захотел исключить вероятность межкультурного влияния и отправился в Папуа – Новую Гвинею. Он хотел провести те же тесты в племенах, считавшихся самыми изолированными культурами в мире. Несмотря на изолированность, представители племен весьма точно распознавали эмоции по выражению лица2. (В этом случае наиболее сложно было различить выражения страха и удивления на лицах людей с фотографий.) На основании первоначальной работы Экман предположил, что существует шесть базовых эмоций: радость, печаль, гнев, удивление, страх и отвращение.
Позже некоторые ученые заявили о том, что базовых эмоций только четыре, но Экман на основании своего исследования выделил и классифицировал двадцать одну выраженную эмоцию.
На протяжении своей последующей карьеры как психолога, профессора, а позже главы компании, выпускающей учебные материалы по развитию эмоциональных навыков, Экман разработал множество теорий и методов работы с эмоциями. Он стал одним из самых цитируемых психологов XX века, вошел в топ-100 самых влиятельных людей по версии журнала «Time» и даже стал прототипом персонажа телесериала «Обмани меня» (Lie to Me) доктора Кэла Лайтмана (которого сыграл актер Тим Рот). Для эмоционального программирования особенно полезной оказались адаптация и популяризация системы кодирования лицевых движений (СКЛиД), таксономии выражений человеческого лица, разработанной за десятилетие до него шведским исследователем в области анатомии Карлом-Херманом Ёртье3. (Таксономия – это систематическая схема классификации.) Система позволяла разбить изображение на единицы, пригодные для процессной обработки. После этого компьютер анализировал движения отдельных лицевых мышц и подразделял на категории тем способом, который больше соответствовал машинной логике. Такая структурированная система была крайне полезна для зарождающейся области эмоционального программирования.
Позже Экман разработал еще несколько инструментов анализа выражения лица. Самые известные из них – программа MicroExpressions Training Tool, распознающая непроизвольные движения, возникающие даже тогда, когда человек пытается тщательно подавлять своим эмоции4, и Subtle Expression Training Tool, используемая для распознавания самых незаметных признаков эмоций. Позже выяснилось, что из десяти тысяч выражений человеческого лица лишь три тысячи соответствуют собственно эмоциям, и появились другие инструменты. В справочнике по интерпретации кодирования эмоциональной системы применяются те же таксономические методы, но только применительно к лицевым движениям, вызванным эмоциями5. Все эти инструменты создали основу для предварительной эмоциональной систематизации выражения лиц.
Создание систем программного обеспечения, способных понимать нас и взаимодействовать с нами более естественным образом, постоянно способствует усовершенствованию множества поддерживающих технологий.
При использовании систем типа СКЛиД Экмана стал очевиден один аспект: они основывались на статичных изображениях, их нельзя было применить к анализу видео. Но добавление в систему нелокальных пространственных структур и временной информации позволило распознавать эмоции в сменяющихся выражениях лица6. Это важно, поскольку в конечном итоге система смогла предоставлять на выходе более точные данные, чем со статичных изображений. Выражения лица не статичны, изменения происходят в реальном времени. Каждая черта, формирующая выражение, проходит стадию приложения, высвобождения и расслабления7. Таким образом, было бы проще и удобнее верно различать выражения лица, особенно микровыражения, при движении лицевых мускулов, например при общении между людьми.