Вход/Регистрация
Об ИИ без мифов. Путеводитель по истории Искусственного Интеллекта
вернуться

Черняк Леонид

Шрифт:

• Чатбот, действует в режиме один вопрос – один ответ (single-turn exchanges), например, «Гугл, какая гора самая высокая на Земле?»

• Речевой агент, вступает в диалог с пользователем, стремясь понять его проблему. Такой агент обучен задавать заранее подготовленные вопросы, чтобы выйти на возникающую проблему и по возможности ее решить, например, при обращении в банк: «Моя карта не срабатывает».

• Виртуальный помощник, настраивается на индивидуальные запросы клиента, пользуется накопленной о нем информацией, по мере взаимодействия с клиентом обучается и повышает качество ответов. Он может напомнить расписание полетов или список дел.

Создание виртуальных роботов требует решения двух проблем. Одна в большей мере формальная или техническая, она делится на две составляющие: распознавание и воспроизведение речи, задачи из этой категории уже имеют более или менее удовлетворительные решения. Другая категория – то есть содержательная – «понимание» обращений пользователя и формирование ответов.

Свою историю речевые боты ведут от программы ELIZA, написанной в 1966 году профессором МТИ Джозефом Вейцбаумом. Качественно новый шаг через 30 лет совершил Ричард Уоллес (1960), создатель виртуального собеседника «Искусственное лингвистическое интернет-компьютерное существо» A. L. I. C. E. (Artificial Linguistic Internet Computer Entity). Уоллес создал AIML язык разметки для AI по образу и подобию XML.

Между ELIZA и современными речевыми технологиями возник разрыв на несколько десятилетий, в первую очередь он был обусловлен отсутствием необходимых средств для распознавания речи (Automatic speech recognition, ASR) и воспроизведения голоса (Speech synthesis). Первая из этих задач оказалась чрезвычайно наукоемкой и потребовала более полувека работы большого числа специалистов. Нетрудно догадаться, что в ее решении были заинтересованы многочисленные спецслужбы разных государств, начало деятельности в этом направлении описано в «Круге первом» А. И. Солженицына. На речевой ввод возлагались огромные надежды – еще в 1977 году Билл Гейтс заявил, что через десять лет клавиатуры станут не нужны, компьютеры смогут понимать человеческую речь. В 1987 году он оказался скромнее, выразив убеждение в том, что через пять лет большая часть интернет-запросов будет совершаться с помощью речи, а не клавиатуры. И это предсказание тоже не сбылось, и в 2021 году клавиатура не исчезла и она успешно используется для запросов.

Для создания чатботов нужны еще средства распознавания речи, работы в этом направлении начались еще в 50-е годы, первые шаги в этом направлении были сделаны в процессе совместной работы лабораторий из нескольких университетов по программе автоматической транскрипции речи (Robust Automatic Transcription of Speech, RATS), спонсированной DARPA. Она завершилась созданием Harpy System, способной распознавать речь примерно на уровне трехлетнего ребенка. В последующем продолжались многочисленные эксперименты и исследования, но конца 90-х годов трудно было говорить о практической реализации технологий распознавания речи.

Решающий прорыв в этом направлении был сделан Google в 2001 году с изобретением Google Voice Search, использовавшем вычислительные мощности больших ЦОДов, хранящих сотни миллиардов речевых образцов.

Попытки распознавания, основанные на физике и статистике, главным образом на скрытых Марковских цепях были полезны, но не привели к конечному результату. Для коммерческих приложений требуется распознавание речи, а не идентификация говорящего, то есть система должна с равным успехом понимать речь разных людей с разными особенностями голосов. Решение такой задачи требует сочетания двух подходов – акустического и лингвистического, оно не может быть получено без методов машинного обучения. Только в середине прошлого десятилетия появились комплексные продукты от Google и Apple. Существующие системы ASR относятся к классу гибридных, в них сочетаются три модели – акустическая (acoustic), языковая (language) и модель произнесения (pronunciation), каждая из них обучается независимо от других и весь процесс в целом оказывается сложным и долгим. На смену этой парадигме идет следующая, где одна модель включают всё – End-to-end (E2E) ASR.

Отрадно отметить, что в области ASR, не уступая зарубежным компаниям работает Центр Речевых Технологий ЦРТ (ныне он куплен «Сбером»), его продукт CHiME Speech Separation and Recognition Challenge (CHiME-6) признан лучшим в своем классе на международном конкурсе в 2020 году.

Speech synthesis, в большей мере инженерная и прикладная задача, начиная с пятидесятых воспроизведением голоса занимались математики и инженеры в интересах военных спецслужб. Результатом стал класс приборов – вокодеров, превращающих живой звук в сигнал, который можно сжать или закодировать, чтобы уменьшить полосу пропускания и затруднить декодирование, а затем воспроизвести с тем или иным качеством. Успехи в этом деле привели к тому, что сегодня вся музыкальная индустрия основывается на новом поколении вокодеров, способных превратить убогое хрипение в хит.

Умные машины и киберфизические системы

Ни один фантаст не мог предположить создание киберфизических систем (Cyber-Physical System, CPS) – продукта конвергенции встроенных систем с AI. Этот термин возник в 2006 году при подготовке семинара, посвященного будущему встроенных систем в Национальном научном фонде США, его устроители пытались пересмотреть роль встроенных систем с учетом перспектив в области AI. И это им удалось – они уловили общую тенденцию и уже через пару лет прогресс в этом классе систем был признан одним из наиболее важных направлений технического развития в США, а чуть позже и в Европе. Администрация президента Барака Обамы включила киберфизические системы в приоритетный список инноваций. Реальные подвижки в CPS начались во втором десятилетии XXI века с подъемом третьей волны AI. В 2013 году Брюсселе состоялась специальная конференция Cyber-Physical Systems: Uplifting Europe's innovation capacity, посвященная киберфизическим системам и их роли в инновационном процессе, где было подтверждено, что развитие CPS служит важнейшим фактором для подъема европейской экономики.

Предшественниками CPS можно считать встроенные системы реального времени, распределенные вычислительные системы, автоматизированные системы управления техническими процессами и объектами, беспроводные сенсорные сети. CPS – это системы, состоящие из различных природных объектов, искусственных подсистем и управляющих контроллеров, позволяющих представить такое образование как единое целое. В CPS обеспечивается тесная связь и координация между вычислительными и физическими ресурсами. Область действия CPS распространяется на робототехнику, транспорт, энергетику, управление промышленными процессами и крупными инфраструктурами. Создание полноценных систем CPS в перспективе приведет примерно к таким же изменениям во взаимодействии с физическим миром, как те, к которым привела в свое время Сеть.

  • Читать дальше
  • 1
  • ...
  • 38
  • 39
  • 40
  • 41
  • 42
  • 43
  • 44
  • 45
  • 46
  • 47
  • 48
  • ...

Ебукер (ebooker) – онлайн-библиотека на русском языке. Книги доступны онлайн, без утомительной регистрации. Огромный выбор и удобный дизайн, позволяющий читать без проблем. Добавляйте сайт в закладки! Все произведения загружаются пользователями: если считаете, что ваши авторские права нарушены – используйте форму обратной связи.

Полезные ссылки

  • Моя полка

Контакты

  • chitat.ebooker@gmail.com

Подпишитесь на рассылку: