Шрифт:
Умный транспорт
Умные транспортные системы (Smart Transportation) оборудованы различными компьютеризированными встроенными системами управления на разных уровнях. Практически решены задачи связи транспортного средства с системами обслуживания и дистанционного доступа человека к различного рода транспортным услугам. Снабженные AI CPS обеспечат создание полноценной связанной системы, включающей связь между машинами (Vehicle-to-Vehicle, V2V) и между машиной и внешней окружающей ее инфраструктурой (Vehicle-to-Infrastructure, V2I). В целом V2I играют координирующую и кооперирующую роль, обеспечивая сбор информации из разного рода источников и распределяя ее между группами автомобилей или отдельными автомобилями – например, сообщают водителям рекомендуемые параметры (дистанцию, скорость), с тем чтобы все участники движения перемещались быстрее и безопаснее.
Глава 8 Данные и AI
Нынешние тенденции в AI связывают с наступившим периодом демократизации (democratization of AI), подразумевая под этим смещение фокуса с отвлеченных исследований в строну практических приложений, ориентированных на управление бизнесом, производство, медицину и науку. В новых условиях AI привлекает к себе инвестиции, как следствие возрастает объем исследований и далее, срабатывает положительная обратная связь, приводящая к экстенсивному развитию этого направления. Обещанные прежде воздушные замки уступают место проектам с конкретными и ожидаемыми результатами, что отражено в отчете Gartner «Кривая хайпа в AI» (Gartner Hype Cycle for Artificial Intelligence, 2020). В нем проявлено скептическое отношение к некоторым тематикам, эффектным, но, как оказалось, лишенным практических перспектив. Например, внедрение разрекламированных беспилотных автомобилей откладывается на 10 лет и более, ну а когнитивные технологии (мыслящие системы) вообще сняты с дистанции на весь обозримый период. Что же касается Сильного AI (Artificial General Intelligence, AGI), то на сей предмет в отчете сказано еще более категорично: «AGI потерял какую-либо коммерческую перспективность и предприятиям рекомендуется сосредоточить свое внимание на решениях, основанных исключительно на Слабом AI. Gartner предостерегает: компаниям следует игнорировать любые заявления тех AI-вендоров, которые выступают с предложениями рыночных продуктов на основе AGI».
Не только гартнеровские, но и другие отраслевые аналитики солидарны в том, что в рамках Слабого AI реальные шансы на успех есть у двух у направлений: одно усиливает возможности зрительного восприятия и получило название компьютерного зрения (Computer Vision, CV), в второе многократно повышает способность человека при работе с текстом на естественном языке (Natural Language Processing, NLP). На их основе уже созданы и создаются инструментальные средства, обеспечивающие автоматизацию рутинных составляющих умственного труда. По классификации, приведенной в главе 1, CV и NLP относится к типу AI, усиливающему способности человека (Augmented AI, AuI), а именно, они помогают ему в извлечении полезной информации из больших объемов данных, получаемых из внешней среды. В первом случае источник данных, прежде всего, фото и видеосъемка, во втором источники текста чаще всего в интернете. Совместно они обеспечивают решение проблемы Больших данных (Big Data).
Big Data относится к числу немногих названий, имеющих вполне достоверную дату своего рождения – 3 сентября 2008 года, в этот день вышел специальный номер научного журнала Nature,посвященный ответам на вопрос «Как могут повлиять на будущее науки технологии работы с большими объемами данных?». Ситуация, связанная с Big Data, вылилась в проблему из-за сложившегося дисбаланса между количеством данных, получаемых средствами различных цифровых технологий в XXI веке. За короткий срок оно лавинообразно возросло, но средства извлечения из этих данных полезной информации заметно отстали. Отмеченное рассогласование возникло по очевидной причине – за все годы существования так называемых информационных технологий, которые на самом деле имеют дело с данными, а вовсе не с информацией, о самостоятельной роли данных почти никто не задумывался. Сложилась странная ситуация: есть технологии, якобы информационные, а вот что именно является предметом этих технологий, неизвестно, в одних случаях – цифры, в других – тексты, в третьих – управляющие сигналы и т. д. Можно ли представить себе еще какую-то технологию, не имеющую четкого представления о предмете обработки или переработки? Все, что необходимо было знать о данных, сводилось к представлению в двоичным или восьмеричных кодах и их количеству, выраженному в байтах, к форматам, к технологиям хранения и методам доступа. Игнорирование значения данных воспринималось как нечто само собой разумеющееся, такое положение могло бы продолжаться и далее, если бы количество данных не стало угрожающе велико, а сетевые методы доступа к данным не превратились в фактор заметного влияния на жизнь общества. На протяжении десятилетий развивались методы, обеспечивающие передачу, хранение и обработку данных, без учета связи между данными и хранящихся в них информации и знаний.
Но в последние годы ситуация резко изменилась, что отражает лозунг «It's the data, stupid», указывающий на возрастающую роль данных в современной науке, бизнесе и других отраслях человеческой деятельности. Он представляет собой парафраз «Это экономика, тупица» – знаменитого лозунга предвыборной кампании Билла Клинтона, который помог ему в 1992 году победить Джорджа Буша-старшего. Если в 2008 году вопрос о данных был только поставлен, то через пару лет проблема выплеснулась на страницы ведущих экономических изданий. В февральском номере журнала Economist за 2010 год вышла статья «Данные, везде данные» (Data, data everywhere), в ней происходящее названо индустриальной революцией данных. Британский математик и успешный предприниматель Клив Хамби (Clive Humby, 1955) одарил человечество гениальным лозунгом «Данные – это новая нефть» (Data is the new oil)». Это утверждение развил журнал Economist в опубликованном в 2017 году отчете «Теперь самый ценный ресурс в мире не нефть, а данные» (The world’s most valuable resource is no longer oil, but data). Заслуга Хамби в том, что он раньше других увидел параллель – собственно нефть всего лишь сырье, потребительскую ценность имеют ее производные – бензин, пластики и все остальное, то же самое и данные, для того, чтобы они стали источником новой стоимости, они должны быть переработаны.
Данные и информация
Итак, по аналогии с нефтью данные – это сырье, а потребляются продукты переработки данных, то есть является полезная человеку информация, она имеет потребительную стоимость. Оксфордский словарь английского языка свидетельствует – еще в XIV веке слово информация употреблял Джефри Чосер, автор «Кентерберийских рассказов». В последующем написание варьировалось, встречаются и informacion, и enformation, и другие. Потребовалось более полутысячелетия, чтобы сложилось современное написание и научное представление о том, что такое информация. Долгие годы под информацией ограниченно понимали данные, переданные по каналам связи. Каналы передачи данных определяли как средства обмена данными приема и передачи информации. Под информацией понималась полезная составляющая данных, отсюда возникло желание каким-то образом оценить количество переданной информации и качество каналов.
Шенноновская теория информации
В двадцатые годы прошлого века пионерами в исследованиях, связанных с передачей информации, стали двое: английский статистик и генетик Рональд Фишер (Ronald Fisher, 1890–1962) и американский физик и радиоинженер Ральф Хартли. (Ralph Hartley, 1888–1970). Хартли связал количество передаваемой информации с пропускной способностью канала и предложил меру переданной информации, выбрав для этой цели логарифм числа возможных символов в последовательности, ее называли хартлиевской. В 30–40-е годы были заложены теоретические основы передачи данных, из числа ученых этого поколения необходимо отдать должное американцу Гарри Найквисту (Harry Nyquist, 1889–1976) и нашему соотечественнику академику Владимиру Александровичу Котельникову (1908–2005).
Основоположником того, что прямо скажем так, не совсем удачно названо и продолжают называть теорией информации, стал Клод Шеннон. Он обобщил работы предшественников и сформулировал основные положения того, что он сам назвал математической теории связи в одноименной статье (A Mathematical Theory of Communication, 1948), заметим, не теорией информации! От работ предшественников позицию Шеннона главным образом отличает углубленное представление информационной энтропии, как меры хаотичности информации. Предельно упрощая, информационная энтропия – это то, насколько много информации вам не известно о системе.