Шрифт:
Взаимосвязь между данными и информацией, пирамида DIKW и ее значение для AI
Взаимосвязь между данными и информацией намного сложнее, чем может показаться. Сами по себе данные, как набор байтов, не имеют никакого смысла, но те же данные, поставленные в контекст, превращаются в информацию. Роберт Сейнер (Robert Seiner), один из ведущих специалистов по работе с данными, издатель бюллетеня The Data Administration Newsletter (TDAN.com) дал следующее определение: «Данные плюс метаданные равняется информация» (Data plus metadata equals the information). Такое упрощенное определение информации допустимо в приложении к текстам или изображениям, в том случае, если их можно снабдить метаданными. Однако есть и иные типы данных, которые необходимо превращать в информацию без привлечения специальным образом подготовленных метаданных, для этого требуется знания и интуиция человека. Такие данные-изображения, полученные в результате различного рода экспериментальных исследований, таких как медицинские обследования, съемки земной поверхности или каких-то иных опытов. В качестве примера принимающей стороны можно привести врача-диагноста, рассматривающего рентгеновские или другие снимки, или геофизика перед которым лежат результаты полевой съемки. Изображения не имеют никакого содержательного смысла для непосвященного, но чем выше уровень квалификация специалиста, анализирующего эти изображения, чем больше, условно говоря, метаданных он может извлечь из своего сознания, тем содержательнее оказываются данные. Иногда такие скрытые метаданные называют латентными или интеллектуальными (Latent metadata, Intellectual metadata). В значительной мере целью образования является обучение специалистов к работе со скрытыми метаданными. Автору пришлось стать свидетелем работы геофизиков с результатами полевых работ. Чем больше багаж знаний, профессиональная эрудиция, те больше информации человек способен извлечь из карты, он сам является носителем метаданных.
Рассел Аккофф (Russell Ackoff, 1919–2009), специалист в области исследования операций и теории систем предложил четырехуровневую иерархическую модель (четырехзвенную модель) DIKW (data, information, knowledge, wisdom), связывающую данные, информацию, знания и здравый смысл, основанный на глубоком познании.
• Данные (data) получаются из внешнего мира в результате человеческой деятельности с использованием тех или иных устройств.
• Информация (information) создается посредством анализа отношений и взаимосвязей между фрагментами данных в результате ответа на вопросы: Кто? Что? Где? Сколько? Когда? Почему? Цель анализа – помещение данных в контекст.
• Знания (information) получаются в результате синтеза полученной информации с человеческим разумом, служат для приятия решений, ведущих к достижению заданных целей.
• Глубокое понимание (wisdom) служит основой для принятия решений.
Практически все, что называют умственным трудом, укладывается в пирамиду DIKW – работающий в этой сфере получает данные из внешнего мира, извлекает из них информацию, осмысливает ее переводит в знания и выбирает те знания, которые требуются для принятия решений.
Данные и наука о данных
Интерес к данным привел к созданию того, что назвали Data Science. И с этим термином возникают сложности перевода, в данном случае это вопрос, как быть со словом science. Есть классическое русское определение науки как области человеческой деятельности, направленной на выработку и систематизацию объективных знаний, но Data Science – это не классическая наука со всеми ее необходимыми атрибутами. Однако в английском для science есть и «система получения знаний» (system of acquiring knowledge) и «знания, полученные из практики» (knowledge attained through study or practice), то есть Data Science стоило бы перевести как получение знаний из данных. Но это звучит нескладно, поэтому остановимся просто на DS.
Авторами современной концепции DS считают двух статистиков: Уильяма Клевеланда (William Cleveland,1943) и Лео Бреймана (Leo Breiman, 1928–2005). Первый в 2001 году опубликовал статью «Data science: план действий для расширения области действия статистики» (Data Science: An Action Plan for Expanding the Technical Areas of the Field of Statistics), в которой связал статистику с data mining и извлечением информации и знаний из данных. Для такой расширенной трактовки задач, отличной от традиционной статистики он предложил название Data Science, известное ранее, но в ином контексте. А второй в том же году опубликовал работу «Статистическое моделирование: две культуры» (Statistical Modeling: The Two Cultures) в которой ему удалось ликвидировать разрыв между статистикой и компьютерной наукой.
Но у DS, как у всего остального есть предыстория и она начинается с работ американского математика Джон Тьюки (John Tukey, 1915–2000), он первым задумался о данных, как самостоятельной сущности. Тьюки больше известен как изобретатель термина бит (bit от BInary digiT), в качестве минимальной единицы измерения данных, а еще в книге «Обучение конкретной математике» (The Teaching of Concrete Mathematics) он первым использовал слово software. В дополнение биту в 1956 году Вернер Бухгольц (Werner Buchholz, 1922) предложил удобную для кодировки восьмибитовую единицу меры данных и назвал ее байтом. Бухгольц эмигрировал из Германии в 1938 году, Был членом команды в IBM, которая проектировала первые мэйнфреймы IBM 701 и IBM 7030 Stretch.
И все же основным делом жизни Тьюки был исследовательский анализ данных (Exploratory Data Analysis, EDA), служащий инструментом для изучения основных свойств данных, нахождения в них общих закономерностей, распределений и аномалий. Этот тип анализа отличается от, например, более известного и широко используемого метода статистической проверки гипотез тем, что не предполагает наличия некоторой априорной гипотезы, нуждающейся в подтверждении, – в EDA формулирование гипотезы, анализ и ее доказательство выполняются параллельно. В 1962 году Тьюки написал: «После долгих лет работы в области классической статистики я стал сомневаться в том, что для получения полной картины достаточно одной статистики, мои интересы стали смещаться в сторону более полного анализа данных, включая тонкие процедуры и методы анализа и интерпретации данных».
Работы Тьюки стали предпосылкой к интеллектуальному анализу данных – направлению, открытому Ильей Иосифовичем Пятецким-Шапиро (1929–2009), советским, а позже израильским и американском математиком. В 1989, покинув СССР, Илья Иосифович провел первый семинар Извлечение знаний из баз данных (Knowledge Discovery in Databases, KDD). Его дело продолжает сын Григорий Пятецкий-Шапиро (1958), живущий в США
Название Data Science предложил Петер Наур (Peter Naur, 1928–2016) в 1974 году. Датчанин Наур более всего известен как создатель одного из первых алгоритмических языков ALGOL 60 и нотации Бэкуса-Наура (Backus—Naur form, BNF). Он определил Data Science не совсем так, мы ее понимает сейчас, в его представлении это наука, изучающая жизненный цикл цифровых данных.