Шрифт:
Рисунок 1.6. Разные данные с точки зрения размера и типа
Примечание: взаимное влияние разных типов данных. Коммерческие данные могут естественным образом содержать в себе и производить данные о поведении человека и окружающей природной среде, точно так же данные о поведении человека и окружающей природной среде являются взаимовключающимися, перекрёстными и взаимовлияющими. В прошлом мы фиксировали что-либо, только предварительно выбрав, что именно должно быть зафиксировано. В эпоху больших данных мы выбираем то, что зафиксировано быть не должно, и затем удаляем запись об этом. По мере непрерывного расширения сферы фиксирования можно быть уверенным: в будущем совокупный объём данных, имеющихся в распоряжении человека, будет нарастать подобно снежному кому.
Обработка подобных данных несопоставимо сложнее, чем обработка данных, имеющих строгую структуру. 15 марта 2019 года сервис микроблогов Sina Weibo опубликовал «Отчёт о развитии пользователей Weibo в 2018 году», согласно которому по состоянию на четвёртый квартал 2018 года среднее количество текстов, которые пользователи сервиса публиковали в сутки, составил 130 миллионов, среднее количество публиковавшихся за сутки изображений – 120 миллионов, среднее количество публиковавшихся за сутки видео и проведённых прямых эфиров – более 1,5 миллионов. Для сравнения: суммарный объём информации, опубликованной New York Times за прошедшие пятьдесят лет, не превышает 3 миллиардов слов.
Учитывая беспрецедентную скорость производства данных, примерно 75 % от общемировых данных в настоящий момент – это неструктурированные данные. Оглядываясь назад, мы можем сказать, что появление социальных медиа оказало на большие данные определяющее воздействие. Отталкиваясь от приведённого выше анализа, мы можем принять следующее:
Большие данные = структурированные данные + неструктурированные данные.
Однако, как мы уже упоминали, определение «большой» в понятии «большие данные» указывает не только на большой объём данных, но и на их большую ценность. Ценность же заключается в использовании. Как в случае с погребённой в недрах земли нефтью: она хотя и существовала с глубокой древности, человечество вошло в нефтяную эпоху благодаря тому, что появились технологии её добычи и переработки, – точно так же главная причина начала эпохи больших данных состоит в значительном прорыве и прогрессе в возможностях эти данные использовать.
1.4. Как интеллектуальный анализ данных «превращает цифры в золото»
Прорыв, сделанный в отношении возможностей использовать данные, проявляется в интеллектуальном анализе данных.
Под интеллектуальным анализом данных (data mining) подразумевается осуществляющийся с помощью специальных алгоритмов автоматический анализ больших объёмов данных, имеющий целью выявление скрытых в них закономерностей и тенденций, иными словами, получение из данных большого объёма новых знаний, от которых можно отталкиваться, принимая те или иные решения. Основная причина прогресса в интеллектуальном анализе данных, то есть способность человека непрерывно изобретать всё более сложные алгоритмы распознавания образов 3 в сущности является прогрессом в программном обеспечении. Самой знаменательной вехой развития интеллектуального анализа данных стала 1-я ежегодная научная конференция по data mining, организованная в 1989 году американской Ассоциацией вычислительной техники (Association for Computing Machinery, ACM), Специальной группой по обнаружению информации и интеллектуальному анализу данных (Special Interest Group on Knowledge Discovery and Data Mining, SIGKDD). Результаты работы конференции были отражены в специальной периодике. После этого развитие интеллектуального анализа данных получило огромное ускорение.
3
Алгоритмы – это специальные шаги, использующие методы и приёмы математики и статистики и предназначенные для решения определённого типа задач.
И действительно, в последние десятилетия благодаря технологиям интеллектуального анализа данных в самых разных крупных компаниях отмечалось немало удивительных историй, связанных с «превращением цифр в золото». Приведём несколько примеров. Накапливавшиеся в течение долгого времени записи о финансовых операциях пользователей позволили компании Alibaba проникнуть в финансовую сферу. Теперь сервис может за несколько минут определить кредитные данные пользователя и на этом основании принять решение о выдаче ему кредита. Walmart повысил объём продаж товаров в магазинах за счёт связи «пиво и подгузник». Netflix, используя учёт смены предпочтений своих пользователей, строит предположения о том, что им понравится смотреть, на основании чего осуществляется целенаправленный маркетинг.
Непрерывное обновление, которое в последние годы характеризует применение интеллектуального анализа данных, позволяет надеяться на новые достижения в этой сфере в будущем. Например, к переломному моменту своего развития приближаются продовольственные рынки, с которыми мы вот уже несколько тысяч лет «смотрим друг на друга и не можем насмотреться». На проводившемся в начале 2019 года собрании местных партнёров Alibaba по поставкам свежей пищевой продукции компания Ele. me заявила о намерении «изменить продовольственный рынок», создать совершенно новую открытую платформу для доставки свежих продуктов, переместить продовольственный рынок в онлайн-формат, заставить традиционный продовольственный рынок попрощаться с существовавшей в течение нескольких тысяч лет моделью функционирования, когда «каждый сам за себя» и «продаёт не по спросу, а то, что выросло», кроме того, сделать так, чтобы платформа содействовала превращению продажи овощей в тренд.
Каким же образом осуществить это содействие? Основным инструментом для этого как раз и является интеллектуальный анализ данных. Главная болевая точка традиционного продовольственного рынка – это информационная асимметрия: продавцы, завозят продукцию на продажу и не имеют в своём распоряжении точной информации о рыночном спросе, что приводит к накапливанию товаров или возникновению проблем с качеством. В этой ситуации Ele.me, опираясь на огромные массивы данных, накопленных Alibaba, может предоставить продавцу максимально точный портрет покупателя, что позволит регулировать деятельность по поставкам продукции на продажу. Таким образом поставки продукции на продовольственные рынки больше не будут произвольными – процесс принятия решения передаётся алгоритмам, и уже они решают, какие товары необходимо завезти. Резонанс интересов предпринимателей и самой платформы, достигающийся за счёт подобного рода цифрового маркетинга, может стимулировать возникновение огромной коммерческой стоимости. Описанная модель была опробована и на рынке: после того, как сервис Dingdong Maicai вошел в Ele.me, количество заказов на платформе за 2018 год увеличилось в 20 раз, а ежемесячный оборот торговли превысил 10 миллионов юаней [9].
Приведём ещё одну небольшую историю об интеллектуальном анализе данных. Во время проведения Чемпионата Европы по футболу в июне 2012 года в Китайских ресурсах появилось много сообщений о том, что «пока мужчины смотрят футбол, женщины занимаются онлайн-шоппингом» [10]. Сообщалось, что, согласно данным Taobao по продажам, после открытия чемпионата Европы торговый оборот женского сегмента онлайн-шоппинга очевидным образом вырос, при этом «пиковое время онлайн-продаж сдвинулось на два часа позднее, переместившись на отрезок с 23 до 24 часов». Кроме того, в период между окончанием первого матча в 1:45 ночи и началом второго матча в 2:45 ночи возник ещё один пик онлайн-продаж, и торговый оборот увеличился более чем на 260 % по сравнению с торговым оборотом в тот же отрезок времени в период до начала кубка.