Вход/Регистрация
Big data изменяют Китай
вернуться

Чжэн Лэй

Шрифт:

С её наступлением данные стали синонимом информации, и оба слова могут использоваться как взаимозаменяемые. Несмотря на то, что, например, письмо содержит много информации, с технической точки зрения она может представлять собой «единицу данных». Сфера «Данные» в современном толковании шире, чем сфера «Информация» (показано на рисунке 1.3).

Рисунок 1.3. Категории современных данных

Наряду с расширением внутреннего содержания понятия и созданием баз данных возникло ещё одно важное явление – непрерывное увеличение объёма данных, происходящее при этом с постоянно нарастающей скоростью.

Для описания названного феномена в 80-е годы ХХ века один американский специалист предложил использовать понятие «большие данные». И хотя в то время эпоха «большого взрыва данных» ещё не началась, некоторые специалисты были способны предсказать, что вслед за прогрессом информационных технологий важность программного обеспечения будет снижаться, а важность данных, напротив, возрастать. В те годы определение «большой», как и в случае с выражениями «большой человек», «большой шаг», главным образом имело ценностное значение. В 21 веке, особенно после возникновения социальных медиа в 2004 году, объём данных начал увеличиваться как при большом взрыве: как показывают данные компании International Data Corporation (IDC), в период с 2011 по 2018 годы объём общемировых данных увеличился в 18 раз, и вопрос формулировки понятия «большие данные» снова попал в поле зрения широких масс и привлёк к себе пристальное внимание. В этот период значение определения «большой» стало ещё более широким и указывало и на большой объём, и на большую ценность.

И всё же насколько большие данные могут называться «большими»? За десять с небольшим прошедших лет по этому вопросу велось огромное множество споров. Ответ на него в первую очередь связан с размерами единиц измерения данных. В 2000 году, как правило, считалось, что большие данные – это данные, измеряющиеся в терабайтах. В тот период предприятий, где использовались бы данные терабайтного порядка, было представлена текстами, изображениями и музыкой, стал настолько велик, что традиционным предприятиям было бы немыслимо достичь того же уровня.

УГЛУБЛЁННЫЙ ВЗГЛЯД

Разберёмся в нескольких важных единицах хранения информации

Одна песня со стандартным качеством звука – это 4 мегабайта (Мб).

Один фильм со стандартным качеством графики – это 1 гигабайт (Гб, 1 гигабайт = 1024 мегабайтам, то есть размер фильма равен размеру 250 песен со стандартным качеством звука).

Книжный фонд обычной библиотеки – это 1 терабайт (Тб, 1 терабайт = 1024 гигабайтам, это размер 1024 фильмов со стандартным качеством графики).

В действительности лавинообразное увеличение объёма самых разнообразных данных наблюдается не только в интернет-индустрии, но и во множестве других отраслей и индустрий, с единственным отличием – в масштабе. Если критерии больших данных ограничить исключительно интернет-индустрией и считать, что они используются только в ней, это серьёзно сузит смысл понятия «большие данные». В конце концов объём – это только одно проявление, а сущностью больших данных является как раз их ценность, и при этом большой объём совсем не обязательно представляет большую ценность. Подлинное значение больших данных заключается всё же в большой ценности, которая, в свою очередь, приобретается прежде всего за счёт консолидации, анализа и открытия данных. С этой точки зрения подлинное значение больших данных состоит в том, что человек, получив беспрецедентные возможности для использования огромного массива данных, выявил в них новые знания, создал новые ценности и тем самым принёс обществу «большое знание», «большую науку и технику», «большую эффективность», «большой интеллект» и другие возможности для развития.

Выше мы обсудили понятийное различие между «данными» и «большими данными», однако самый лучший способ постичь какое-либо понятие – это понять его происхождение в динамике. Формирование больших данных объясняется не только прогрессом в информационных технологиях, но и результатом того влияния, которое оказывали друг на друга многочисленные достижения, сделанные в разное время в области информационных технологий.

1.2. Революция запоминающих устройств: эволюция, приведённая в движение действием закона Мура

В 1965 году один из создателей компании Intel Гордон Мур, проведя исследование закономерностей развития аппаратных средств вычислительных устройств, сформулировал знаменитый закон Мура. Согласно которому количество транзисторов, которое может быть размещено на микросхеме одной площади, увеличивается вдвое за период от одного года до двух лет 2 .

Постичь значимость увеличения числа транзисторов совсем непросто. Первоначальная идея Мура состояла в том, что увеличение плотности транзисторов на удельную площадь микросхемы приведёт к тому, что быстродействие аппаратных средств вычислительных устройств и их запоминающая способность, то есть их основные характеристики, будут увеличиваться вдвое за срок от одного года до двух лет. Было бы правильным, если бы улучшение характеристик влекло за собой повышение цены, однако в реальности происходит ровно наоборот: в последние полвека характеристики аппаратных средств непрерывно улучшались, при этом их стоимость непрерывно снижалась. Главная стоящая за этим причина, как ни удивительно, в постоянном уменьшении размеров транзисторов, поскольку уменьшение габаритов приводит и к снижению себестоимости; помимо этого, спрос на транзисторы возрастает с течением времени, а крупномасштабность производства также влечёт за собой непрерывное удешевление.

2

В 1965 году, когда Мур впервые обнаружил данную закономерность, он считал, что продолжительность периода составляет один год; в 1975 году он скорректировал её до двух лет. По мнению некоторых специалистов, этот период составляет 18 месяцев.

Оглядываясь на последние более чем полвека, отметим, что развитие аппаратных средств вычислительных устройств в принципе соответствовало закону Мура, что схематично показано на рисунке 1.4. Рассмотрим в качестве примера физическую память. Её свойства действительно постоянно улучшаются, в то же время стоимость неизменно падает. В 1955 году компания IBM выпустила первый блок памяти для коммерческого использования, запоминающее устройство ёмкостью 1 мегабайт стоило более 6 000 долларов США. Впоследствии его цена непрерывно снижалась: в 1960 году она снизилась до 3 600 долларов, в 1993 году – до 1 доллара, в 2000 году – примерно до 1 цента, к 2010 году стоимость каждого мегабайта составляла около 0,005 цента. За период чуть более полувека цена на запоминающее устройство опустилась до одной стомиллионной от первоначальной цены – масштаб и стремительность подобной перемены поистине поражает. В реальности за всю историю человечества не было ни одного другого продукта, размах снижения цены на который был бы настолько огромным!

  • Читать дальше
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • ...

Ебукер (ebooker) – онлайн-библиотека на русском языке. Книги доступны онлайн, без утомительной регистрации. Огромный выбор и удобный дизайн, позволяющий читать без проблем. Добавляйте сайт в закладки! Все произведения загружаются пользователями: если считаете, что ваши авторские права нарушены – используйте форму обратной связи.

Полезные ссылки

  • Моя полка

Контакты

  • chitat.ebooker@gmail.com

Подпишитесь на рассылку: