Вход/Регистрация
Сигнал и шум. Почему одни прогнозы сбываются, а другие - нет
вернуться

Сильвер Нейт

Шрифт:

Несмотря на то что мы активно полагаемся на технологии XXI в., у нас до сих пор остались слепые пятна Эдгара Аллана По, касающиеся роли, которую машины играют в нашей жизни. Компьютер заставил Каспарова ошибиться, но лишь из-за неправильного кода программы.

Что компьютеры умеют делать хорошо?

Компьютеры умеют очень быстро производить расчеты. Более того, мы можем рассчитывать, что они будут делать это безупречно – не уставая, не подчиняясь эмоциям и не меняя настроения во время игры.

Но это не значит, что компьютеры всегда создают идеальные прогнозы (или даже хорошие). Эта проблема отлично описывается аббревиатурой GIGO (garbage in, garbage out, или «мусор на входе – мусор на выходе»). Если «скормить» компьютеру плохие данные или создать неправильный набор инструкций для анализа, он не сможет превратить грязь в золото. Кроме того, компьютеры довольно плохо исполняют задачи, требующие креативности и воображения, такие как разработка стратегии развития или теории о том, как работает мир.

Таким образом, компьютеры более всего полезны прогнозистам в таких областях, как прогнозирование погоды и шахматы, где система следует сравнительно простым и понятным законам, но где уравнения, управляющие системой, должны решаться по множеству раз, чтобы создать хороший прогноз. Судя по всему, компьютеры мало чем могут помочь нам в таких областях, как экономика или прогнозирования землетрясений, где причины кажутся более расплывчатыми, а данные сильнее перемешаны с шумом. В каждой из этих областей и в 1970-х, и в 1980-х гг. на компьютеры, ставшие доступными ученым для решения повседневных задач, возлагались большие надежды, однако до сих пор серьезный прогресс так и не достигнут.

Но между этими двумя полюсами находится множество других областей применения. Зачастую данные можно считать хорошими, но не отличными, и у нас есть некое (далеко не идеальное) понимание систем и процессов, в результате действия которых они получены. В подобных случаях существует возможность улучшить предсказания благодаря процессу, который использовали программисты Deep Blue, – применению метода проб и ошибок. Именно этот метод лежит в основе бизнес-стратегии компании, которую мы чаще всего связываем в настоящее время с Большими данными.

Когда метод проб и ошибок действительно работает

Если вы приедете в офисный комплекс Googleplex, расположенный в городе Маунтин-Вью, штат Калифорния, где я побывал в конце 2009 г., то заметите, что не всегда понимаете, когда с вами говорят серьезно, а когда шутят. Здесь царит культура, стимулирующая креативность и выражающаяся, помимо прочего, в ярких цветах, наличие волейбольных площадок и невероятных разновидностей двухколесных средств передвижения. Сотрудники Google, даже программисты и экономисты, могут быть достаточно капризными и вести себя необычным образом.

«Такие эксперименты проходят у нас все время, – сказал мне на встрече Хэл Вариан, главный экономист Google. – Нашу компанию лучше всего представлять себе как организм, нечто живое. Я уже много раз говорил о том, что нам нужно обращать внимание на то, когда этот организм оживает и может напоминать Skynet [121] . Однако мы договорились с губернатором Калифорнии, – на тот момент Арнольдом Шварценеггером, – что он придет и нам поможет». Google проводит масштабное тестирование своих поисковых и других продуктов. «В прошлом году мы провели 6000 экспериментов в области поиска и еще примерно столько же в области монетизации рекламных объявлений, – сказал мой собеседник. – Так что можно сказать, что Google проводит не менее 10 тыс. экспериментов в год». Некоторые из этих экспериментов заметны всем нам – зачастую благодаря им появляется новая продуктовая линейка. Однако большинство из них мы не отслеживаем – в ходе экспериментов логотип перемещается на несколько пикселей в сторону, или чуть-чуть меняется цвет фона в рекламе, а затем исследователи Google отслеживают, какое влияние это оказывает на количество кликов или монетизацию. Многие эксперименты охватывают всего 0,5 % пользователей Google (чаще всего охват зависит от того, насколько многообещающей кажется идея).

121

Словом «Skynet» назывался злонамеренный компьютер в серии фильмов о Терминаторе, главную роль в которых играл Шварценеггер. Этот компьютер очень обижается, если вы путаете его с HAL 9000 из «Космической одиссеи». – Прим. авт.

Когда вы вводите свой поисковый запрос в Google, то, возможно, и не знаете, что участвуете в эксперименте. Однако Google понемногу предлагает вам небольшие изменения. И результаты поисковых запросов, и порядок, в котором они появляются на странице, представляют собой предсказание компании о том, какие результаты вы посчитаете наиболее полезными.

Как можно измерить и предсказать такое качество, как «полезность», порой кажущееся нам субъективным? Если ваш запрос выглядит как лучший новый мексиканский ресторан, то означает ли он, что вы планируете поездку в Альбукерке? Или вы ищете недавно открытый мексиканский ресторан? Или то, что вам нужен мексиканский ресторан, подающий блюда в стиле Nuevo Latino? Может быть, вам стоило перефразировать свой запрос, но, раз вы этого не сделали, Google может собрать группу из 1000 человек, сделавших тот же запрос, показать им различные наборы веб-страниц, а затем попросить их оценить полезность каждого набора по шкале от 0 до 10. После этого Google будет показывать вам только ссылки на страницы, расположенные по порядку среднего рейтинга, начиная с самого высокого.

Разумеется, Google не может проводить подобное изучение каждого поискового запроса, особенно, учитывая, что количество ежедневных запросов составляет сотни миллионов. Но, как сказал мне Вариан, тестирование определенного репрезентативного набора запросов осуществляют специалисты-оценщики. Затем сотрудники компании определяют, какие статистические показатели лучше всего коррелируют с человеческими суждениями уместности и полезности вносимых изменений. Самым известным из статистических показателей Google является PageRank {651} – показатель, основанный на том, как много других веб-страниц ссылаются на ту, которая может оказаться для вас полезной. Однако PageRank – это всего лишь один из двух сотен сигналов, используемых Google {652} для аппроксимации суждений специалистов-оценщиков.

651

Larry Page, «PageRank: Bringing Order to the Web», Stanford Digital Library Project, August 18, 1997.http://www-diglib.stanford.edu/cgi-bin/WP/get/SIDL-WP-1997-0072?1.

652

«How Search Works», by Google via YouTube, March 4, 2010. http://www.youtube.com/watch?v=BNHR6IQJGZs.

  • Читать дальше
  • 1
  • ...
  • 100
  • 101
  • 102
  • 103
  • 104
  • 105
  • 106
  • 107
  • 108
  • 109
  • 110
  • ...

Ебукер (ebooker) – онлайн-библиотека на русском языке. Книги доступны онлайн, без утомительной регистрации. Огромный выбор и удобный дизайн, позволяющий читать без проблем. Добавляйте сайт в закладки! Все произведения загружаются пользователями: если считаете, что ваши авторские права нарушены – используйте форму обратной связи.

Полезные ссылки

  • Моя полка

Контакты

  • chitat.ebooker@gmail.com

Подпишитесь на рассылку: