Шрифт:
• ВикипедиЯя-тест (Lise Getoor, Лиз Гетур). По сборнику статей, созданному либо в режиме партисипативной журналистики (то есть по принципу наполнения Википедии), либо с использованием автоматических инструментов поиска линков по требуемой тематике, определить, какой из этих двух методов использовался: то есть составлен ли сборник машиной или людьми (и в каком случае качество оказалось выше)? Автор предложения указывает на связь этого вызова с другим, брошенным специалистам по сжатию информации: сжать 100 мегабайт Википедии до 18 мегабайт, не потеряв ни единого бита (за это уже назначен приз Хаттера в 50 тысяч долларов).
• Оценить миллиард прогнозирующих моделей (Robert Grossman, Роберт Гроссман). В ходе многолетней практики датамайнинга было построено великое множество статистических моделей для различных типов и конкретных ансамблей данных. Во многих случаях для одних и тех же массивов данных строится несколько моделей, чтобы ухватить их характеристики разных видов. Пример: имеется информация от 833 датчиков движения транспорта в Чикаго. Задача состоит в автоматическом определении ситуаций, когда в транспортном потоке возникают аномалии, происходит что-то необычное (но не простая пробка!). Данные сегментировались по дням, часам и участкам дороги, что приводило к появлению 7х24х250 = 42000 автоматически генерируемых статистических моделей — хотелось бы значительно сократить их число! Подобная ситуация возникает и в онлайновом маркетинге (отдельная модель поведения для каждого клиента), в перспективных подходах к оценке эффективности лекарств на основе индивидуального генотипа и т. д. Так что миллиард набирается легко — вопрос в том, как радикально уменьшить это число.
• Разработка систем анализа текстов (text mining), способных сдать обыЧные экзамены на понимание текста SAT, GRE, GMAT (Ronen Feldman, Ронен Фелдман). Эту задачу с оптимизмом комментирует в своих ответах Григорий Пятецкий-Шапиро. Она покруче даже стандартного теста Тьюринга (определить, машина или человек отвечает на ваши вопросы), по поводу которого тоже было много оптимизма, в том числе и у его гениального автора. Однако не будем забывать, что этот вызов — лишь планка, которую автор предложения поднимает так высоко в надежде на достижение более приземленных практических целей: довести точность реализации реляционных запросов с нынешних 70—80% до 98—100%, причем в самой общей ситуации.
Кроме этого, был предложен еще один весьма важный вызов — функциональная аннотация белков. Однако формулировка здесь так сложна, а задач так много, что мы ограничимся лишь констатацией — это направление, датамайнинг в геномике и протеомике, тоже служит источником великих вызовов (напомним, кстати, что недавно назначен приз X PRIZE за снижение стоимости сканирования генома до 10 тысяч долларов при повышении производительности до ста геномов за десять дней).
Ну а для полноты картины упомянем и конкурс, который состоится на конференции KDD-2007. Участникам предоставляется тренировочный массив данных Netflix, в котором собрано больше 100 млн. рейтингов (по пятибалльной шкале) по 18 тысячам фильмов от 480 тысяч случайно выбранных анонимных пользователей Netflix (то есть людей, бравших у Netflix DVD напрокат), с 1998 по 2005 год. Вот одна из двух задач, по которым будет проводиться состязание:
Дан список из 100 тысяч пар вида «номер_пользователя, номер_фильма», относящийся к 2006 году (то есть не входящий в тренировочный массив). Для каждой такой пары нужно указать вероятность, что данный пользователь хоть как-то рейтинговал данный фильм в 2006 году.
Денежные призы не предусмотрены — в отличие от основного конкурса Netflix. Там, чтобы заработать миллион долларов, требуется превзойти точность действующей сейчас на фирме системы рекомендаций Cinematch™ всего лишь на 10% (на исторических данных); ежегодно разыгрывается приз в скромные 50 тысяч долларов просто за самое большое уточнение прогноза. Прогноз состоит в том, чтобы угадать по предшествующим оценкам фильмов клиентами, какие из фильмов они высоко оценят в будущем. По состоянию на 14 марта 2007 года лучший результат в конкурсе Netflix уже 6,75%, то есть две трети пути к миллиону пройдено.
ЦИФРА ЗАКОНА: Письмо несчастья: Может ли «покаянное письмо» спасти системного администратора?
Автор: Павел Протасов
Среди обилия заблуждений, бродящих по умам наших соотечественников, одно из первых мест занимают те, что связаны с законодательством. Об одном из них я и хочу сейчас поговорить. Оно периодически всплывает то тут, то там в ходе разнообразных обсуждений судьбы тех бедолаг, что попали под кампанию борьбы нашего государства с пиратством, однако наиболее активно его начали пропагандировать в связи с недавним судебным процессом по обвинению в «пиратстве» директора сельской школы Александра Поносова. Связано оно с вопросом о том, как обезопасить себя от милицейского «наезда», если на вверенной абстрактному системному администратору территории обнаружилось что-то контрафактное.
Директор школы Поносов — все-таки исключение, а типичной является ситуация, когда за «пиратку» привлекают к ответственности компьютерных дел мастера, обслуживающего какую-нибудь контору. В один прекрасный день приходит проверка, которая обнаруживает на конторских компьютерах пиратские программы и интересуется: а кто же их установил. Такой человек находится довольно быстро, а поскольку речь идет об организации и компьютеров несколько, то контрафакта на «уголовный» размер обычно набирается. Следствие, суд, условный срок, заметка в местной газете об очередной победе борцов с высокими технологиями и о вреде пиратства. Стандартный набор.
Правда, сперва я хочу испортить вам удовольствие от предвкушения развязки этой статьи и дать искомый ответ в самом начале. Он прост: чтобы избежать ответственности за «пиратство», не нужно ставить ничего «пиратского». А теперь — можете читать дальше.
Пальму первенства в дискуссиях о том, как выйти сухим из воды, удерживает предложение обратиться к вышестоящему начальству с письмом и предупредить о недопустимости использования на рабочих местах контрафакта. Следует вручить оное письмо под роспись и наслаждаться жизнью. Дающие такой совет уверены, что это позволит переложить ответственность на начальника, оставив непосредственного исполнителя чистым. Вот на этом устойчивом и вредном заблуждении я бы и хотел остановиться поподробнее.