Шрифт:
Любой производственный или научный процесс порождает огромные объемы данных, и работать с ними по мере увеличения объемов становится все сложнее. Количество данных когда-нибудь превысит способность человека их обрабатывать, поэтому необходимы новые инструментальные средства и алгоритмы для анализа. Вместе с тем предъявляются серьезные требования к обеспечению прозрачного доступа и долговременной сохранности информации. В результате вопросы «что хранить?», «как хранить?» и «как найти?» остаются самыми существенными: без ответа на них все остальные теряют актуальность (10).
Взаимодействие человека с информацией, существующей в машиночитаемом виде (данными), осуществляется при помощи специализированных программных комплексов – информационных систем (ИС), предназначенных для:
• организации хранения информации (организация хранилищ, поддержка систем хранения данных);
• управления информацией (добавление, модернизация, изменение данных);
• управления доступом к информации (контроль исполнения правил регламентации доступа к данным), идентификация данных;
• поиска информации;
• извлечения информации и предоставления ее пользователю (приложению) в необходимом ему виде;
• визуализации (представления) информации в соответствии с требованиями пользователя (4; 7).
Исходя из тенденций развития систем коммуникаций и практики организации локальных хранилищ данных современная ИС должна удовлетворять некоторым общим требованиям, а именно:
• она должна быть распределенной – РИС 13 ;
• РИС должна обеспечивать контролируемый доступ к различным информационным ресурсам для пользователей и администраторов различных уровней;
13
РИС – распределенная информационная система.
• РИС должна обеспечивать сквозной поиск, в том числе полнотекстовый, по различным критериям;
• РИС должна предоставлять информацию в требуемом пользователем виде;
• внутренние технологии РИС должны быть скрыты от пользователей;
• внешние интерфейсы должны быть стандартизованы (6).
При попытках разработки РИС, удовлетворяющих перечисленным требованиям, возникают проблемы, связанные с различными аспектами их функционирования. Эти проблемы можно сгруппировать в следующие классы (2; 6):
• модели и стандарты представления информации и метаинформации.
К сожалению, следование рекомендациям международного сообщества о стандартизации схем данных не является характерной чертой подавляющего большинства разрабатываемых и функционирующих информационных систем 14 ;
• автоматическая классификация информации.
Разработчики ИС не используют модели классификации хранимой информации, затрудняя тем самым включение механизмов, в том числе внешних, для ее автоматической классификации;
14
Сами рекомендации тоже являются весьма противоречивыми. К примеру, можно сравнить концептуальные модели DELOS и FRBR.
• доступ к распределенным и разнородным коллекциям (интероперабельность, масштабируемость, обнаружение релевантной информации, интеграция метаинформации).
Интероперабельность создаваемых информационных систем не выдерживает даже минимальной критики (2);
• интерфейсы пользователей, визуализация и анализ данных.
К сожалению, подавляющее количество существующих ИС оперирует только с графическими веб-интерфейсами доступа к данным. При этом возможность доступа к данным вне графических интерфейсов, как правило, не реализуется. Это исключает возможность интеграции разрабатываемых ИС в крупные информационные системы (4);
• вопросы интеллектуальной собственности.
Это вечная проблема информационных ресурсов, тиражирование которых не связано с материальными затратами;
• анализ и обработка естественного языка, изображений, видео- и аудиоданных.
Обработка контента требует специальных подходов к каждому типу данных. В частности, необходима реализация поиска по фрагментам (фрагмент текста, фрагмент изображения и т.п.) с использованием шаблонов (шаблон текста, шаблон изображения и т.д.). Реализация специфических шаблонов для такого поиска представляет собой отдельную проблему;
• многоязыковый доступ к данным и обслуживание данных на нескольких языках.
Доступ такого рода требует многовариантности индексирования данных и реализации динамического преобразования данных;
• мобильные технологии и агенты.
Речь идет о реализации интерфейсов доступа к информации, ориентированных на возможности клиентских устройств;
• методы и средства поиска, каталогизация, индексирование, поддержка целостности и непротиворечивости коллекций, безопасность и защита информации.