Вуль Владимир Абрамович
Шрифт:
Глава 7 Информационная структура современного издательства
В главе анализируется информационная структура издательства и предлагается современный вариант ее реализации. В частности, описывается двухуровневый вариант издательской базы данных, в которой функции хранения информации отделены от функций ее поиска. Рассматривается проектирование хранилища изданий и реляционной базы данных для хранения атрибутивной информации, а также клиентского программного обеспечения и средств доставки медиа-информации.
7.1. Общая информационная структура издательства
В связи с быстрым развитием электронных средств и систем распространения информации возникает все больше вопросов относительно роли новых издательских технологий и значимости электронных изданий в современном мире. Прежде всего остановимся на том, какие изменения характеризуют современные технологии издательского процесса:
✓ все более широкое использование компьютеров не только при непосредственной подготовке книги или журнала, но и для создания и ведения издательского портфеля, подготовки иллюстраций, оригинал-макетов, диапозитивов и пр.;
✓ использование сетевых технологий для организации совместной работы и взаимодействия наборщиков, верстальщиков, оформителей издания и т. д.;
✓ повсеместное внедрение электронной формы представления издательского портфеля в виде базы данных (БД), в которой хранятся не только окончательно сверстанные издания, но зачастую и их версии;
✓ распространение в электронном виде точной копии печатного издания с возможностью ее последующей распечатки в случае необходимости в произвольном количестве экземпляров;
✓ появление принципиально новых типов изданий с использованием чисто компьютерных технологий, таких как гипертекст, мультимедиа, электронное аналоговое моделирование, анимационные эффекты;
✓ подключение практически всех средних и крупных издательств к Всемирной сети Интернет, что открывает совершенно новые возможности как в части доступа к информации, распространяемой данным издательством.
В состав цифрового мультимедиа-наряду с традиционными текстовыми и графическими файлами в самых различных форматах, входит также цифровые аудиофайлы, анимационные графические файлы и видеофайлы в цифровом формате. Основной информационных носитель цифрового мультимедиа ⎯ это компакт-диск, а в последние годы еще и DVD-диск. Кроме того, мультимедиа-информация может непосредственно передаваться по сетям связи, храниться в виде соответствующих файлов на жестких магнитных дисках персональных компьютеров, накапливаться в виде специальных баз данных, к которым возможно в том числе и дистанционное обращение для занесения новой или извлечения имеющейся информации.
Все известные традиционные промышленные технологии имеют ограниченную сферу применения, что обычно следует из самого их названия. В то же время трудно привести пример области науки или техники, которая хотя бы потенциально не была связана с технологиями мультимедиа. Цифровое мультимедиа объединяет все известные формы представления информации – текст, графику и фотографические изображения, цифровое видео и аудио, цифровые модели объектов и интерактивные данные, такие как Java-апплеты. Главная задача мультимедиа-технологий состоит в интеграции процессов создания, управления и распространения информации любого вида.
Современное издательство постепенно превращается в систему для переработки и хранения цифровой медиа-информации. В функции издательской системы будет входить оцифровка, индексация, длительное хранение, извлечение и защита от несанкционированного доступа цифровой медиа-информации в распределенной сетевой среде. Можно перечислить основные подсистемы издательской информационной системы, представленные на рис. 7.1 [7, 10]:
✓ централизованное хранилище цифровой информации всех типов и форматов;
✓ совокупность цифровых технологий для загрузки изданий в хранилище и их каталогизации;
✓ система поиска и просмотра первичной информации;
✓ доставка единиц хранения информации работнику издательства для редактирования. Такая издательская система обязана обладать определенным набором свойств. Она должна обеспечить:
✓ хранение всех типов данных в едином информационном пространстве;
✓ минимизацию ручного труда по каталогизации и индексации информации;
✓ доступность информации с любого клиентского компьютера;
✓ возможность нахождения издания по его информационным характеристикам;
✓ беспроблемную стыковку клиентского программного обеспечения со средствами обработки и создания содержания изданий;
✓ доступность издания только для лиц с соответствующими правами доступа.
Рассмотрим составные элементы информационной структуры издательства (рис. 7.1). Основные компоненты системы локализуются на сервере или нескольких серверах. В частности, отдельный сервер обычно используют для ведения издательской базы данных. Иногда может быть выделен специальный сервер доставки информации клиенту, реже – сервер для поиска нужных электронных изданий. Для интеграции сервера (серверов) с клиентскими компьютерами используется специальная интрасеть. Роль и характеристики таких интрасетей рассмотрены в разд. 7.2. Наконец, посредством экстрасети и сети Интернет могут быть подключены территориально удаленные отделения и сотрудники издательства и некоторые контрагенты, с которыми поддерживается регулярная информационная связь. В качестве таких бизнес-партнеров могут быть оптовые и мелкооптовые книготорговые предприятия, крупные книжные магазины и полиграфические предприятия, которые регулярно выполняют заказы издательства на изготовление тиража книг или журналов. Крупные издательства нередко поддерживают постоянные связи с поставщиками бумаги и других полиграфических материалов.
Ядром любой издательской информационной системы является хранилище изданий. Естественно, издания хранятся в электронной форме, т. е. хранилище электронных изданий – основной компонент информационной системы издательства. Поэтому требования к этому компоненту и особенности организации хранения электронных изданий будут рассмотрены в специальном разделе. Здесь следует лишь отметить, что для организации эффективного поиска изданий, наряду с содержанием самих изданий необходимо хранить атрибутивную информацию или метаданные. В состав метаинформации обычно включают: имя автора или авторов, название издания, время первой публикации издания, название издательства, принадлежность авторских прав, характер представления данных (тип файла) и пр.
Загрузчик является той частью издательской системы, которая должна сделать ввод изданий и документов настолько эффективным, насколько это возможно. Поскольку количество вводимой информации велико, становится понятно требование минимизации ручного труда в этом процессе. При вводе электронных изданий одновременно должны генерироваться метаданные для каталогизации и индексирования, на основе которых документы могут затем извлекаться пользователями. Известно несколько способов автоматизации, соответствующих разным методам доступа к данным. Наиболее известен и хорошо отработан метод автоматической индексации полного текста.
Самые прогрессивные средства индексации текста базируются на технологии семантических сетей, в которой значения слов определяются по контексту, а не просто подбором унифицированных терминов для отдельных слов, однако пока работу программных средств нельзя назвать безупречной. Представляется оправданным включение в метаданные ключевых слов, отобранных автором и редактором, так как лучше них никто не сможет подобрать набор ключевых слов, оптимально характеризующих как тематическую область издания, так и его отличия от близких по тематике. В издательской деятельности возможна автоматическая генерация связей для отношений "содержится" и "используется в" путем разбора языка компоновки страниц и выделения элементарных объектов из составных документов. Чем более структурирован язык описания страниц, тем легче выделять информацию: форматы с высоким уровнем структуризации, подобные Adobe FrameMaker и SGML, гораздо эффективнее, чем форматы со специальной структурой типа QuarkXPress и Word. Хуже всего интерпретируются форматы, не имеющие четко выраженной структуры, такие как PostScript и, в меньшей степени, PDF.
До сих пор не существует общих средств автоматического выделения нетривиальной информации из изображений, аудио и видео, но некоторые разработчики (Kodak, LivePicture, Virage, Excalibur) занимаются исследованиями в этой области. Иногда атрибутивные метаданные могут генерироваться просто путем извлечения информации из определенных форматов данных. Лучший пример этого – форматы файлов графического редактора Adobe Photoshop, которые содержат массу полезной информации.
При загрузке добавляются не только метаданные, но и вспомогательные представления документов, в частности, миниатюры, отражающие внешний вид издания. Генерация миниатюр также может быть автоматизирована. Например, большинство графических форматов содержат свои собственные миниатюры, для других, например для изображений с высоким разрешением, можно сгенерировать их "на лету". Аналогично можно спроектировать загрузчик таким образом, чтобы он, получая цифровые аудиообъекты, создавал клипы первых нескольких секунд звучания в одном из стандартных простых форматов (например, в формате WAV 10 кГц). Таким же образом видеоинформация в формате MPEG-2 может преобразовываться в клипы QuickTime длительностью в 5 или 10 с.
Существует два базовых способа доставки цифровых документов пользователю: передача файлов – ее можно использовать для текстов, изображений, аудио и видео с низким качеством, и поточная передача – для высококачественного "движущегося" медиа, т. е. аудио, видео и анимации. Этот последний способ предъявляет очень серьезные требования к возможностям сервера, осуществляющего такую потоковую доставку информации.
При хранении мультимедиа-данных требования к вычислительным ресурсам, необходимым для передачи документов, качественно отличаются от требований к подсистеме хранения. Поэтому, во многих случаях, выделяется отдельный сервер доставки данных. В первую очередь этот сервер должен иметь высокую пропускную способность для передачи мультимедийных объектов из хранилища на клиентские компьютеры. В идеале хранилище изданий должно включать в себя возможность многосерверного доступа так, чтобы гарантировать параллельную работу сервера хранилища изданий и сервера доставки данных. Сервер доставки обязан обеспечивать гарантированную полосу пропускания для потока данных, поэтому в архитектуре сервера должны быть сбалансированы ресурсы процессора, периферии ввода/вывода и сетевых интерфейсов. Программное обеспечение сервера доставки, во-первых, должно включать средства низкого уровня для работы с файлами, обеспечивающие различные режимы проигрывания медиа. Во-вторых, необходимо, чтобы оно же определяло стандартные интерфейсы для разработки приложений – "плееров" на клиентской стороне и реализовывало серверную часть этих интерфейсов.
В большинстве случаев используется так называемое "сквозное проигрывание" (playthrough), что дает возможность начать просмотр мультимедийного издания еще до того, как оно полностью загружено на сервер доставки. Например, сервер MediaCenter фирмы Sun позволяет начать воспроизведение аудио– или видеоданных уже через 5 секунд после начала загрузки. Сквозное проигрывание необходимо для приложений с быстрым и непрерывным обновлением содержания. Режим playthrough развивает метод оперативной загрузки, который заключается в способности сервера одновременно загружать один и воспроизводить другой документ.
На уровне операционной системы видеоматериалы представляются взаимосвязанной совокупностью файлов. Таким образом, для фильма в цифровой форме хранятся файлы одного или нескольких видеопотоков и файл для аудиопотока. В дополнение к файлам содержания существуют вспомогательные файлы, которые поддерживают распределение первичного файла по разным дискам (striping), синхронизацию между отображением видео и звучанием аудио, обеспечивают различные режимы воспроизведения.
Браузер, как уже отмечалось в предыдущей главе, представляет собой основной интерфейс пользователя для доступа и просмотра электронных изданий. Отделение браузера от уровня клиентских сервисов подчеркивает тот факт, что он может быть реализован с помощью любого стандартного Webбраузера, что дает множество преимуществ, например, независимость от платформы. Наращивание функциональных возможностей может происходить путем добавления сервисов в рамках задаваемой браузером общей организации просмотра и редактирования.
Браузер обеспечивает интерфейс с сервисом запросов и должен выполнять следующие функции:
✓ иерархический доступ к каталогам и файлам, аналогичный менеджеру файлов;
✓ интерфейсы для поиска;
✓ просмотр списка ответов, включающего миниатюры;
✓ навигацию по связям между документами.
Если данный клиент обладает правами доступа к хранилищу изданий, он может, выбрав одну из миниатюр, сформировать запрос к хранилищу изданий на получение необходимого документа. После определенного времени ожидания, связанного с выбором соответствующего информационного носителя в хранилище, сервер доставки начнет передачу клиенту запрошенной информации. Второй главный компонент браузера – средства просмотра для мультимедийных изданий. Для этого компонента существенно, чтобы медиа-документы были представлены в распространенных форматах либо легко преобразовывались в них. Браузер, однако, должен быть способен получать документы в их родных форматах и активизировать соответствующие приложения обработки, например, чтобы пользователь мог редактировать документы.
Работа с медиа-информацией предполагает несколько различных способов доступа к объектам хранения. Довольно часто медиа-документы бывают организованы так, что имеют простую иерархическую структуру. В этом случае доступ к ним может быть реализован через аппарат файловой системы сервера. Большие сложности вызывают запросы по атрибутам и запросы по ключевым словам, описывающим содержание. Оба эти параметра входят в метаданные, которыми документы дополняются при загрузке в хранилище. Для составных документов хороший способ состоит в том, чтобы не хранить их целиком, а включать в них навигационные связи с вложенными объектами. Например, если в системе хранится журнал, то должны быть связи между его страницами и отдельными объектами, которые содержат статьи, фото, рекламу.
Система хранения обязана обеспечивать несколько видов представления документов. Каждый документ должен иметь уменьшенную копию – миниатюру (thumbnail), которая компактно представляет его и возвращается пользователю в списке результатов запроса. Такое представление может быть заголовком или титульной страницей (для текстовых объектов), уменьшенным изображением (для графики), пятисекундным отрывком аудио– или видеоклипа.
Различные формы взаимодействия могут применяться и при доступе к самому изданию. В частности, представление "только для просмотра" дает пользователю возможность изучения содержания издания без права редактировать его. Примеры такого представления – формат Adobe Acrobat PDF, представление изображений в формате экрана (viewer), цифрового видео – в формате QuickTime и пр.
Сейчас для хранения информации преимущественно используются реляционные БД, обладающие мощным потенциалом, масштабируемостью, стандартным языком запросов по атрибутам SQL (Structured Query Language).
Однако они не проектировались для хранения исходных, полных документов, а тем более – мультимедийных. Для работы с полными документами более пригодными представляются объектно-ориентированные БД, в которые могут быть включены различные индексные структуры и методы доступа для объектов определенного типа. В них же проще создать иерархию типов, отражающую специфическую семантику. Сказанное представляется особенно важным для медиа-объектов различных типов и форматов. Возможно также создание комбинированных объектно-реляционных БД.
Для работы с медиа-документами больше подходят объектно-ориентированные БД (ООБД). В ООБД можно разработать индексные структуры и методы доступа специально для объектов определенного типа. Кроме атрибутов для объектов можно определить семантику, формализованную в операциях над ними, и создать иерархию типов, которая будет отражать все более и более специфическую семантику.
Например, система, построенная на ООБД, может иметь тип данных content-object с операцией play. На следующих уровнях иерархии могут быть подтипы для объектов со специфическим содержанием: audio-object, video-object, animation-object, и подтипы для специфических форматов: WAVaudio-object, MPEG2-video-object. Независимо можно ввести тип text-index, определив для него операции автоматической индексации и выполнения запросов. В ООБД в число атрибутов могут включаться указатели на индивидуальные объекты, что позволяет легко реализовать упомянутые выше отношения вхождения документов.
Резюмируя, можно сказать, что ООБД сами по себе имеют потенциал, чтобы стать законченным решением для системы на серверной стороне. Считается, что ООБД уступают реляционным системам в надежности, работоспособности и возможностях передачи данных, т. е. характеристиках, существенных для масштабируемости. Ожидается, однако, что Universal Server компании Informix, в котором объединены "объектно-реляционные" средства Illustra с масштабируемостью самой системы Informix, сможет преодолеть эти недостатки. Программное обеспечение DataBlade, входящее в Informix Universal Server, хорошо согласуется с предлагаемой архитектурой издательской системы. Помимо того, в DataBlade имеется возможность определять семантику новых типов данных непосредственно в БД.
Информационное хранилище издательства опирается на файловую систему сервера. Чтобы реализовать стратегию хранения данных, от файловой системы требуется поддержка управления томами и иерархического управления памятью (Hierarсhical Stirage Management – HSM). HSM, грубо говоря, – это примерно то же самое, что виртуальная память для физической ОП: она позволяет рассматривать различные уровни памяти (в частности, жесткие и оптические диски, магнитную ленту, если она используется) как одну большую файловую систему.
Если пользователь или приложение открывает файл, то он либо уже находится на жестком диске, либо HSM считывает его с автоматически текущего оптического диска из многотомной дисковой системы, либо извещает оператора о необходимости найти нужный том. Последний может находиться внутри специального блока для смены дисков ("чейнджера") или его следует найти внутри библиотеки на полке. В последнем случае для поиска тома с нужным номером и установки его в дисковод требуется помощь оператора, в результате чего полное время обращения многократно возрастает.
Схема HSM несомненно полезна, но, к сожалению, требует определенного развития. Например, когда пользователь пытается извлечь изображение высокого разрешения, а его размер может достигать десятков мегабайт, или же фрагмент цифрового видеофильма, то было бы полезно, чтобы система формировала специальное сообщение для пользователя, каково будет время ожидания. Последнее, кроме размера файла, зависит также от степени доступности объекта.
Выбор стратегии размещения данных зависит, конечно, от объема данных в медиа-изданиях, но, кроме того, – и от требований по скорости доступа к ним, т. е. оттого какие данные должны быть доступны немедленно, а какие могут стать доступными через секунды или минуты. Например, редактор книги, у которого процесс производства длится несколько недель или месяцев, может счесть для себя приемлемым подождать десять минут и даже больше, пока оператор найдет и поставит нужный диск. Редактор же ежедневной газеты вряд ли согласится ждать, пока будет получена цифровая фотография больше нескольких минут, т. е. его данные должны храниться в многотомной системе на оптических дисках с автоматическим поиском и установкой компакт-диска. Видеоклипы, распространяемые по каналам кабельного телевидения, должны быть доступны практически мгновенно.