Вход/Регистрация
Интернет-журнал "Домашняя лаборатория", 2007 №9
вернуться

Журнал «Домашняя лаборатория»

Шрифт:

Сканированные книги — это файлы, хранящие целые электронные изображения каждой страницы книги. Такие файлы делаются путём сканирования бумажной книги постранично и дальнейшей обработки с целью улучшения качества и уменьшения размеров файла. Поскольку каждая страница хранится в виде ряда точек (растра), то такие книги можно кратко называть растровыми, чтобы отличить их от векторных. Основные форматы, употребляющиеся для растровых файлов, это PDF и DJVU. В этих форматах можно добавить также и распознанный текст, закладки и гиперссылки, чтобы были возможны быстрые переходы по книге и автоматический поиск текста. Поэтому качественно сделанные растровые книги не менее удобны в использовании, чем векторные, и несущественно проигрывают им в качестве распечатанного текста. Типичный размер растровой книги — от 5 (редко) до 10–15 килобайт на страницу, в зависимости от разрешения и качества текста или иллюстраций.

Производство векторной электронной книги из бумажной книги путём компьютерного распознавания (OCR) связано с колоссальными затратами труда, особенно если книга содержит много иллюстраций, графиков, диаграмм, таблиц, или формул, ибо нынешнее состояние распознавательных программ заставляет форматировать всё это вручную, и нередко — исправлять ошибки распознавания текста. Поэтому для таких книг гораздо легче делать именно растровые, а не векторные электронные версии. Даже в чисто текстовых книгах — без иллюстраций, таблиц или формул — автоматическое распознавание порой даёт трудновыявимые ошибки. Гораздо быстрее приготовить растровую электронную книгу, тем более что современная технология сжатия изображений позволяет делать файлы вполне приемлемого размера. Например, средний размер растровых книг, включая распознанный текст — 13 КЬ на страницу. Это означает, что растровая книга, имеющая 400 страниц, в среднем занимает около 5 Mb (цифры приводятся для формата DJVU). На стандартном DVD-носителе (4,5 Gb) может поместиться около 900 таких книг.

Некоторые программы позволяют делать файлы формата PDF, в которых весь плохо распознанный материал содержится в виде отсканированных картинок, а текст является векторным. Такие PDF файлы, однако, сильно проигрывают чисто растровым книгам и по внешнему виду (нестыковка векторных шрифтов и фрагментов изображения страницы), и по размеру файлов.

Форматы DJVU и PDF

Формат DJVU позволяет сжимать растровое изображение несколько лучше, чем PDF, просматривается быстрее, а также более удобен в технической обработке. Например, есть простые и бесплатные программные средства для редактирования гиперлинков, закладок и OCR-слоя в DJVU, но таких средств нет для PDF. Также, файлы DJVU более устойчивы к сбоям, чем PDF, и менее зависимы от версии просмотрщика, поскольку формат DJVU гораздо проще. Недостаток DJVU: возможность внести искажения при сильном сжатии и большое количество разных режимов сжатия приводят к тому, что сделать некачественный файл начинающему пользователю довольно легко. Также, DJVU файлы (по текущему стандарту) позволяют делать гиперлинки на другую страницу того же документа (но не на другой файл), на сайт интернета, и на выбранное место на данной странице (это можно делать и в PDF). Формат DJVU несложен, документирован и содержит гибкий механизм добавления метаинформации: к каждой странице можно добавлять произвольную информацию в виде нескольких пар key=value. Поэтому в принципе можно сделать всё это и многое другое (например проверку md5sum или криптографическую подпись) средствами формата DJVU.

Главное достоинство формата PDF — широкая совместимость (у всех есть бесплатный Acrobat Reader) и тот факт, что большинство людей пока ничего не знают о формате DJVU. Однако надо заметить, что программы для просмотра DJVU тоже бесплатные и требуют гораздо меньших ресурсов компьютера, чем Acrobat Reader. Недостатки PDF в основном технические, но они существенны. Главный недостаток — невозможность определить разрешение растра, находящегося внутри PDF. Это приводит к сильным потерям в качестве изображения при попытках улучшить качество не оптимально сделанного растрового PDF файла. Неоптимальные PDF файлы могут иметь размеры 100–200 КЬ на страницу и даже более. Оптимальный растровый PDF тратит от 10 до 20 КЬ на страницу, что примерно на 30–50 % больше, чем DJVU. Другие недостатки формата PDF — невозможность эффективно редактировать файлы[2] и чувствительность к сбоям при передаче файлов. Сбойный файл часто невозможно просмотреть даже частично. К техническим недостаткам формата PDF относится и то, что иногда не получается произвести оптимизацию размера файла[3], которая в принципе была бы возможна, если бы формат PDF был лучше спроектирован.

Проиллюстрируем соотношение размеров PDF и DJVU файлов. Перевод в формат DJVU типичной отсканированной издательством статьи из журнала Physical Review (у них высокое разрешение и хорошее качество сканирования) уменьшает размер издательского PDF файла в 10 раз. Во многих случаях перевод из векторного PDF в DJVU, даже с высоким качеством изображения и сохранением текста и навигации, всё равно даёт файл DJVU меньшего размера, чем исходный PDF. Это очень часто относится к файлам, созданным такими программами, как Quark Express, Acrobat Distiller (но не к файлам, созданным с помощью Latex/Ghostscript). Иногда векторные PDF файлы содержат много формул в виде вставных растров; такие файлы уменьшаются в 3–4 раза при переводе в DJVU.

Именно технические достоинства формата DJVU и возможность автоматизировано обрабатывать DJVU файлы привели к широкому использованию формата DJVU среди энтузиастов создания растровых электронных книг, в основном научно-технического характера.

Приспособления для сканирования

Получать изображение документа можно сканером или фотоаппаратом. Качественных различий[4] между ними нет, но и у сканеров, и фотоаппаратов есть свои достоинства и недостатки.

Достоинства фотоаппаратов

• Скорость сканирования — мгновения.

• Можно снимать где угодно, хоть прямо в библиотеке.

• Фотографировать можно не только бумажки[5].

Их недостатки

• Низкое разрешение; необходимость съёмки частями (и склейки частей) для получения хорошего качества.

• Неизбежное широкоугольное искажение (выпуклость или дисторсия) изображения, пагубность которого важна для иллюстраций.

• Сложно настраивать для достижения высокого качества.

* * *

Достоинства сканеров

• Высочайшее качество цветопередачи.

• Высокая разрешающая способность.

• Полное отсутствие искажений в случае плоских и плотно прилагаемых документов

Их недостатки

• Относительно низкая скорость.

• Величина и громоздкость, за исключением ручных сканеров.

• Большие различия моделей, приводящие к невозможности описания простого алгоритма настройки.

  • Читать дальше
  • 1
  • ...
  • 20
  • 21
  • 22
  • 23
  • 24
  • 25
  • 26
  • 27
  • 28
  • 29
  • 30
  • ...

Ебукер (ebooker) – онлайн-библиотека на русском языке. Книги доступны онлайн, без утомительной регистрации. Огромный выбор и удобный дизайн, позволяющий читать без проблем. Добавляйте сайт в закладки! Все произведения загружаются пользователями: если считаете, что ваши авторские права нарушены – используйте форму обратной связи.

Полезные ссылки

  • Моя полка

Контакты

  • chitat.ebooker@gmail.com

Подпишитесь на рассылку: