Шрифт:
Разрешение (цифра "dpi" — количество пикселей на дюйм) и глубина цвета (черно-белый — 1 бит, серый — 8 бит, цветной — 24 бит) — самые важные параметры сканирования. Софт для сканера должен давать пользователю возможность выбрать эти параметры непосредственно, а не просто выбирать между непонятными режимами типа "текст" — "рисунок" — "фото для интернета". Сканер должен поддерживать разрешение как минимум 600 dpi; других сканеров сейчас не продают, а больше 600 dpi практически никогда не требуется. Сканировать можно либо в 600 dpi, либо в 300 dpi. Никогда не сканируйте в 150 или 200! Время при этом Вы не сможете сэкономить, а качество будет безвозвратно утеряно. Другие разрешения, такие как 360, 400 и т. д., мало смысла использовать — они работают через интерполяцию изображения, то есть реально сканер сканирует в 300 dpi сером и делает интерполяцию до 400 dpi черно-белого. Такую интерполяцию можно и нужно сделать специальным софтом, а не тем софтом, что пришел со сканером.
Многие сканеры одинаково быстро делают скан листа в 300 dpi черно-белого режима и в 300 dpi серого режима (greyscale). Поэтому если вы сканируете в 300 dpi (а не в 600 dpi), то лучше сканировать всегда в сером режиме (greyscale), даже если книга не содержит вообще цветного материала. Специальный софт потом может поднять разрешение 300 dpi серых сканов до 600 dpi черно-белого, при сохранении отличного качества текста (как будто сканировали в 600 dpi черно-белом). Проблемы 300 dpi серых сканов вылазят только в литературе с фотографиями, передаваемыми растровым методом: в некоторых местах появляется эффект муара, то есть волн яркости и/или цвета по изображению.
Для максимального качества рекомендуется книги сканировать в сером режиме при 600 dpi, если же в книге есть информативные цветные иллюстрации, то в цветном 600 dpi. Это разрешение позволяет полностью разбить растровое изображение на отдельные цветные точки, что полностью подавляет муар.
В любом случае, запаситесь свободным пространством на винчестере — несколько гигабайт.
Сканирование цветных материалов
Сканирование и обработка цветных материалов (книги с большим количеством фотографий, важных для содержания) связаны с существенно большими трудностями, чем сканирование черно-белых книг. Гораздо труднее получить конечный файл разумного размера при сохранении хорошего качества изображения. Исходные отсканированные файлы могут достигать ста мегабайт и больше на страницу, а конечный результат — сотен килобайт на страницу.
Обработка сканов
После сканирования необходимо визуально просмотреть все страницы и убедиться, что нет явных огрехов. Например, иногда по недосмотру книга неровно легла на стекло сканера и часть текста на какой-либо странице не отсканировалась, или были вовсе пропущены некоторые страницы. После этого можно архивировать сканы и приступать к обработке. Поскольку сканирование — физически самый трудоёмкий этап, рекомендуется держать резервную копию всех исходных сканов (такими, какими они были до обработки) на случай какого-либо сбоя.
Энтузиасты подготовили полные подробные инструкции по обработке сканированных изображений и созданию электронных книг[7]. Каковы главные задачи обработки? Они зависят от того, ставим ли мы целью создание векторного файла или растрового файла. Для создания векторного файла производится распознавание (OCR) текста и его дальнейшее редактирование вручную в текстовом процессоре (таком, как MS Word или Adobe Pagemaker). Конечным продуктом обычно является сверстанная книга в формате PDF. Для создания растрового файла необходима доводка графических изображений до высокой степени сжатия и качества, а распознавание (OCR) производится лишь начерно, без вычитки и правки текста, в самом конце процесса. Обработка графических изображений производится обычно в пакетном режиме, так что не требуется обрабатывать каждую страницу вручную в Photoshop'е или другом графическом редакторе. Поэтому затраты времени на создание растровой электронной книги гораздо меньше, чем на создание векторной книги.
Графическая обработка сканов состоит из следующих основных шагов:
• преобразование серых сканов в черно-белые (если исходные сканы были серыми в 300 dpi, то после этого получаются черно-белые в 600 dpi)
• разрезание разворотов на два изображения отдельных страниц (если книгу сканировали в развороте)
• поворот изображения каждой страницы, чтобы текст стал по возможности горизонтальным
• отрезание ненужных тёмных полос на краях, создание ровных и одинаковых для всех страниц белых полей
• вычищение "грязи" на страницах (включая помарки от руки, штампы и прочее)
Эти шаги частично автоматизированы в программе "Scan Kromsator" (Windows) и описаны в инструкции "Scan and Share"(см. сноску).
После создания чистовой версии всех страниц книги, которые пока что хранятся в отдельных графических файлах, приступают к сжатию всех страниц в единый файл формата DJVU или PDF.
Файлы PDF и DJVU могут использовать разные степени сжатия. Наибольшее сжатие достигается в формате DJVU (алгоритм JBIG2), если текст черно-белый, отсканирован четко (это сильно зависит от физического состояния исходной книги), шрифт не слишком мелкий, а края букв ровные (не рваные). Формат PDF позволяет сжимать как алгоритмом JBIG2 (при этом размер получается на 20–30 % больше, чем размер DJVU), так и менее эффективными алгоритмами, например TIFF-G4. Размер PDF файла после сжатия PDF/TIFF-G4 примерно в 4–8 раз больше, чем у PDF/JBIG2.
Имеются программы для создания хорошо сжатых DJVU и PDF/JBIG2 файлов. Для формата DJVU это коммерческие программы от LizardTech: DjvuSolo и Djvu
Document Editor. Для формата PDF это коммерческая версия Adobe Acrobat (не Reader). Есть и бесплатные программы для создания DJVU и PDF/JBIG2, но они пока не дают настолько хорошего сжатия, как коммерческие версии. Полубесплатная программа CPCtool, используемая как промежуточный этап перед окончательным сжатием, позволяет несколько улучшить сжатие DJVU (10–30 %) и во многих случаях сгладить "лохматые" контуры букв.