Шрифт:
После создания окончательной чистовой версии книги делается распознавание текста (OCR). Распознавание текста на большинстве языков можно производить как коммерческой версией Djvu Document Editor (для DJVU), так и широко распространённой программой FineReader (для PDF). Имеется также бесплатный софт (утилита DjvuOCR) для вставления OCR-слоя в DJVU файлы после распознавания через FineReader. По опыту, FineReader дает лучшее качество распознавания, чем Djvu Document Editor (который использует движок IRIS). Ознакомительные или демо-версии этих программ можно получить на официальных сайтах производителей.
Имеется также возможность автоматически добавить гипертекстовые ссылки в оглавление и индекс DJVU-книги. Это делает бесплатная утилита Djvu Hyperlink Editor и последние версии DEE (Document Express Editor).
Доделка электронных книг
Часто бывает необходимо улучшить уже имеющуюся электронную книгу. Доделка бывает по разным причинам необходима как для вёрстанных, так и для сканированных книг. Поскольку сканирование или вёрстка — самый трудоёмкий этап, то целесообразно обработать уже имеющийся файл до максимально хорошего качества (за исключением крайних случаев, когда качество имеющегося файла книги слишком низкое и лучше переделать всё сначала).
Доделка PS файлов
PS-файлы почти всегда являются продуктом вёрстки в системе LaTeX и могут быть автоматически сконвертированы в формат PDF с помощью бесплатного пакета ghostscript (утилита ps2pdf). Однако при этом иногда появляется проблема, состоящая в том, что полученные PDF файлы не позволяют делать поиск по тексту. Причина этого явления такова. Файлы, созданные ранними версиями LaTeX, часто имеют растровые шрифты (вместо векторных). В таком случае при переводе в PDF текст набран нестандартным (т. е. не векторным) шрифтом и поиск по файлу невозможен. При использовании достаточно новых версий LaTeX можно указать, что шрифты должны быть векторные, и эта проблема автоматически отпадает. Однако существует много PS и PDF-файлов, сделанных по-старому и проявляющих этот дефект.
Исправить этот дефект можно двумя способами:
• Перевести файл в формат DJVU и произвести распознавание (OCR) текста. Перевод из векторного PDF в DJVU производится утилитами gs2djvu или pdftodjvu.
• Если есть исходный PS файл, созданный утилитой dvips версии 5.58 или старше, то можно воспользоваться утилитой pkfix.
Доделка DJVU файлов
Весьма часты случаи, когда доделка DJVU файлов возможна и необходима. Эти случаи таковы:
• Файл DJVU содержит цветную информацию, то есть DJVU-элементы типа IW44 (это видно из свойств страницы, или из результата djvudump), в то время как текст на самом деле чисто чёрно-белый. Цветовая информация является лишней и была включена в файл по ошибке. Исправляется переделкой DJVU в черно-белом режиме. (Строго говоря, это не совсем так — черное поле буквы основное, но в "цветном" режиме края букв выглядят более сглаженными. Поэтому в ряде случаев, если буквы и так низкого разрешения, стоит оставлять книгу как есть. Обработка должна идти до сжатия в DjVu. Доделка часто ухудшает качество и читабельность, пусть даже уменьшая размер. Отключить же цвет в DjVu книге можно просто выбрав другой режим просмотра).
• Страницы в файле D JVU расставлены в неверном порядке. Исправляется вручную с помощью Djvu Editor/Djvu Solo, или с помощью утилит djvm/djvmcvt (разбирая DJVU файл на отдельные страницы и собирая обратно, без перекодирования).
• Гиперлинки показывают на неправильные страницы или на несуществующие файлы. Исправляется редактированием гиперлинков (утилита djvused и текстовый редактор).
• Отсутствует OCR-слой (распознанный текст). OCR-слой можно создать с помощью Fine Reader или Djvu Editor.
• Файл DJVU содержит изображения, сосканированные в развороте (2 страницы на лист), с тёмными полосами по краям, и/или невыровненные изображения страниц. Исправляется переделкой файла в ScanKromsator.
• Файл DJVU был сжат в неоптимальном режиме (например Lossless или с маленьким размером DJVU-словаря) и поэтому имеет слишком большой размер. Исправляется перекодированием в более оптимальном режиме.
Все эти дефекты можно устранить повторной обработкой DJVU-файла. Это позволит сэкономить время на повторное сканирование и получить файл меньшего размера и лучшего качества.
Поскольку формат DJVU использует эффективное сжатие данных, то явно низкокачественный DJVU файл (отсканированный в цвете и/или в низком разрешении)
часто не удаётся переделать в высококачественный. Доделка бывает неэффективной или невозможной в следующих случаях:
• Файл DJVU содержит цветные изображения низкого разрешения (200 dpi и ниже), закодированные не в фото-режиме, а с разделением текста и фона. Результат — текст практически нечитаем. Исправить нельзя, так как большая часть изображения уже потеряна или не была отсканирована.
• Файл DJVU содержит отсканированные изображения, содержащие большую долю неразделимо слившегося с текстом "шума" из-за пятен на бумаге, помарок, расплывшихся чернил, "волос" и других дефектов печати. Результат — файл очень большого размера. Если сканы были высокого разрешения (400 дпи и выше), то текст с экрана читается неплохо, а если файл в разрешении 300 дпи и ниже, то читается довольно плохо. Исправить затруднительно, без трудоёмкой чистки изображений вручную.
Анатомия сканера: взгляд изнутри