Эта небольшая статья предназначена для тех, у кого есть желание самому делать электронные версии бумажных книг и потом выкладывать их в Интернет в общий доступ. Статья не претендует на истину в последней инстанции и призвана обрисовать весь процесс лишь в самых общих чертах. Я постараюсь описать весь этот процесс от А до Я во всех подробностях - начиная от сканирования бумажной книги и заканчивая выкладыванием готовой книги в Интернет. Я постоянно думаю над усовершенствованием и упрощением этой технологии.
Сразу скажу, что создавать электронные версии бумажных книг - это не просто, а очень просто и легко. Самое трудное в этом деле - отсканировать бумажную книгу. Как только Вы получаете полный комплект сканов книги - считайте, что книга уже почти готова. Всё, что нужно от Вас для создания электронной книги и выкладывания её в Интернет - это компьютер, сканер, модемный доступ в Интернет и немного Вашего терпения и желания. Ну, и конечно, исходная бумажная книга. Всё остальное - описание технологии книгоделания, ссылки на все необходимые программы - есть здесь, на этом сайте. Кстати, выложить готовую книгу в Интернет лучше всего по специальному тарифу у местного провайдера - "оплата только за трафик". По этому тарифу исходящий трафик - то есть закачка книги на сайт - не оплачивается.
Для создания (и чтения) электронных DjVu-книг Вам потребуется скачать следующий абсолютный минимум софта с моего сайта:
- DjVu Solo v3.1 NonComm (2,12 МБ)
- WinDjView-0.3.5 (484 КБ)
Итого: ~ 2,6 МБ
Но лучше взамен скачать оттуда же такой набор софта:
- Document Express Enterprise with DjVu 5.1.0 build 946 (Light Edition) (18,7 МБ)
- DjvuOCR v2.0 pre (1,16 МБ)
- Document Express Editor v5.0.0 Build 16 (без OCR и справки) (1,72 МБ)
- ScanKromsator v5.51b Full (2,06 МБ)
- IrfanView v3.97 (900 КБ)
- WinDjView-0.3.5 (484 КБ)
Итого: ~ 25 МБ
Второй комплект софта (в отличие от первого) обеспечит надёжность, удобство в работе, хорошее качество будущей DjVu-книги. Я рекомендую не пожалеть денег и скачать именно второй комплект софта, а не первый - так Вы здорово облегчите себе жизнь.
(Подробнее см. Итоги по DjVu-программам)
Кроме того, Вам ещё потребуется купить на местном рынке такие программы:
- ABBYY FineReader v7.0 PE
- Adobe PhotoShop v5.0
- ACDSee v3.0
По вопросам "книгоделания" пишите мне на мой почтовый ящик.
Введение
В этой небольшой статье я опишу технологию, по которой я создал все книги в формате DjVu на своём дочернем сайте.
Эта технология основана на собранных мною в Интернете сведениях (кое-что я придумал сам) и во многом использует устоявшиеся и общепринятые в этом деле принципы. Она совершенно проста, технологична, действительно надёжна и даёт хорошие результаты. Она не требует скачивания относительно громоздких и экзотических программ - например, Book Restorer v4.1 Eng, RasterID v3.5.94 Rus (которые вообще-то довольно полезны; их также можно скачать с моего сайта). Её единственный недостаток - опора преимущественно на ручную работу, но, с другой стороны, это даёт возможность постоянно контролировать качество получаемого результата в процессе создания книги.
Для создания электронных книг в формате DjVu я использую следующие программы: ABBYY FineReader v7.0 (достаточно использовать бесплатную пробную версию, скаченную из Интернета), Adobe PhotoShop v5.0 (более старшие версии мне не нравятся - они имеют ненужные навороты и ГОРАЗДО медленнее работают), Document Express Enterprise with DjVu v5.1 (можно Light Edition) (DEE 5.1 или DEE 5.1 LE), Document Express Editor 5.0. Просматривать готовые DjVu-книги лучше всего броузерным DjVu-плагином v5.0, потому что он поддерживает мышиное колёсико (правда, пока лишь в пределах текущей страницы многостраничного DjVu-файла), чем не могут похвастаться все предыдущие версии плагина. Для просмотра можно также использовать программу WinDjView, но мне она не очень нравится - качество отображения DjVu-файла у неё чуть хуже, чем у плагина, но зато WinDjView имеет 2 важнейших преимущества перед броузерным DjVu-плагином v5.0: малый размер дистрибутива и поддержку мышинного колёсика в пределах ВСЕГО многостраничного DjVu-файла, а не в пределах текущей страницы. В броузерном DjVu-плагине v5.0 приходится перемещаться со страницы на страницу в многостраничном DjVu-файле при помощи клавиш "Пробел" и "Backspace".
Опишем процесс создания DjVu-книги по порядку.
1. Сканирование
Для сканирования бумажных книг проще всего использовать программу ABBYY FineReader v7.0, потому что она наиболее доступна и широко распространена, а также там есть функция "Сканировать несколько страниц", т.е. при запуске этого режима загружается сканерный интерфейс, и при этом потом остаётся лишь совершать простую циклическую деятельность: переворачиваем в книге страницу, кладём её на сканер, сверху на книгу кладём что-нибудь тяжёлое (чтобы прижать её к стеклу сканера; только не раздавите стекло), нажимаем в сканерном интерфейсе на кнопку "Сканировать" и т.д. до конца книги, и при этом сканы автоматически записываются в пакет, тогда как обычная программа, тот же Adobe PhotoShop v5.0 требует сохранять отдельно каждый полученный скан.
Программа ABBYY FineReader v7.0 работает с понятием "пакет". Вам нужно это хорошо понимать - это ключевое понятие для работы с ABBYY FineReader v7.0. Пакет - это в данном случае просто папка с отсканированными изображениями в графическом формате *.tif и файлами *.frf - для хранения распознанных страниц. При открытии программы пакет не создаётся (точнее, создаётся, но безымянный и по умолчанию, и его всё равно потребуется сохранить при закрытии ABBYY FineReader v7.0), его нужно обязательно создать вручную и тут же сохранить его прямо так, пустым, а затем сканировать в него страницы, т.е каждая сканируемая страница будет автоматически записываться в этот пакет. Каждый пакет в ABBYY FineReader v7.0 имеет настройки, но об этом - чуть позже.
Сканировать бумажную книгу следует с оптическим разрешением не ниже 300 dpi. Я всегда сканирую при 400 dpi. Это нужно для того, чтобы полученные сканы можно было потом распознать - во-первых, в процессе создания внедрённого в DjVu-файл текстового OCR-слоя, а во-вторых, в далёком будущем, с целью создания полностью текстовой электронной версии книги. Рекомендуется сканировать книги либо на 300 dpi (наименьший размер, но при минимально приемлемом качестве), либо на 600 dpi (наибольший размер, но при наилучшем качестве). Считается, что сканировать на промежуточных разрешениях (например, как я, на 400 dpi) - нецелесообразно, т.к. и размер получается большим, и качество не наилучшее. Просто у меня это разрешение (400 dpi) "исторически сложилось" :).
Я всегда сканирую книги с цветной обложкой в цвете - так у книги получается более "товарный" вид. Цветную обложку в цвете лучше отсканировать в Adobe PhotoShop v5.0 (например, при 200 dpi), а не в ABBYY FineReader v7.0 - там это не очень удобно делать, нужно обязательно сохранять её по F12 и там ещё всегда автоматически применяется операция устранения перекоса (deskew) - что в данном случае ни к чему.
При сканировании бумажных книг не требуется получать высокое качество сканов (как, например, при сканировании фотографий). И не важно, если полученные сканы будут местами светлее/темнее, не беда, если бумажная книга пожелтевшая, рваная, грязная, исчёрканная ручкой или карандашом - сканы всё равно потом будут обрабатываться, и все эти недостатки легко устранятся при этом. Почти всегда электронная версия бумажной книги получается "презентабельнее", чем сама исходная бумажная книга.
При сканировании надо стараться сильно не перекашивать бумажную книгу на сканерном стекле и обеспечивать максимально плотное и равномерное прижатие книги к сканерному стеклу.
2. Предварительная обработка
После того, как бумажная книга отсканирована, получившиеся сканы в графическом формате *.tif нужно слегка отредактировать (для приведения их к удобоваримому виду и уменьшению их размера) и записать полученные сканы-полуфабрикат на CD-RW диск - чтобы полностью исключить возможность гибели сканов из-за возможного падения винта.
Сканы, полученные в ABBYY FineReader v7.0, являются многостраничными tif-файлами. Многостраничные tif-файлы - это такие tif-файлы, которые содержат несколько картинок в одном файле. Легче всего это можно увидеть, если щёлкнуть правой кнопкой мышки на tif-файле, выбрать в самом низу контекстного меню пункт "Свойства", затем выбрать вкладку "Рисунок" (или что-то такое) - Вы увидите там информацию, сколько "страниц" находится в данном tif-файле. Это же можно выяснить при помощи ACDSee.
В сканах, полученных в ABBYY FineReader v7.0, нам нужна только первая "страница" каждого многостраничного tif-файла - скана. 2-ая и 3-яя "страница" у каждого скана от ABBYY FineReader v7.0 используется им для хранения эскизов-превьюшек сканов (которые Вы видите в левом узком окне в ABBYY FineReader v7.0) и несжатого изображения скана. Вот почему размер получающегося пакета довольно большой - примерно 1,5-1,8 гигабайта. Так что не забудьте до начала сканирования обеспечить на жёстком диске 2-2,5 гигабайт места (с запасом).
Так что СРАЗУ ЖЕ после сканирования "отпилите" 2-ую и 3-юю "страницы" у каждого скана. Это можно сделать либо сохранением сканов в ABBYY FineReader v7.0 по F12 (с последующим их групповым переименованием в ACDSee или в Irfan View - с целью вернуть им такие же имена, как были у них в пакете - "0001", "0002", и т.д.), либо при помощи Irfan View v3.97 и выше - только сначала переместите tif-файлы из пакета в просто папку. Отделить tif-файлы от файлов других типов в пакете проще всего через windows-поиск файлов с расширением *.tif. Итак, в Irfan View v3.97 сбросьте в "Настройки" галки "сохранить все страницы исходного изображения" и "сохранить палитру для изображений в оттенках серого", установите "Сжатие при сохранении" на значение "CCIT Fax Group 4", а в "Дополнительные настройки" сбросьте самую нижнюю галку в правом углу "изменения - для всех страниц (TIF)", установите такое же разрешение, что и у сканов, и прогоните пакетно все сканы через Irfan View. (Эти настройки автозапомнятся и будут такими же при будущем запуске Irfan View - этой великолепной программы).
В результате Вы должны получить одностраничные tif-файлы в битовом режиме, сжатые в режиме CCIT Fax Group 4 - это максимальный режим сжатия без потери качества для БИТОВЫХ чёрно-белых tif-файлов. Битовые - это значит имеющие всего 2 цвета для отображения - чёрный и белый. Это ОЧЕНЬ важно. Нужно ОБЯЗАТЕЛЬНО "перегнать" сканы перед кодированием их в DjVu в БИТОВЫЙ режим (CCIT Fax Group 4 или какой-то другой битовый режим) - особенно если Вы сканировали не в ABBYY FineReader v7.0. Мне приходилось видеть DjVu-книги, закодированные из tif-файлов, которые были в режиме 256 Gray и даже True Color (это для чёрно-белого текста-то!). Это приводит, во-первых, к огромному увеличению размера получаемого DjVu-файла, а во-вторых, к УЖАСНОМУ ухудшению его читабельности - получается размытый текст. А если не "отпилить" 2-ую и 3-юю "страницы" у каждого скана, то все они закодируются в DjVu, что во-первых, совершенно не нужно, во-вторых приведёт к резкому увеличению размера полученного DjVu-файла, и в-третьих, часто приводит к внезапному и труднообъяснимому "вываливанию" процесса кодирования tif -> djvu в DEE 5.1.
Правда, бывают и исключения из этого правила. Например, когда сканы получены с плохих ксерокопий или цифровым фотоаппаратом при плохой освещённости. В этом случае приходится оставлять сканы в "сером" перед кодированием их DjVu - потому что их отвратительная контрастность не даёт преобразовать их в ч.б. битовый режим без потери читабельности.
Также есть и другое исключение: иногда в книгах попадаются чёрно-белые рисунки-фотографии - они и визуально определяются именно как фотографии реальных объектов, а не как обычные рисунки. Сканы с такими рисунками-фотографиями плохо автоматически преобразовываются в битовый режим в ABBYY FineReader v7.0 (потом мы сделаем это в Irfan View) - при этом на рисунке-фотографии появляются белые проплешины. Такие рисунки-фотографии следует отдельно сохранять на CD-RW диске в режиме 256 Gray.
Для этого делаем следующее: после того, как Вы отсканировали всю книгу в ABBYY FineReader v7.0, Вы должны ПОВТОРНО отсканировать бумажные страницы с рисунками-фотографиями, но уже не в ABBYY FineReader v7.0, а в Adobe PhotoShop v5.0 - потому что он даёт "серые" сканы. На каждом "сером" скане выделите инструментом-прямоугольником (при помощи мыши) сам рисунок-фотографию (или их группу на скане), скопируйте его в буфер (точнее, скопируйте область чуть большей площади с рисунком-фотографией в центре - с запасом по контуру), создайте новый файл, вставьте туда этот рисунок-фотографию и сохраните файл. Потом запишите полученные файлы с рисунками-фотографиями-полуфабрикатами на CD-RW диск.
Теперь необходимо проделать предварительную обрезку сканов - она совершенно необходима для последующей обработки и предварительной обрезкой нельзя пренебрегать. По способу сканирования (в зависимости от геометрических размеров бумажной книги) все сканы можно поделить на 2 вида:
1. Сканы малоформатных книг - на одном скане 2 сдвоенные страницы (разворот бумажной книги).
2. Сканы крупноформатных книг - на одном скане 1 страница с частью (в виде полосы) соседней страницы.
Для каждого из этих 2 видов сканов применяется свой способ ПРЕДВАРИТЕЛЬНОЙ (окончательная будет на следующем этапе) обрезки сканов. Рассмотрим подробно оба случая.
2.1. Предварительная обрезка малоформатных книг (1 скан - 2 страницы)
В этом случае Вам нужно, во-первых, повернуть на 90 градусов все страницы пакета (это немного увеличивает размер пакета), а во-вторых, разрезать сдвоенные страницы. Повернуть на 90 градусов все страницы пакета можно через меню в ABBYY FineReader v7.0, а можно и при помощи Irfan View (в этом случае сначала переместите tif-файлы из пакета в просто папку).
Разрезать сдвоенные страницы следует всегда. Если Вы любите читать DjVu-книгу со сдвоенными страницами ("разворот"), то всё равно разрезайте их. Есть программа DjVuReader v2.0.0.26, которая умеет показывать DjVu-книги с обычными, одиночными страницами в виде разворотов, т. е. она может выводить на экран сразу по 2 страницы - "левую" и "правую". Кажется, это также умеет делать программа DjVu Fancy Viewer - но она сейчас есть только в демонстрационной онлайн-версии и пока что полностью непригодна к использованию.
Разрезать сдвоенные страницы лучше всего при помощи ABBYY FineReader v7.0. Это делается ПОЛНОСТЬЮ автоматически, очень быстро (3-5 минут), и очень качественно. Конечно, некоторые сканы при этом разрезаются неправильно - но их очень мало, в среднем 6-8 сканов на книгу, их нужно просто заново разрезать руками в Adobe PhotoShop v5.0 (выделяем нужную область прямоугольником, копируем её в буфер, создаём новый файл, вставляем туда содержимое буфера и сохраняем новый файл).
Для разрезания сдвоенных страниц делаем следующее: создаём и сохраняем новый пустой пакет. В пункте меню "Сервис -> Опции" ставим галочку "Делить разворот книги". В меню "Файл" выбираем пункт "Открыть изображение" и выбираем все сдвоенные сканы, которые надо разрезать. Нажимаем "Открыть". Начнёт заполняться новый проект и при этом к каждому добавляемому файлу будут применяться выбранные опции проекта (здесь разрезание сдвоенных страниц). После окончания процесса нужно будет опять извлечь из пакета полученные разрезанные tif-файлы и "отпилить" у них 2-ую и 3-юю "страницы" - так, как это уже было описано выше.
2.2. Предварительная обрезка крупноформатных книг (1 скан - 1 страница с полосой)
Для этого случая используется программа СканКромсатор, ABBYY FineReader v7.0 тут не подойдёт. Сначала необходимо отделить сканы с чётными именами файлов от сканов с нечётными именами файлов (все сканы, полученные при помощи ABBYY FineReader v7.0, имеют имена файлов вида "0001", "0002", "0003", и т.д.). Это делается так: в Windows открывается папка с файлами-сканами и окно папки мышкой растягивается так, чтобы упорядочить иконки файлов нужным образом, а именно файлы с чётными именами должны быть под другими файлами с чётными именами в столбцах, то же самое касается файлов с нечётными именами. Затем просто мышкой выделяем, скажем, всё "чётные" столбцы иконок файлов и перетаскиваем их в другую папку. При этом окно папки-источник не закрываем, а то файлы опять перемешаются.
В результате этих манипуляций Вы должны получить 2 папки: в одной будут сканы с чётными именами файлов, а в другой - с нечётными.
Далее запускаем СканКромсатор и загружаем туда всё чётные файлы (Меню "File" -> "Open" или нажимаем на кнопку, где изображена папка с зелёной стрелочкой). В левом вертикальном узком окне отображается список загруженных файлов. Выбираем в меню "Edit" -> "Clear all options". На вкладке "Pages" ставим галочку "Split". На вкладке "Files" выбираем значение "Output dir" (можно просто поставить галочку "Default") - это папка, куда будет помещён результат обрезки. Проверяем тут же, чтобы поле "DPI" имело значение "Original".
Начинаем подготовку задания на обрезку. Над главным окном есть 2 горизонтальных ползунка. Используем нижний - при наведении на него мышки появляется подсказка "Set internal margin or split line". Хватаем ползунок мышкой и двигаем его вправо. Сразу же видим, что вниз от острия ползунка идёт синяя линия. Это т.н. "резак", его надо установить на границу сопряжения основной страницы на скане с полосой соседней страницы. Потом СканКромсатор будет резать скан прямо по этой синей линии-резаку. После того, как резак правильно установлен на скане, надо в окне со списком загруженных файлов поставить галочку (жирную зелёную) на имени того файла, где мы только что выставили резак - выставление этой галочки это означает запоминание позиции резака. (Если резак потребуется передвинуть, то снимаем эту галочку, двигаем резак, и опять устанавливаем эту галочку).
И так далее для всех сканов. Для перехода от файла к файлу в СканКромсаторе используются клавиши "q" - "w" и "[" - "]". Резаки в СканКромсаторе помнят последнюю установленную позицию, поэтому, как правило, при переходе с файла на файл Вам даже не потребуется подвигать резак на новую позицию - ведь для предварительной обрезки особая точность не нужна, главное - "отпилить" боковую "паразитную" полосу на скане и всё.
Через некоторое время процесс подготовки задания на обрезку будет выглядеть так: Вы нажимаете на клавишу "]", при этом загружается очередной обрезаемый файл, Вы смотрите, не надо ли чуть подправить мышкой позицию резака (а в большитнстве случаев это не потребуется делать), и нажимаете левую кнопку мыши, чтобы поставить галочку около имени файла в окне со списком файлов (при этом курсор мыши уже там стоит). Поскольку при пеерходе с файла на файл списко файлов будет автоматически прокручиваться в окне, то Вам даже не потребуется двигать мышь! Очередной файл будет сам "подлезать" под курсор мыши. Вам останется только следить за правильной позицией резака и всё.
Таким образом можно КРАЙНЕ быстро и эффективно составить задание на обрезку сканов.
После этого, запускаем саму обрезку нажатием кнопки "Process!" и ждём, пока она закончится. После этого автоматически откроется окно постобработки, но нам оно тут не нужно, поэтому закрываем его и выходим из программы.
Итак, мы получили в некоторой папке обрезанные нужным нам образом чётные файлы. Теперь нам нужно проделать над ними групповое переименование так, чтобы нужные нам страницы имели правильные имена. Вам потребуется просто сместить начало нумерации файлов на единицу вперёд или назад - сориентируйтесь по месту самостоятельно. Групповое переименование удобнее всего проделать при помощи ACDSee, хотя можно использовать и Irfan View.
Затем способом, описанным выше, отделяем чётные нарезаные сканы от нечётных, и нечётные теперь уже просто удаляем (т.к. это просто ненужные обрезки).
Далее повторяем весь этот цикл для нечётных исходных сканов (т.к. пока что мы обрезали только чётные сканы). А в конце просто сливаем чётные и нечётные сканы (теперь уже обрезаные нужным образом) в одну папку.
2.3. Завершение предварительной обработки
Проверьте - все ли страницы Вы отсканировали из бумажной книги, нет ли пропусков, и проверьте, есть ли страницы с наползающими на текст черными пятнами - такие есть практически всегда. Пересканируйте заново все такие страницы.
Остаётся последний этап - очистка мелкого мусора, который называется "despeckle" - от англ. "speckle" - крапинка, пятнышко. Для этого делаем следующее: создаём новый пустой пакет. В пункте меню "Сервис -> Опции" ставим галочку "Очистить от мусора". В меню "Файл" выбираем пункт "Открыть изображение" и выбираем все сканы, которые надо почистить. Нажимаем "Открыть". Начнёт заполняться новый проект и при этом к каждому добавлемому файлу будут применяться выбранные опции проекта (здесь очистка от мусора). После окончания процесса нужно будет опять извлечь из пакета полученные разрезанные tif-файлы и "отпилить" у них 2-ую и 3-юю "страницы" - так, как это уже было описано выше.
Необходимо упомянуть, что программа ABBYY FineReader, начиная с версии как минимум 4, автоматически исправляет неправильный наклон страниц (по-английски "deskew" от "skew" - наклон, склон, скос, уклон) на каждом этапе обработки - за deskew (насколько я знаю, я не уверен на 100%) отвечает галочка "Определять ориентацию страницы (при распознавании)", которая всегда стоит по умолчанию.
Если Вы всё сделаете, как я описал, то у Вас должен получится комплект сырых сканов размером от 15 до 50 МБ - что совершенно реально записать на CD-RW диск. Цветную обложку записывайте на CD-RW диск прямо в формате tif - не надо преобразовывать её в формат jpg ради уменьшения размера - от этого страдает качество изображения. Также рекомендую отдельно записать рисунки-фотографии.
|