Создание электронных книг из сканов. DjVu или Pdf из бумажной книги легко и быстро [TWDragon] (fb2) читать постранично, страница - 2

- Создание электронных книг из сканов. DjVu или Pdf из бумажной книги легко и быстро 1.06 Мб, 42с. скачать: (fb2) - (исправленную)  читать: (полностью) - (постранично) - TWDragon

 [Настройки текста]  [Cбросить фильтры]

параметры сканирования

Эти параметры не являются догмой. Они определены опытным путем на нескольких моделях неспециализированных сканеров, и служат ориентировочным целям. Собственный набор оптимальных параметров книгосканирования всегда стоит определить экспериментально, отсканировав любимую книгу со всеми иллюстрациями и обложкой. Приводя эти параметры, я стремился обобщить их для применения на максимальном количестве моделей сканеров.

Тип страницы: Страница с черно-белым текстом без иллюстраций

Режим: Grayscale

Разрешение: 300 dpi

Резкость: Low или Medium

Яркость и контраст: Любые, специальные параметры не использовать

Тип страницы: Страница с черно-белым текстом и черно-белыми штриховыми (одноцветными) иллюстрациями

Режим: Grayscale

Разрешение: 300 dpi

Резкость: Medium. High

Яркость и контраст: Любые, можно применить пресет B amp;W Photo

Тип страницы: Страница с черно-белым текстом и черно-белыми фотографическими иллюстрациями

Режим: Grayscale

Разрешение: 300 dpi

Резкость: High можно применить пресет B amp;W Photo

Яркость и контраст: Определяются по предварительному сканированию

Тип страницы: Страница с черно-белым текстом и цветными иллюстрациями

Режим: True Color

Разрешение: 300 dpi

Резкость: Low, можно применить пресет Photo

Яркость и контраст: Определяются по предварительному сканированию

Тип страницы: Цветная обложка или иллюстрация страничного формата

Режим: True Color

Разрешение: 300 dpi

Резкость: Low, можно применить пресет Photo

Яркость и контраст: Определяются по предварительному сканированию


Формат выходного файла: Uncompressed (Несжатый) TIFF(!)

Почему не JPEG?

Формат JPEG для сохранения сканов книжных страниц использовать можно, но не нужно.

Во-первых: потому, что этот формат даже при включенном сжатии без потерь (Quality = 100) оставляет артефакты в виде «квадратиков».

Во-вторых и самых главных: многократное пережатие при сохранении обработанного файла JPEG вновь в «свой» формат за 2-3 цикла обработки приводит изображение в негодность.

Отдельно коснемся использования сжатого (Compressed) TIFF: при сохранении сжатого изображения в TIFF можно использовать алгоритмы сжатия: ZIP. LZW (без потерь). JPEG (с потерями). Без хлопот программы распознавания вроде FineReader понимают только JPEG.

Со всеми остальными форматами проблемы могут возникать непредсказуемо (например, у меня FineReader 7.0 испытывает устойчивую «идиосинкразию» конкретно к формату сжатия LZW). Поэтому если нет особых проблем с наличием места на диске, лучше всегда использовать несжатый файл.


Итак, сканер включен, программа управления запущена.

Кладем книгу на предметное стекло сканера таким образом, чтобы охватить обложку (с нее лучше всего начинать сканирование). Включаем предварительное сканирование и настраиваем изображение инструментами программы управления сканером, добиваясь максимального соответствия оригиналу. Когда параметры выставлены, сохраняем переднюю и заднюю страницы обложки в файлы с информативными именами (типа cover_front, cover_back), чтобы потом исключить их из пакетной обработки основной части книги.

Отсканировав обложку, вновь кладем книгу на стекло, но уже с открытой первой страницей и форзацем (если сканер имеет форматный фактор на стекле А4 или А4+? книгу с форматом страницы более А5 придется сканировать по одной странице, при этом придется отдельно сохранить форзацы). Предварительное сканирование запускаем еще раз. Параметры теперь нужно выставить таким образом, чтобы добиться хорошей контрастности текста и черно-белых иллюстраций.

Установка_области сканирования: область сканирования для книг (особенно при сканировании разворотами) – выставляется с запасом относительно формата книги, чтобы не особенно заботиться в дальнейшем о выравнивании книги на стекле. Это очень ускоряет работу: если не «швырять» книгу на сканер как попало – текст и хотя бы часть полей обязательно попадут в установленную область, а выравнивание изображения можно будет сделать при обработке. Задаем папку для сохранения выходных данных сканера. В зависимости от того, сканируется разворот книги, или одна страница, выбираем имя для первого файла.

Из личного опыта:

Поработав с несколькими десятками книг, я пришел к выводу, что нумерацию файлов со сканами лучше всего начинать с нуля (например, Scan_000.TIF). Дело в том. что нумерация страниц в книгах обычно идет по схеме: Форзац =› Страница 1 (как правило, без номера) =› Страница 2 (данные типографии) =› Прочие страницы. Если сканировать книгу разворотами, то при нумерации с нуля номер каждого файла будет в точности равен номеру четной страницы, разделенному на 2, то есть:

1. Разворот 1 (Форзац и страница номер 1) – файл с именем Scan_000. TIF;

2. Разворот 2 (страницы 2 и 3) – файл с именем