О размножении книг и не только... [Андрей Ачинович] (fb2) читать постранично

- О размножении книг и не только... 219 Кб, 8с. скачать: (fb2)  читать: (полностью) - (постранично) - Андрей Ачинович

 [Настройки текста]  [Cбросить фильтры]

Андрей Ачинович О РАЗМНОЖЕНИИ КНИГ И НЕ ТОЛЬКО…

Когда заходишь в книжный магазин или на книжный базар, возникает ностальгия по старым советским временам, когда цены на книги были не в пример ниже. Да и выбор качественной литературы был, как ни странно, больше.

Итак, если в вашем распоряжении имеется сканер, доступ к интересной для вас литературе и желание сделать настоящую электронную книгу, читаем дальше. Если есть только литература и большое желание — покупаем сканер, благо, для наших целей подойдут даже самые простые модели ценой $45–60, что при стоимости одной хорошей книги 10–20 тыс. рублей довольно быстро окупится.

Для тех, кто хочет сделать это «по-быстрому»…

Если вы не желаете заморачиваться с тонкостями разных форматов и программ, есть такой вариант — сканируем и распознаем книгу в программе ABBYY Fine Reader и сохраняем в любой приглянувшийся формат — среди них есть и популярные DOC и PDF. Плюс такого подхода очевиден — затраты нашего личного времени минимальны — только страницы переворачивай. Такой подход может быть приемлем для научных работ, тонких брошюр или любой литературы, содержащей преимущественно текст без сложного форматирования и формул. Но в остальном — только минусы:

1. Полученный файл не является ТОЧНОЙ КОПИЕЙ.

2. Большое количество ошибок и мусора после распознавания, которые приходится исправлять вручную.

3. Невозможность распознать формулы, порча иллюстраций, содержащих текст (т. к. Fine Reader по умолчанию пытается их распознать).

4. Отсутствие удобной навигации в полученной книге — при большом объеме это очень неприятно.

Ради справедливости надо отметить, что в седьмой версии Fine Reader для PDF была опция «заменять неуверенно распознанные слова их изображениями», что позволяло получить без особых усилий более-менее «читабельный» документ. В восьмой версии эта опция, к сожалению, исчезла, зато появилась возможность выбирать алгоритм сжатия, в частности, CCITT4, полное название — CCITT Group 4 (CCITT — Consultative Committee International Telegraph and Telephone), позволяющий очень сильно и без особых потерь сжать черно-белые изображения (каковыми в большинстве своем и являются книги).

Из вышесказанного следует такой вот вывод: если к вам на время попала хорошая и нужная книга, вполне реально изготовить ее полноценную копию и даже более того. Вам когда-нибудь встречались бумажные книги с возможностью поиска и мгновенного перехода по оглавлению? Уверен, что нет.

Варинат № 2 для ленивых, но сознательных

Скачайте замечательную бесплатную программу-просмотрщик графики IrfanView (на момент написания статьи последняя версия — 3.99, домашняя страница — www.irfanview.com). Выберите свой сканер (File — Select TWAIN Source), далее — Acquire/Batch Scanning.

Output File Name можно оставить по умолчанию. Здесь важно определиться с форматом, в который мы будем сохранять наши сканы. Есть два основных варианта. Если ваша книга или журнал напечатаны достаточно крупным и четким шрифтом, отсканируйте книгу в формат TIFF, используя для сохранения файлов алгоритм сжатия CCITT Fax 4 (только для черно-белых изображений!), разрешение при сканировании в большинстве случаев можно указывать 300 dpi. Второй вариант, предоставляющий больше возможностей для дальнейшей обработки, предполагает сохранение сканов не черно-белыми, а серыми (gray) в формат TIF с использованием алгоритма сжатия LZW. Режим сканирования (серый или черно-белый) и разрешение вы должны выбрать в TWAIN-драйвере сканера. Таким образом, сохраняя сканы серыми, мы и в скорости не потеряем, и приобретем дополнительные преимущества: возможность коррекции изображения, искусственное повышение разрешения (ресэмплинг). В минусах разве что увеличение размеров файлов при сканировании, что не так критично, и необходимость (несложной) обработки, если нужно получить черно-белое изображение. Таким образом, второй вариант более предпочтителен.

Так как с каждым сканом нам придется в будущем работать отдельно, желательно сохранять каждый отсканированный разворот в отдельный файл, а не в многостраничное изображение.

Если вы все же заинтересовались, будем разбираться дальше.

Выбираем форму для содержания

С содержанием и так все ясно — это хорошая, нужная книга (журнал, брошюра и пр.), электронную копию которой вы хотите иметь. Ну а что с форматом? Один из них — текстовый — получается после распознавания отсканированного оригинала. Если вас устроят достоинства и недостатки сканирования с последующим распознаванием и сохранением в текстовый формат, замечательно. А если нет? В таком случае есть два варианта — PDF и DjVu. Что бы там ни говорили, эти форматы очень похожи в главном — они являются контейнером для электронного документа.

На мой взгляд, в настоящее время формат DjVu более привлекателен для использования