Формат Djvu приобрел большую популярность в Интернет ввиду заявленной его компактности, но мне, он не нравится из-за низкого качества сохраненного текста. Читать в нем довольно тяжело. Гораздо интереснее выглядит, на мой взгляд, формат MDI виртуального принтера MS Office (как из него копировать текст смотри ниже)…
Чтобы иметь возможность править его в текстовом редакторе, надо исходный djv файл преобразовать в текст.
Для этого сначала его необходимо конвертировать в формат, который понимают распознаватели текста, например, в картинки tiff. Необходимым условием правильного распознавания должно быть хорошее качество исходного файла.
Поступаем следующим образом: открываем исходный файл в программе, работающей с djv файлами. Я для этого использовал DjV Editor. Для текстового файла не забудьте переключиться в черно- белый режим (на рисунке не включен). Что получилось, вы видите ниже.
Открываем меню "печать" и выбираем виртуальный принтер из MS Office. Он, обычно, установлен по умолчанию.
В окне "печать" (верхнее по рисунку) выбираем номера страниц, необходимые для преобразования, и нажимаем кнопку "свойства".
На вкладке "дополнительно" (нижнее окно) устанавливаем формат tiff с разрешением 300 dpi. Нажимаем кнопку OK и ещё раз ОК.
Виртуальный принтер сохраняет выбранные страницы в довольно компактный многостраничный tiff - файл (одна страничка занимает 35 Кбайт), который теперь поймут нужные нам программы.
С конвертированием закончено. Теперь можно открыть этот файл для распознавания и затем сохранить его как текст. Такой программой может быть встроенный в MS Ofice "Document Imaging" или "ABBYY Fine Reader". Как это сделать, видно из рисунка.
Нажимаем на полученном нашем файле правой кнопкой мыши и из контекстного меню выбираем "открыть с помощью"...MS Ofice Document Imaging или ABBYY Fine Reader в зависимости от поставленной нами цели. Я открыл документ в MS Office. Получилась следующая картина:
Удобство этой программы заключается в том, что можно выделить необходимый фрагмент текста
и правой кнопкой выбрать "копировать как текст".
Программа распознает выделенную область и
копирует в буфер обмена. При распознавании текста она выглядит так:
Теперь у нас есть текст, который можно вставить в текстовый редактор. Открываем MS World и вставляем в него из буфера наш текст, который редактируем, добавляем ещё куски и т. д. и получаем следующую картину:
Качество распознавания текста вполне приемлемо, хотя ошибок много. С картинками могут быть проблемы. Поэтому для сложных страниц лучше использовать Fine Reader.
Комментариев нет:
Дорогие читатели!
Мы уважаем ваше мнение, но оставляем за собой право на удаление комментариев в следующих случаях:
- комментарии, содержащие ненормативную лексику
- оскорбительные комментарии в адрес читателей
- ссылки на аналогичные проекту ресурсы или рекламу
- любые комментарии связанные с работой сайта