После того, как работа дифференциального классификатора завершена, мы можем сказать, что непосредственно само распознавание закончено. У нас остается окончательный список гипотез, подлежащий проверке.
Окончательная верификация результата распознавания осуществляется системой контекста. Система контекстной проверки позволяет резко улучшить качество распознавания текстов плохого качества за счет того, что при наличии некоторого количества распознанных букв из слова компьютер может «догадаться», что это за слово, используя словарь. В FineReader удалось без больших потерь в скорости увеличить число рассматриваемых гипотез при анализе контекста, что, в свою очередь, также в лучшую сторону сказывается на точности распознавания текстов очень низкого качества.
В FineReader анализ документа проводится как до, так и после непосредственно распознавания, что позволяет гораздо лучше сохранять внешний вид документа при его экспорте в другие приложения из FineReader. В результате использования совмещенной процедуры значительно улучшилось выделение таблиц и отделение текста от графики. Фактически, основная задача разработчиков FineReader — сделать так, чтобы пользователь получил на выходе документ, полностью совпадающий как по содержанию, так и по внешнему оформлению с документом, который он недавно положил в сканер.
На сегодняшний день система FineReader демонстрирует непревзойденную точность распознавания и высокое качество анализа документа и сохранения его оформления. От версии к версии она совершенствуется, используются новые алгоритмы, появляются новые возможности. Но принципы Целостности, Целенаправленности и Адаптивности остаются неизменными, так как именно эти принципы позволяют машине приблизится к логике мышления, свойственной человеку, и в дальнейшем решать, возможно, гораздо более сложные задачи, чем задача распознавания.
Глава 21.
Омнифонтовая OCR-система
Программа FineReader является так называемой омнифонтовой системой оптического распознавания текстов. Подобные системы дают возможность распознавать печатные тексты, набранные шрифтами с различными гарнитурами.
Основные возможности
Программа FineReader:
• Дает возможность ввести документ в компьютер посредством нажатия всего на одну кнопку.
• Имеется возможность экспортировать распознанный текст в текстовый редактор или электронную таблицу, а также сохранить его в формате PDF или HTML.
• Имеется возможность сохранять цвета распознанного текста в форматах RTF, PDF и HTML.
• Встроенная технология «адаптивного распознавания»: Необычайно высокая точность распознанных текстов и малая чувствительность к дефектам печати.
• Распознанные страницы представляются миниатюрными изображениями.
• Имеется возможность сканировать разворот книги и распознавать ее каждую страницу по отдельности, при этом, изображение, содержащее сдвоенные страницы, сохраняется в две различные страницы пакета.
• Встроенный алгоритм автоматического поиска блоков (участков изображения, выделенных в рамку) распознаваемого текста: Анализ отсканированного материала и его распознавание происходит одновременно.
• Программа «видит» изображения в распознаваемом макете.
• 176 языков распознавания.
• Распознавание языков программирования (Basic, Cobol, Fortran, Java, C++, Pascal).
• Распознавание подстрочных символов и вертикального текста.
• Поддержка кодировки Unicode при сохранении распознанного текста в форматах RTF, DOC, XLS, HTML, TXT и CSV.
Форматы текстовых файлов, которые поддерживает программа
FineReader может экспортировать распознанный материал в одном из следующих форматов:
• Microsoft Word Document (*.DOC).
• Rich Text Format (*.RTF).
• Adobe Acrobat Format (*.PDF)
• HTML.
• Comma Separated Values File (*.CSV).
• Простой текст (*.TXT).
• Microsoft Excel Speadsheet (*.XLS).
• DBF.
Форматы графических файлов, которые поддерживает программа
FineReader позволяет импортировать в свою систему файлы следующих форматов:
• TIFF.
• BMP.
• JPEG.
• PCX
• DCX.
• PNG.
Для работы с русскоязычной версией программы операционная система Microsoft Windows должна поддерживать русскоязычную раскладку клавиатуры (доступ в Microsoft Windows Me Millennium Edition:Панель управления к Язык и стандарты к Региональные стандарты к Язык к Русский к Страна/Регион к Россия ).
Глава 22.
Установка программы
Перед установкой программы выйдите из работающих приложений вашей операционной системы.
В случае, если ваша операционная системанастроена на автоматический запуск приложений из устройств чтения компакт-дисков (доступ в Microsoft Windows:Пуск к Настройка к Панель управления Система к Устройства к Устройство для чтения компакт-дисков к Пастройка к Автоматическое распознавание дисков ), то после того, как фирменный компакт-диск с программой будет вставлен в соответствующее устройство, вы практически сразу же увидите на экране вашего монитора диалоговое окноABBYY Software House Setup.
Закройте диалоговое окноABBYY Software House Setup, вставьте в соответствующее устройство фирменную флоппи-дискету, посредством двойного щелчка левой кнопкой мыши запустите файлInstall. exe(он находится в главной директории диска) и через некоторое время обратитесь кМастеру установки программы FineReader.
В первом диалоговом окнеМастера установки выберите язык пользовательского интерфейса (набор команд меню и инструментов программы finereader).
Для продолжения установки нажмите на кнопкуNext(Далее), согласитесь с условиями лицензионного соглашения (нажмите на кнопкуСогласен ) и обратитесь к диалогуВведите информацию о себе, в котором определитесь с именем пользователя и названием вашей организации, а в поле данныхСерийный номер впишите серийный номер, который должен присутствовать на последней обложке «Руководства пользователя FineReader».
Программа FineReader предоставляется вам в защищенном от копирования виде. Это связано с тем, чтобы предотвратить возможность ее незаконного тиражирования.
Для продолжения установки снова нажмите на кнопкуДалее. На экране вашего монитора отобразится запрос относительно подтверждения введенной информации. Теперь просто нажмите на кнопкуДалее для продолжения установки или на кнопкуНазад — для корректировки «регистрационной» информации.
После нажатия на кнопкуДалее отобразится диалоговое окноВыберите способ установки.
Полная
Устанавливаются все компоненты программы, в том числе все языки распознавания.
Нажав на кнопкуПолная, установщик предложит вам выбрать папку на жестком диске, в которой будут находиться файлы программы.
Вы имеете возможность использовать имя папки по умолчанию или через на кнопкуОбзор выбрать ее другое имя. Если папка для установки вообще отсутствует, то на экране отобразится запрос относительно необходимости формирования новой папки. Нажав на кнопкуДалее, вы подтверждаете ее создание.
Выборочная
Из предложенного набора компонент, входящих в ваш дистрибутив, имеется возможность выбрать только те, которые необходимы пользователю.
0Щемонстрационные файлы
0Руководство
0Изображения для обучения
0Программная оболочка
0Установка дополнительным возможностей
0Языки распознавания
0Языки интерфейса ABBYY FineReader
Минимальная
Программа устанавливается в минимальной конфигурации:
• Язык интерфейса (один) — выбранный при установке.
• Языки распознавания — английский плюс выбранный язык при установке.
Нажав на кнопкуМинимальная,Мастер установки предложит вам выбрать папку на жестком диске, в которой будут находиться файлы программы.