Секреты сканирования на ПК - Леонтьев Б. К. 17 стр.


В случае, если на закладкеРаспознаваниеактивизированаопция Использовать встроенные эталоны, то в режимеРаспознавание с обучениемпрограмма предложит вам обучить только неуверенно распознанные символы.

В случае, если вы обучаете программу декоративным или нестандартным шрифтам и при этом используете встроенные эталоны, то OCR-система может распознать часть символов неправильно, не предложив их обучить. В этом случае дезактивируйте опциюИспользовать встроенные эталоны.

Как обучить эталон

Перед обучением обратитесь к закладкеРаспознавание(доступ:Сервис к Опции ) и в разделеРаспознавание с обучениемактивизируйте опциюРаспознавание с обучением.

Нажмите на кнопку2-Распознать. Программа начнет распознавание. Как только встретится символ, подлежащий обучению, откроется диалоговое окноРучное обучение эталона с изображением этого символа.

Как обучить символ

Описывающий прямоугольник в верхней части диалогового окна должен содержать один целый символ. В случае, если он содержит часть буквы или более одной буквы, то посредством мыши или кнопок и прямоугольник можно передвинуть так с тем, чтобы он охватывал одну целую букву.

Далее введите нужный символ и просто нажмите на кнопкуОбучить.

Важно:Обучать можно только символам, входящим в алфавит языка.

В случае, если вы обучаете программу символам, которые нельзя ввести с клавиатуры, то для их обозначения можно использовать комбинацию из двух символов или вы имеете возможность скопировать требуемый символ изТаблицы символов(открывается при нажатии в диалоговом окнеРучное обучение эталона кнопки).

В случае, если в обучаемом тексте встречаются слова, набранные курсивом или полужирным, и вам важно сохранить гарнитуру шрифта в распознанном тексте, то при обучении таким символам в диалоговом окнеРучное обучение эталонаактивизируйте опцииКурсивилиПолужирный.

В процессе обучения следите за тем с тем, чтобы изображениям заглавных букв соответствовали заглавные буквы, а изображениям строчных букв — строчные.

В случае, если при обучении вы ошиблись, то можно нажать кнопкуВернуться, и охватывающий прямоугольник вернется на предыдущую позицию, а последняя обученная пара «изображение — символ» будет удалена из эталона. КнопкаВернутьсядействует в пределах одного слова.

Обучение лигатурам

Лигатуры — это сочетания двух или трех символов, которые из-за особенностей их начертания невозможно разделить при обучении и которые поэтому сразу обучаются как комбинация символов. Обучение лигатурам происходит так же, как и обучение отдельным символам.

В строке для ввода символа введите необходимое сочетание символов и просто нажмите на кнопкуОбучить.

Описывающий прямоугольник в верхней части диалогового окна должен содержать сочетание целиком. Передвинуть прямоугольник можно посредством мыши.

В одном эталоне может содержаться до 1000 новых символов. Кроме этого помните, что, не следует создавать слишком много лигатур, так как это может отрицательно сказаться на качестве распознавания.

В процессе обучения необходимо учитывать следующие ограничения:

• Изображения некоторых символов не различаются системой распознавания и сопоставляются с каким-то одним символом. К примеру, прямой ('), левый (') и правый (') апострофы хранятся в эталоне как изображение прямого апострофа. Таким образом, в результате распознавания в тексте никогда не появится правый или левый апостроф, хотя при обучении вы указывали именно эти символы.

• Для некоторых изображений решение относительно того, какому символу в распознанном тексте его сопоставить, принимается на основе общего анализа распознанного текста.

Так, например, решение относительно того, является ли символ, обозначаемый «кружком», буквой "о" или цифрой ноль, OCR-система принимает в зависимости от того, находятся ли рядом другие цифры или буквы.

Редактирование эталона

Прежде чем запускать распознавание с только что созданным эталоном, рекомендуется просмотреть эталон и, если потребуется,скорректировать. Этим вы сведете к минимуму ошибки распознавания, которые могут возникнуть из-за неправильно обученного эталона.

Эталон должен содержать только целые символы или лигатуры. Символы, обрезанные с краев, и символы с неправильными подписями следует удалить из эталона.

Как скорректировать эталон

Из менюСервис выберите командуРедактор эталонов.

В раскрывшемся диалоговом окнеРедактор эталонов выберите нужный эталон и просто нажмите на кнопкуРедактировать. Перед вами откроется диалоговое окноСимволы пользовательского эталона.

Выбрав символ, просто нажмите на кнопкуСвойства с тем, чтобыскорректировать подпись и указать правильное начертание: курсив, полужирный, верхний или нижний индексы, или просто нажмите на кнопкуУдалить с тем, чтобы удалить неправильно обученные символы.

Пользовательские языки и группы языков (возможно в версии FineReaderOffice)

Вы имеете возможность использовать не только предопределенные языки и группы, но и создать новый язык или объединить существующие языки в новую группу и при распознавании подключить именно их.

Когда необходимо создавать новый язык?

Для подключения пользовательского словаря

К примеру, необходимо распознать русский текст, содержащий аббревиатуры. Вы имеете возможность создать словарь аббревиатур и подключить его к пользовательскому языку. На основе русского языка с подключенным системным словарем и языка, созданного вами с подключенным словарем аббревиатур, вы имеете возможность создать группу для дальнейшего ее использования при распознавании ваших текстов.

Для распознавания документов специального вида

Например, страница содержит перечень артикулов, состоящий из цифр и нескольких букв. Вы имеете возможность создать новый язык, включив в него минимально необходимый набор символов, и использовать его для распознавания данного типа документов.

Документ использует только заглавные буквы английского языка

В этом случае для повышения качества распознавания следует исключить из распознавания символы, которые заведомо не могут встретиться в тексте, в данном случае — все строчные буквы.

Когда необходимо создавать группу языков? В случае, если вы часто используете какую-нибудь комбинацию языков.

Создать язык или группу языков можно из диалогового окна Редактор языков (доступ:Сервис к Редактор языков ).

Создание нового языка

Из менюСервис выберите командуРедактор языков…

Нажмите на кнопкуНовый. В раскрывшемся диалоговом окне активизируйте переключательСоздать копию языка и выберите язык, на основе которого вы создаете новый.

Перед вами откроется диалоговое окноСвойства языка.

В процессе создания нового языка необходимо задать следующие параметры (все параметры задаются в диалоговом окнеСвойства языка ):

• Имя нового языка.

• В полеАлфавит языка указан алфавит языка, на основе которого вы создаете новый язык. В случае, если требуется, отредактируйте алфавит.

• Словарь, который будет использоваться системой при распознавании и проверке распознанного текста. Возможны следующие варианты:

• Нет (не подключать словарь к языку).

• Встроенный словарь (используется словарь, поставляемый с программой).

• Пользовательский словарь.

Назад Дальше