• Распознать страницы одного пакета на нескольких компьютерах одновременно.
Запуск распознавания
Нажмите на кнопку 2-Распознать на панели Scan and Read. Из меню Процесс выберите необходимую команду:
• Распознать - чтобы распознать открытую страницу или все страницы, выделенные в диалоговом окне Пакет;
• Распознать все - чтобы распознать все нераспознанные страницы пакета;
• Распознать Блок - чтобы распознать блок или несколько блоков, выделенных на изображении;
• Запустить фоновое распознавание - чтобы запустить распознавание в фоновом режиме.
Кнопка 2-Распознать запускает распознавание открытого изображения. Для того, чтобы изменить режим кнопки, нажмите на стрелку справа от нее и из открывшегося меню выберите необходимую команду.
Важно: В процессе распознавания уже распознанной страницы перераспознаются только отредактированные и добавленные блоки.
Язык распознавания
FineReader поддерживает распознавание как одноязычных, так и многоязычных (например, английско-французских) документов.
Для того, чтобы указать язык распознаваемого текста, выберите соответствующую строку в списке на панели Распознавание.
В случае, если вы хотите распознать документ, написанный на нескольких языках:
В списке языков на панели Стандартная выберите команду Выбор нескольких языков… в раскрывшемся диалоговом окне Язык распознаваемого текста укажите несколько языков. Для этого активизируйте опции с соответствующими названиями языков.
Важно: В случае, если вы часто используете какую-либо комбинацию языков, то создайте новую группу, содержащую эти языки (возможно только в версии FineReader Office).
Важно: Увеличение количества подключенных к распознаванию одного документа языков может привести к ухудшению качества распознавания. Не рекомендуется подключать более 2-3 языков.
Перед запуском распознавания проверьте подключенные на закладке Форматирование шрифты: они должны содержать все символы языка распознавания. В противном случае распознанный текст будет неправильно отображен в диалоговом окне Текст (в словах на месте некоторых букв стоят значки "?").
В случае, если необходимый язык отсутствует в списке, то возможны следующие варианты:
• Данный язык не поддерживается системой FineReader.
• Язык исключен из списка языков отображаемых на панели Стандартная. В этом случае в списке языков на панели Стандартная выберите команду Выбор из полного списка языков и в раскрывшемся диалоговом окне Язык распознаваемого текста укажите необходимый язык.
• Язык не был установлен (была выбрана минимальная установка) или был отключен при выборочной установке. Для того, чтобы доустановить языки распознавания, запустите программу инсталляции FineReader в режиме покомпонентной установки (Установка дистрибутива по выбору), дезактивируйте все опции, за исключением опции Языки распознавания, и просто нажмите на кнопку Состав. В раскрывшемся списке языков укажите требуемые языки.
Важно: В процессе установке проверьте, что вы указали ту же папку, в которую вы ранее установили ABBYY FineReader.
Как подключить язык к списку отображаемых языков
В диалоговом окне Редактор языков (доступ: Сервис к Редактор языков) выберите язык, который вы хотите подключить, и дезактивируйте опцию Показывать в списке языков.
Важно: Вы имеете возможность установить язык распознавания на отдельный блок. Для этого нажмите правой кнопкой мыши на блоке, для которого вы хотите установить язык распознавания, отличный от языка распознавания для всего текста, и из меню выберите команду Свойства. В раскрывшемся диалоговом окне Свойства на закладке Блок в поле Язык распознавания выберите язык распознавания выделенного блока.
Тип печати входного текста
Для большинства текстов тип печати определяется автоматически. Этому соответствует значение Авто (доступ: раздел Тип печати, меню Сервис к Опции, закладка Распознавание).
В процессе распознавания текстов, напечатанных на матричном принтере в черновом режиме или на пишущей машинке, можно добиться более высокого качества распознавания, установив правильный Тип печати: для текстов, набранных на пишущей машинке - значение Пишущая машинка. для текстов, напечатанных на матричном принтере - значение Матричный принтер.
Как поменять тип печати
На закладке Распознавание диалогового окна Опции (доступ: Сервис к Опции) из раздела Тип печати выберите нужную опцию.
Важно: После распознавания текстов, набранных на пишущей машинке или матричном принтере, не забудьте снова выбрать значение Авто при возвращении к типографскому тексту.
Другие опции распознавания
Показывать или не показывать изображение при распознавании
Распознавание группы страниц происходит быстрее, если обрабатываемое изображение не отображается.
На закладке Общие (доступ: Сервис к Общие) дезактивируйте опцию Показывать изображение при распознавании.
Инвертировать блок
Для того, чтобы распознать инвертированные участки изображений (текстовый блок, ячейки таблицы или всю таблицу целиком) нажмите правой кнопкой мыши на инвертированном блоке и из меню выберите команду Свойства. В раскрывшемся диалоговом окне Свойства блока активизируйте опцию Инвертированный.
Распознавание в фоновом режиме
В случае, если вы хотите одновременно с распознаванием редактировать распознанные страницы, вы имеете возможность запустить распознавание в фоновом режиме: из меню Процесс выберите команду Запустить фоновое распознавание.
В строке состояния появится значок. В случае, если для диалогового окна Пакет вами выбран режим показа свойства страниц (доступ: Вид к Вид со свойствами), то напротив распознаваемой страницы в колонке Открыта появится специальный значок. В этом режиме распозна вание автоматически возобновляется, как только в пакете появляются нераспознанные страницы.
Как остановить распознавание в фоновом режиме
Из меню Процесс выберите команду Остановить фоновое распознавание.
Важно: В программе abbyy finereader в режиме Распознавание в фоновом режиме используются опции, установленные в программе до запуска фонового распознавания.
Глава 33.
Как обучить FineReader
Распознавание с обучением
• В программе ABBYY FineReader тексты хорошего и среднего качества, а также шрифты обычного начертания распознаются без предварительного обучения. Поэтому OCR-система может работать в режиме Распознавание с обучением, который позволяет вводить тексты разного качества, набранные практически любыми шрифтами. В режиме Распознавание с обучением вы можете: распознавания текстов, использующих декоративные шрифты; распознавания текстов, в котором встречаются специальные символы (например, отдельные математические символы); распознавания большого объема (более 100 страниц) текста плохого качества.
В других случаях Распознавание с обучением использовать не рекомендуется, так как затраты на обучение будут больше, чем полученный выигрыш в качестве распознавания.
Обучение проводится при распознавании одной-двух страниц текста в специальном режиме. В результате создается эталон букв, встречающихся в тексте. Этот эталон в дальнейшем используется при распознавании основного объема текста. Некоторые пары или тройки символов в тексте могут склеиваться. В случае, если при обучении вам не удается переместить описывающий прямоугольник так, чтобы он заключал в себя один целый символ и не содержал при этом части соседних, то вы имеете возможность обучить программу сочетанию символов, которые невозможно "расклеить". Такие неразделяемые сочетания двух или трех символов называются лигатурами.
Важно: Созданный эталон можно использовать только для распознавания текстов, использующих тот же шрифт и размер шрифта и отсканированных с тем же разрешением, как и документ, на котором данный эталон создавался.
В процессе удаления пакета эталон также удаляется.
Вы имеете возможность сохранить созданный эталон для работы с другими пакетами. Для этого сохраните настройки пакета в формате шаблона пакета (*.fbt).
В процессе перехода к распознаванию текстов, набранных другим шрифтом, не забудьте отключить эталон (Сервис к Опции к Распознавание) активизируйте переключатель Не использовать пользовательский эталон.
Как начать распознавать с обучением
Установите режим Распознавание с обучением (на закладке Распознавание, меню Сервис к Опции в разделе Распознавание с обучением активизируйте переключатель Распознавание с обучением). В строке состояния появится название эталона (по умолчанию default).
Нажмите на кнопку 2-Распознать.
Обучите эталон, распознав одну-две страницы в режиме распознавание с обучением.
Обучаемые символы заносятся в эталон, создаваемый системой по умолчанию. По окончании обучения OCR-система сохранит созданный эталон (default.ptn) в папке, где хранится пакет.
Отредактируйте эталон.
Отмените режим Распознавание с обучением (на закладке Распознавание в разделе Обучение установите переключатель Распознавание с пользовательским эталоном).
Запустите распознавание основного текста, нажав на кнопку 2-Распознать.
Важно: Для того, чтобы создать несколько эталонов на один пакет, воспользуйтесь диалогом Редактор эталонов (доступ:Сервис к Редактор эталонов). Создайте новый эталон (нажмите в диалоговом окне на кнопку Новый) и выберите его для работы (нажмите на кнопку Выбрать). Далее работа с созданным эталоном происходит так же, как и работа с default-эталоном.
В случае, если в процессе обучения было создано несколько эталонов, то подключается последний созданный эталон. Название подключенного эталона пишется в строке состояния.
Для того, чтобы подключить другой эталон для распознавания, в диалоговом окне Редактор эталонов (доступ: Сервис к Редактор эталонов) в списке эталонов выберите эталон и просто нажмите на кнопку Выбрать. На закладке
Распознавание в разделе Обучение активизируйте переключатель Распознавание с пользовательским эталоном.
В случае, если на закладке Распознавание активизирована опция Использовать встроенные эталоны, то в режиме Распознавание с обучением программа предложит вам обучить только неуверенно распознанные символы.
В случае, если вы обучаете программу декоративным или нестандартным шрифтам и при этом используете встроенные эталоны, то OCR-система может распознать часть символов неправильно, не предложив их обучить. В этом случае дезактивируйте опцию Использовать встроенные эталоны.
Как обучить эталон
Перед обучением обратитесь к закладке Распознавание (доступ: Сервис к Опции) и в разделе Распознавание с обучением активизируйте опцию Распознавание с обучением.
Нажмите на кнопку 2-Распознать. Программа начнет распознавание. Как только встретится символ, подлежащий обучению, откроется диалоговое окно Ручное обучение эталона с изображением этого символа.
Как обучить символ
Описывающий прямоугольник в верхней части диалогового окна должен содержать один целый символ. В случае, если он содержит часть буквы или более одной буквы, то посредством мыши или кнопок и прямоугольник можно передвинуть так с тем, чтобы он охватывал одну целую букву.
Далее введите нужный символ и просто нажмите на кнопку Обучить.
Важно: Обучать можно только символам, входящим в алфавит языка.
В случае, если вы обучаете программу символам, которые нельзя ввести с клавиатуры, то для их обозначения можно использовать комбинацию из двух символов или вы имеете возможность скопировать требуемый символ из Таблицы символов (открывается при нажатии в диалоговом окне Ручное обучение эталона кнопки).
В случае, если в обучаемом тексте встречаются слова, набранные курсивом или полужирным, и вам важно сохранить гарнитуру шрифта в распознанном тексте, то при обучении таким символам в диалоговом окне Ручное обучение эталона активизируйте опции Курсив или Полужирный.
В процессе обучения следите за тем с тем, чтобы изображениям заглавных букв соответствовали заглавные буквы, а изображениям строчных букв - строчные.
В случае, если при обучении вы ошиблись, то можно нажать кнопку Вернуться, и охватывающий прямоугольник вернется на предыдущую позицию, а последняя обученная пара "изображение - символ" будет удалена из эталона. Кнопка Вернуться действует в пределах одного слова.
Обучение лигатурам
Лигатуры - это сочетания двух или трех символов, которые из-за особенностей их начертания невозможно разделить при обучении и которые поэтому сразу обучаются как комбинация символов. Обучение лигатурам происходит так же, как и обучение отдельным символам.
В строке для ввода символа введите необходимое сочетание символов и просто нажмите на кнопку Обучить.
Описывающий прямоугольник в верхней части диалогового окна должен содержать сочетание целиком. Передвинуть прямоугольник можно посредством мыши.
В одном эталоне может содержаться до 1000 новых символов. Кроме этого помните, что, не следует создавать слишком много лигатур, так как это может отрицательно сказаться на качестве распознавания.
В процессе обучения необходимо учитывать следующие ограничения:
• Изображения некоторых символов не различаются системой распознавания и сопоставляются с каким-то одним символом. К примеру, прямой ('), левый (') и правый (') апострофы хранятся в эталоне как изображение прямого апострофа. Таким образом, в результате распознавания в тексте никогда не появится правый или левый апостроф, хотя при обучении вы указывали именно эти символы.
• Для некоторых изображений решение относительно того, какому символу в распознанном тексте его сопоставить, принимается на основе общего анализа распознанного текста. Так, например, решение относительно того, является ли символ, обозначаемый "кружком", буквой "о" или цифрой ноль, OCR-система принимает в зависимости от того, находятся ли рядом другие цифры или буквы.
Редактирование эталона
Прежде чем запускать распознавание с только что созданным эталоном, рекомендуется просмотреть эталон и, если потребуется, скорректировать. Этим вы сведете к минимуму ошибки распознавания, которые могут возникнуть из-за неправильно обученного эталона.
Эталон должен содержать только целые символы или лигатуры. Символы, обрезанные с краев, и символы с неправильными подписями следует удалить из эталона.
Как скорректировать эталон
Из меню Сервис выберите команду Редактор эталонов.
В раскрывшемся диалоговом окне Редактор эталонов выберите нужный эталон и просто нажмите на кнопку Редактировать. Перед вами откроется диалоговое окно Символы пользовательского эталона.
Выбрав символ, просто нажмите на кнопку Свойства с тем, чтобы скорректировать подпись и указать правильное начертание: курсив, полужирный, верхний или нижний индексы, или просто нажмите на кнопку Удалить с тем, чтобы удалить неправильно обученные символы.
Пользовательские языки и группы языков (возможно в версии FineReaderOffice)
Вы имеете возможность использовать не только предопределенные языки и группы, но и создать новый язык или объединить существующие языки в новую группу и при распознавании подключить именно их.
Когда необходимо создавать новый язык?
Для подключения пользовательского словаря
К примеру, необходимо распознать русский текст, содержащий аббревиатуры. Вы имеете возможность создать словарь аббревиатур и подключить его к пользовательскому языку. На основе русского языка с подключенным системным словарем и языка, созданного вами с подключенным словарем аббревиатур, вы имеете возможность создать группу для дальнейшего ее использования при распознавании ваших текстов.
Для распознавания документов специального вида
Например, страница содержит перечень артикулов, состоящий из цифр и нескольких букв. Вы имеете возможность создать новый язык, включив в него минимально необходимый набор символов, и использовать его для распознавания данного типа документов.
Документ использует только заглавные буквы английского языка
В этом случае для повышения качества распознавания следует исключить из распознавания символы, которые заведомо не могут встретиться в тексте, в данном случае - все строчные буквы.
Когда необходимо создавать группу языков? В случае, если вы часто используете какую-нибудь комбинацию языков.
Создать язык или группу языков можно из диалогового окна Редактор языков (доступ: Сервис к Редактор языков).
Создание нового языка