Из меню Сервис выберите команду Редактор языков…
Нажмите на кнопку Новый. В раскрывшемся диалоговом окне активизируйте переключатель Создать копию языка и выберите язык, на основе которого вы создаете новый.
Перед вами откроется диалоговое окно Свойства языка.
В процессе создания нового языка необходимо задать следующие параметры (все параметры задаются в диалоговом окне Свойства языка):
• Имя нового языка.
• В поле Алфавит языка указан алфавит языка, на основе которого вы создаете новый язык. В случае, если требуется, отредактируйте алфавит.
• Словарь, который будет использоваться системой при распознавании и проверке распознанного текста. Возможны следующие варианты:
• Нет (не подключать словарь к языку).
• Встроенный словарь (используется словарь, поставляемый с программой).
• Пользовательский словарь.
Для того, чтобы наполнить словарь или подключить старый пользовательский словарь или текстовый файл в Windows-кодировке (слова должны быть разделены пробелами или другими символам, не включенными в алфавит), просто нажмите на кнопку Редактировать.
Важно: Словарные слова пользовательского языка считаются правильными, если в тексте они встретились с той капитализацией, в которой они заданы в словаре, а также в каком-либо стандартном виде: всеми маленькими, всеми большими буквами или с большой буквы.
• Вид слова в словаре. Допустимые варианты написания слова в тексте:
• abc abc, Abe, ABC
• Abc abc, Abc, ABC
• ABC abc, Abc, ABC
• aBc aBc, abc, Abc, ABC
• Регулярное выражение (задается грамматика нового языка).
Важно: Нажав в диалоговом окне Свойства языков на кнопку Дополнительно, вы имеете возможность указать дополнительные свойства нового языка, например, игнорируемые внутри слова символы или исключенные из распознавания символы.
Как создать новую группу языка
Важно: Эта возможность имеется только в версии FineReader Office.
В случае, если при распознавании текстов вы часто используете некоторое сочетание языков, то вы имеете возможность создать группу, в которую объединены эти языки. Созданная группа появится в списке языков на панели Стандартная.
Важно: Вы имеете возможность указать комбинацию языков непосредственно в списке языков на панели Стандартная. Для этого выберите в списке строку Выбор нескольких языков. В раскрывшемся диалоговом окне Язык распознаваемого текста активизируйте необходимые языки.
Как создать группу языков для распознавания
Из меню Сервис выберите команду Редактор языков и просто нажмите на кнопку Новый. В раскрывшемся диалоговом окне выберите команду Создать новую группу.
Перед вами откроется диалоговое окно Свойства группы языков. Здесь вам необходимо задать для новой группы языков (все параметры устанавливаются в диалоговом окне Свойства группы) Имя группы и Подключенные языки.
Важно: Вы имеете возможность указать символы, которые заведомо не встречаются в распознаваемом документе. Указание таких символов может существенно увеличить скорость и надежность распознавания. Для этого в диалоговом окне Свойства группы языков просто нажмите на кнопку Дополнительно и в диалоговом окне Дополнительные свойства новой группы активизируйте соответствующие символы.
Глава 34.
Как проверить и отредактировать распознанный текст
После завершения распознавания результат появляется в диалоговом окне Текст. Диалоговое окно Текст - это встроенный редактор программы FineReader; в нем вы имеете возможность проверить результаты распознавания и скорректировать распознанный текст.
Одна из возможностей текстового редактора FineReader - это встроенная проверка орфографии.
Система встроенной проверки орфографии дает возможность:
• Находить неуверенно распознанные слова (слова, в которых имеется неуверенно распознанные символы).
• Находить орфографические ошибки (неправильно написанные слова).
• Добавлять неизвестные системе FineReader слова в словарь для того, чтобы они распознавались уверенно.
Неуверенно распознанные символы и слова, которые отсутствуют в словаре, выделяются различными цветами. По умолчанию для выделения неуверенно распознанных символов используется голубой, для несловарных слов - розовый. Для того, чтобы изменить цвета на закладке Вид (доступ: Сервис к Опции) в поле Объект выберите команду Неуверенно распознанный символ (Несловарное слово) и в поле Цвет - цвет подсветки.
Как проверить результаты распознавания
Нажмите на кнопку З-Проверить на панели Scan amp;Read (или выберите командуПроверка из меню Сервис).
Проверка дает возможность найти в тексте слова, содержащие неуверенно распознанные символы, несловарные слова, а также слова с орфографическими ошибками (клавиатурный эквивалент: F7).
Откроется диалоговое окно Проверка.
В диалоговом окне Проверка имеется три окна. Верхнее диалоговое окно - аналог окна Крупный план, в котором отображено изображение слова с возможной ошибкой. Среднее диалоговое окно показывает само слово с возможной ошибкой, в строке над этим диалоговым окном выводится название типа ошибки. В нижнем диалоговом окне Варианты предлагаются варианты замены данного слова, для которых используется словарь, активизированный вами в списке Язык словаря.
Важно: Для удобства проверки и редактирования текста диалоговое окно Проверка может быть увеличено. Для этого достаточно поместить указатель мыши на границу диалогового окна (указатель превратится в двустороннюю стрелку). Перетаскивая границу, увеличьте или уменьшите размеры диалогового окна.
У вас имеется следующие возможности:
• Нажмите на кнопку Пропустить с тем, чтобы оставить слово, как есть.
• Нажмите кнопку Пропустить все с тем, чтобы оставить все такие слова в распознанном тексте, как есть.
Выберите вариант для замены и просто нажмите на кнопку Заменить или Заменить все с тем, чтобы заменить текущее слово или все такие слова в тексте. В случае, если в диалоговом окне Варианты отсутствует правильный вариант для замены слова, скорректируйте его в среднем диалоговом окне и для того с тем, чтобы заменить текущее слово просто нажмите на кнопку Подтвердить.
Нажмите на кнопку Добавить, для того чтобы добавить слово в словарь. В этом случае при дальнейшей проверке орфографии, если это слово (или одна из его форм) встретится в тексте, оно не будет считаться ошибочным.
Нажмите на кнопку Опции с тем, чтобы установить опции проверки распознанного текста.
Нажмите Закрыть с тем, чтобы закрыть диалоговое окно.
Опции проверки и редактирования текста
Устанавливаются на закладке Проверка (доступ: Сервис к Опции).
Уровень выделения ошибок
В списке Уровень выделения ошибок возможно выбрать следующие значения:
• Нет - ошибки распознавания не выделяются.
• Стандартный - цветом выделяются нераспознанные и неуверенно распознанные символы.
• Максимальный - помимо нераспознанных и неуверенно распознанных символов, цветом выделяются слова, которые отсутствуют в словаре языка распознавания.
Важно: Количество отображаемых в диалоговом окне Текст ошибок будет изменено после повторного распознавания документа.
• Останавливаться на неуверенно распознанных словах - система при проверке орфографии останавливается на словах, в которых были неуверенно распознаны какие-либо буквы.
• Останавливаться на несловарных словах - эта опция позволит вам проверить слова, которые отсутствуют в словаре и которые могли быть неверно распознаны системой.
• Останавливаться на сложных словах - в процессе проверки орфографии OCR-система останавливается на словах, которые отсутствуют в словаре, но которые могут быть построены по имеющимся морфологическим моделям или которые могут быть составлены из имеющихся в словаре слов.
• Игнорировать слова с цифрами и другими неалфавитными символами - в процессе проверки орфографии слова, внутри которых встречаются цифры или какие-либо другие символы, не входящие в алфавит языка распознавания, не считаются ошибочными, если эти слова не содержат неуверенно распознанные символы.
• Корректировать пробелы до и после знаков препинания - в случае, если эта опция активизирована, то ocr-система не будет останавливаться на тех фрагментах, где неверно расставлены пробелы до и после знаков препинания, а исправит их автоматически.
Пополнение и удаление слов из пользовательского словаря
Добавление слова в пользовательский словарь
Добавление слов в словарь - один из способов повышения качества распознавания, так как при распознавании OCR-система проверяет слова по словарю. В словарь имеет смысл добавлять часто встречающиеся слова (например, термины, сокращения, названия). В тот момент, когда происходит добавление слова OCR-система строит его так называемую парадигму (совокупность всех форм данного слова). Это означает, что OCR-система может уверенно распознавать не только ту форму, которая уже однажды встретилась в тексте и была добавлена в словарь, но и все формы добавленного слова.
Как добавить слово в словарь во время проверки орфографии
Нажмите на кнопку Добавить в диалоговом окне Проверка.
В диалоговом окне Начальная форма вы должны установить следующие параметры:
• Часть речи (Существительное, Прилагательное, Глагол, Неизменяемое слово).
• В случае, если слово всегда пишется с большой буквы, активизируйте опцию Имя собственное.
• В случае, если вы добавляете слово, являющееся сокращением, активизируйте опцию Аббревиатура.
Начальная форма слова - нажмите ОК. Откроется диалоговое окно Построение парадигмы, в котором пользователю предлагаются вопросы, по ответам на которые строится парадигма слова. Для ответов на вопросы нажимайте кнопки Да или Нет. В случае, если вы ошиблись при ответе на вопрос, просто нажмите на кнопку Сначала с тем, чтобы иметь возможность ответить на этот вопрос по-другому. OCR-система покажет построенную парадигму в диалоговом окне Парадигма.
Важно: В случае, если вы хотите с тем, чтобы при добавлении слова в английский словарь парадигма не строилась (слово добавлялось бы как неизменяемое), то на закладке Проверка (доступ: Сервис к Опции) активизируйте опцию Добавлять слово как неизменяемое.
Вы имеете возможность добавлять слова во время просмотра списка добавленных слов. Для этого из меню Сервис выберите команду Просмотр словарей. В раскрывшемся диалоговом окне Выбор словаря выберите язык и просто нажмите на кнопку Просмотр. Откроется словарь со списком добавленных слов. Вы имеете возможность, нажав на кнопку Добавить, добавить набранное слово.
В случае, если добавляемое слово уже имеется в словаре, OCR-система предупредит вас об этом. В этом случае вы имеете возможность посмотреть его парадигму. В случае, если существующая парадигма вас не устраивает, имеете возможность создать другую (кнопка Добавить в диалоговом окне Добавить слово).
Вы имеете возможность импортировать пользовательские словари от FineReader ранних версий.
Вы имеете возможность импортировать пользовательский словарь (*.dic), который вы создали при работе с программой Microsoft Word.
Как импортировать словарь
Из меню Сервис выберите команду Просмотр словарей. Далее выберите язык словаря и просто нажмите на кнопку Просмотр. В раскрывшемся диалоговом окне Словарь просто нажмите на кнопку Импорт и выберите файлы с расширениями (*.ext, *.txt или *.dic).
Как удалить слово из словаря
Из меню Сервис выберите команду Просмотр словарей. Выберите язык словаря и просто нажмите на кнопку Просмотр. В раскрывшемся диалоговом окне выделите слово и просто нажмите на кнопку Удалить.
Глава 35.
Редактирование текста
Важно: В случае, если символы в текстовом диалоговом окне FineReader отображаются некорректно (в словах на месте некоторых букв стоят значки "?"), это означает, что шрифты, выбранные на закладке Форматирование, не содержат всех символов, входящих в распознаваемый язык. Установите шрифт (раздел Шрифты, меню Сервис к Опции, закладка Форматирование), поддерживающий все символы языка документа, и перераспознайте документ.
Распознанный текст выводится в диалоговое окно Текст. Текстовый редактор программы не отображает исходное оформление документа:
• Деление на строки сохраняется
• Распознанный текст, картинки, таблицы располагаются подряд в порядке номеров блоков.
Содержимое блоков разделяется пунктирной линией.
В процессе сохранения текста в приложение, оформление документа сохраняется в соответствии с опциями форматирования, устанавливаемыми на закладке Форматирование в диалоговом окне Форматы.
Неуверенно распознанные символы выделяются цветом. Вы имеете возможность отменить выделение слов с неуверенно распознанными символами: на закладке Вид (доступ: Сервис к Опции) дезактивируйте опцию Выделять неуверенно распознанные символы.
Для более удобного просмотра документа в диалоговом окне Текст вы имеете возможность установить черновой режим редактора. В черновом режиме редактора не отображаются картинки; левый отступ; выравнивание параграфа (все параграфы прижаты к левому краю); цвет и фон символов; для отображения текста используется шрифт одного размера (по умолчанию 12 пунктов). Кроме этого сохраняется шрифт и форматирование текста: полужирный, курсив, подчеркнутый, верхние и нижние индексы.
Переход из одного режима в другой осуществляется нажатием на панели Форматирование. В случае, если кнопка нажата, то форматирование отображается, в противном случае - текст отображается в черновом режиме.
Вы имеете возможность поменять установленный по умолчанию размер шрифта для отображения в черновом режиме. Для этого:
• Из меню Сервис выберите команду Опции.
• На закладке Вид укажите нужный размер шрифта в поле данных Размер шрифта в черновом режиме.
Редактор системы FineReader предоставляет следующие возможности по редактированию текста:
• Копирование, перемещение, удаление выделенных фрагментов текста
• Поиск и замена указанного фрагмента текста
• Изменение начертания шрифта
• Отмена и восстановление действий
• Копирование, перемещение, удаление выделенных фрагментов текста
Перед применением команд копирования, перемещения или удаления выделите нужный фрагмент текста.
Для того, чтобы скопировать выделенный текст нажмите на кнопку Копировать на инструментальной панели Стандартная.
Из ниспадающего меню выберите команду Копировать.
Нажмите клавиши Ctrl + C.
Как переместить фрагмент текста
Нажмите на кнопку Вырезать на инструментальной панели Стандартная или из меню Правка выберите команду Вырезать (клавиатурный эквивалент: Ctrl + X).
Как поместить скопированный (вырезанный) текст
Нажмите на кнопку Вставить на инструментальной панели Стандартная или меню Правка выберите команду Вставить
(Ctrl + V).
Поиск и замена указанного фрагмента текста
Как найти определенный фрагмент в редактируемом тексте
Для этого из меню Правка выберите команду Найти (Клавиатурный эквивалент: Ctrl + F).
В раскрывшемся диалоговом окне Поиск в строке Найти укажите, что вы хотите найти, и установите параметры поиска.
Важно: Для того, чтобы повторить поиск того же слова с теми же параметрами, нажмите клавишу F3.
Для того, чтобы найти и заменить определенный фрагмент в редактируемом тексте проделайте одну из следующих операций:
• Из меню Правка выберите команду Заменить.
• Нажмите клавиши Ctrl+H.
• В раскрывшемся диалоговом окне Заменить в строке Найти укажите, что вы хотите найти, в строке Заменить на укажите, на что вы хотите заменить найденное слово, и установите параметры поиска.
Как изменить начертания шрифта
Установите курсор на слово, которое вы хотите изменить, или выделите участок текста, для которого вы хотите изменить шрифт.
Нажмите правой кнопкой мыши в диалоговом окне Текст и из меню выберите команду Шрифт. Из раскрывшегося диалогового окна Шрифт выберите название шрифта и установите его параметры.
Клавиатурные эквиваленты: Ctrl + B полужирный, Ctrl + I - курсив, Ctrl + U подчеркивание.