Обучение лигатурам
   Лигатуры — это сочетания двух или трех символов, которые из-за особенностей их начертания невозможно разделить при обучении и которые поэтому сразу обучаются как комбинация символов. Обучение лигатурам происходит так же, как и обучение отдельным символам.
   В строке для ввода символа введите необходимое сочетание символов и просто нажмите на кнопку Обучить.
   Описывающий прямоугольник в верхней части диалогового окна должен содержать сочетание целиком. Передвинуть прямоугольник можно посредством мыши.
   В одном эталоне может содержаться до 1000 новых символов. Кроме этого помните, что, не следует создавать слишком много лигатур, так как это может отрицательно сказаться на качестве распознавания.
   В процессе обучения необходимо учитывать следующие ограничения:
   • Изображения некоторых символов не различаются системой распознавания и сопоставляются с каким-то одним символом. К примеру, прямой ('), левый (') и правый (') апострофы хранятся в эталоне как изображение прямого апострофа. Таким образом, в результате распознавания в тексте никогда не появится правый или левый апостроф, хотя при обучении вы указывали именно эти символы.
   • Для некоторых изображений решение относительно того, какому символу в распознанном тексте его сопоставить, принимается на основе общего анализа распознанного текста. Так, например, решение относительно того, является ли символ, обозначаемый «кружком», буквой "о" или цифрой ноль, OCR-система принимает в зависимости от того, находятся ли рядом другие цифры или буквы.
 
   Редактирование эталона
   Прежде чем запускать распознавание с только что созданным эталоном, рекомендуется просмотреть эталон и, если потребуется, скорректировать. Этим вы сведете к минимуму ошибки распознавания, которые могут возникнуть из-за неправильно обученного эталона.
   Эталон должен содержать только целые символы или лигатуры. Символы, обрезанные с краев, и символы с неправильными подписями следует удалить из эталона.
 
   Как скорректировать эталон
   Из меню Сервис выберите команду Редактор эталонов.
   В раскрывшемся диалоговом окне Редактор эталонов выберите нужный эталон и просто нажмите на кнопку Редактировать. Перед вами откроется диалоговое окно Символы пользовательского эталона.
   Выбрав символ, просто нажмите на кнопку Свойства с тем, чтобы скорректировать подпись и указать правильное начертание: курсив, полужирный, верхний или нижний индексы, или просто нажмите на кнопку Удалить с тем, чтобы удалить неправильно обученные символы.
 
   Пользовательские языки и группы языков (возможно в версии FineReaderOffice)
   Вы имеете возможность использовать не только предопределенные языки и группы, но и создать новый язык или объединить существующие языки в новую группу и при распознавании подключить именно их.
   Когда необходимо создавать новый язык?
 
   Для подключения пользовательского словаря
   К примеру, необходимо распознать русский текст, содержащий аббревиатуры. Вы имеете возможность создать словарь аббревиатур и подключить его к пользовательскому языку. На основе русского языка с подключенным системным словарем и языка, созданного вами с подключенным словарем аббревиатур, вы имеете возможность создать группу для дальнейшего ее использования при распознавании ваших текстов.
 
   Для распознавания документов специального вида
   Например, страница содержит перечень артикулов, состоящий из цифр и нескольких букв. Вы имеете возможность создать новый язык, включив в него минимально необходимый набор символов, и использовать его для распознавания данного типа документов.
 
   Документ использует только заглавные буквы английского языка
   В этом случае для повышения качества распознавания следует исключить из распознавания символы, которые заведомо не могут встретиться в тексте, в данном случае — все строчные буквы.
   Когда необходимо создавать группу языков? В случае, если вы часто используете какую-нибудь комбинацию языков.
   Создать язык или группу языков можно из диалогового окна Редактор языков (доступ: Сервис к Редактор языков).
 
   Создание нового языка
   Из меню Сервис выберите команду Редактор языков…
   Нажмите на кнопку Новый. В раскрывшемся диалоговом окне активизируйте переключатель Создать копию языка и выберите язык, на основе которого вы создаете новый.
   Перед вами откроется диалоговое окно Свойства языка.
   В процессе создания нового языка необходимо задать следующие параметры (все параметры задаются в диалоговом окне Свойства языка):
   • Имя нового языка.
   • В поле Алфавит языка указан алфавит языка, на основе которого вы создаете новый язык. В случае, если требуется, отредактируйте алфавит.
   • Словарь, который будет использоваться системой при распознавании и проверке распознанного текста. Возможны следующие варианты:
   • Нет (не подключать словарь к языку).
   • Встроенный словарь (используется словарь, поставляемый с программой).
   • Пользовательский словарь.
   Для того, чтобы наполнить словарь или подключить старый пользовательский словарь или текстовый файл в Windows-кодировке (слова должны быть разделены пробелами или другими символам, не включенными в алфавит), просто нажмите на кнопку Редактировать.
   Важно: Словарные слова пользовательского языка считаются правильными, если в тексте они встретились с той капитализацией, в которой они заданы в словаре, а также в каком-либо стандартном виде: всеми маленькими, всеми большими буквами или с большой буквы.
   • Вид слова в словаре. Допустимые варианты написания слова в тексте:
   • abc abc, Abe, ABC
   • Abc abc, Abc, ABC
   • ABC abc, Abc, ABC
   • aBc aBc, abc, Abc, ABC
   • Регулярное выражение (задается грамматика нового языка).
   Важно: Нажав в диалоговом окне Свойства языков на кнопку Дополнительно, вы имеете возможность указать дополнительные свойства нового языка, например, игнорируемые внутри слова символы или исключенные из распознавания символы.
 
   Как создать новую группу языка
   Важно: Эта возможность имеется только в версии FineReader Office.
   В случае, если при распознавании текстов вы часто используете некоторое сочетание языков, то вы имеете возможность создать группу, в которую объединены эти языки. Созданная группа появится в списке языков на панели Стандартная.
   Важно: Вы имеете возможность указать комбинацию языков непосредственно в списке языков на панели Стандартная. Для этого выберите в списке строку Выбор нескольких языков. В раскрывшемся диалоговом окне Язык распознаваемого текста активизируйте необходимые языки.
 
   Как создать группу языков для распознавания
   Из меню Сервис выберите команду Редактор языков и просто нажмите на кнопку Новый. В раскрывшемся диалоговом окне выберите команду Создать новую группу.
   Перед вами откроется диалоговое окно Свойства группы языков. Здесь вам необходимо задать для новой группы языков (все параметры устанавливаются в диалоговом окне Свойства группы) Имя группы и Подключенные языки.
   Важно: Вы имеете возможность указать символы, которые заведомо не встречаются в распознаваемом документе. Указание таких символов может существенно увеличить скорость и надежность распознавания. Для этого в диалоговом окне Свойства группы языков просто нажмите на кнопку Дополнительно и в диалоговом окне Дополнительные свойства новой группы активизируйте соответствующие символы.

Глава 34.
Как проверить и отредактировать распознанный текст

   После завершения распознавания результат появляется в диалоговом окне Текст. Диалоговое окно Текст — это встроенный редактор программы FineReader; в нем вы имеете возможность проверить результаты распознавания и скорректировать распознанный текст.
   Одна из возможностей текстового редактора FineReader — это встроенная проверка орфографии.
   Система встроенной проверки орфографии дает возможность:
   • Находить неуверенно распознанные слова (слова, в которых имеется неуверенно распознанные символы).
   • Находить орфографические ошибки (неправильно написанные слова).
   • Добавлять неизвестные системе FineReader слова в словарь для того, чтобы они распознавались уверенно.
   Неуверенно распознанные символы и слова, которые отсутствуют в словаре, выделяются различными цветами. По умолчанию для выделения неуверенно распознанных символов используется голубой, для несловарных слов — розовый. Для того, чтобы изменить цвета на закладке Вид (доступ: Сервис к Опции) в поле Объект выберите команду Неуверенно распознанный символ (Несловарное слово) и в поле Цвет — цвет подсветки.
 
   Как проверить результаты распознавания
   Нажмите на кнопку З-Проверить на панели Scan amp;Read (или выберите командуПроверка из меню Сервис).
   Проверка дает возможность найти в тексте слова, содержащие неуверенно распознанные символы, несловарные слова, а также слова с орфографическими ошибками (клавиатурный эквивалент: F7).
   Откроется диалоговое окно Проверка.
   В диалоговом окне Проверка имеется три окна. Верхнее диалоговое окно — аналог окна Крупный план, в котором отображено изображение слова с возможной ошибкой. Среднее диалоговое окно показывает само слово с возможной ошибкой, в строке над этим диалоговым окном выводится название типа ошибки. В нижнем диалоговом окне Варианты предлагаются варианты замены данного слова, для которых используется словарь, активизированный вами в списке Язык словаря.
   Важно: Для удобства проверки и редактирования текста диалоговое окно Проверка может быть увеличено. Для этого достаточно поместить указатель мыши на границу диалогового окна (указатель превратится в двустороннюю стрелку). Перетаскивая границу, увеличьте или уменьшите размеры диалогового окна.
   У вас имеется следующие возможности:
   • Нажмите на кнопку Пропустить с тем, чтобы оставить слово, как есть.
   • Нажмите кнопку Пропустить все с тем, чтобы оставить все такие слова в распознанном тексте, как есть.
   Выберите вариант для замены и просто нажмите на кнопку Заменить или Заменить все с тем, чтобы заменить текущее слово или все такие слова в тексте. В случае, если в диалоговом окне Варианты отсутствует правильный вариант для замены слова, скорректируйте его в среднем диалоговом окне и для того с тем, чтобы заменить текущее слово просто нажмите на кнопку Подтвердить.
   Нажмите на кнопку Добавить, для того чтобы добавить слово в словарь. В этом случае при дальнейшей проверке орфографии, если это слово (или одна из его форм) встретится в тексте, оно не будет считаться ошибочным.
   Нажмите на кнопку Опции с тем, чтобы установить опции проверки распознанного текста.
   Нажмите Закрыть с тем, чтобы закрыть диалоговое окно.
 
   Опции проверки и редактирования текста
   Устанавливаются на закладке Проверка (доступ: Сервис к Опции).
 
   Уровень выделения ошибок
   В списке Уровень выделения ошибок возможно выбрать следующие значения:
   • Нет — ошибки распознавания не выделяются.
   • Стандартный — цветом выделяются нераспознанные и неуверенно распознанные символы.
   • Максимальный — помимо нераспознанных и неуверенно распознанных символов, цветом выделяются слова, которые отсутствуют в словаре языка распознавания.
   Важно: Количество отображаемых в диалоговом окне Текст ошибок будет изменено после повторного распознавания документа.
   • Останавливаться на неуверенно распознанных словах — система при проверке орфографии останавливается на словах, в которых были неуверенно распознаны какие-либо буквы.
   • Останавливаться на несловарных словах — эта опция позволит вам проверить слова, которые отсутствуют в словаре и которые могли быть неверно распознаны системой.
   • Останавливаться на сложных словах — в процессе проверки орфографии OCR-система останавливается на словах, которые отсутствуют в словаре, но которые могут быть построены по имеющимся морфологическим моделям или которые могут быть составлены из имеющихся в словаре слов.
   • Игнорировать слова с цифрами и другими неалфавитными символами — в процессе проверки орфографии слова, внутри которых встречаются цифры или какие-либо другие символы, не входящие в алфавит языка распознавания, не считаются ошибочными, если эти слова не содержат неуверенно распознанные символы.
   • Корректировать пробелы до и после знаков препинания — в случае, если эта опция активизирована, то ocr-система не будет останавливаться на тех фрагментах, где неверно расставлены пробелы до и после знаков препинания, а исправит их автоматически.
Пополнение и удаление слов из пользовательского словаря
   Добавление слова в пользовательский словарь
   Добавление слов в словарь — один из способов повышения качества распознавания, так как при распознавании OCR-система проверяет слова по словарю. В словарь имеет смысл добавлять часто встречающиеся слова (например, термины, сокращения, названия). В тот момент, когда происходит добавление слова OCR-система строит его так называемую парадигму (совокупность всех форм данного слова). Это означает, что OCR-система может уверенно распознавать не только ту форму, которая уже однажды встретилась в тексте и была добавлена в словарь, но и все формы добавленного слова.
 
   Как добавить слово в словарь во время проверки орфографии
   Нажмите на кнопку Добавить в диалоговом окне Проверка.
   В диалоговом окне Начальная форма вы должны установить следующие параметры:
   • Часть речи (Существительное, Прилагательное, Глагол, Неизменяемое слово).
   • В случае, если слово всегда пишется с большой буквы, активизируйте опцию Имя собственное.
   • В случае, если вы добавляете слово, являющееся сокращением, активизируйте опцию Аббревиатура.
   Начальная форма слова — нажмите ОК. Откроется диалоговое окно Построение парадигмы, в котором пользователю предлагаются вопросы, по ответам на которые строится парадигма слова. Для ответов на вопросы нажимайте кнопки Да или Нет. В случае, если вы ошиблись при ответе на вопрос, просто нажмите на кнопку Сначала с тем, чтобы иметь возможность ответить на этот вопрос по-другому. OCR-система покажет построенную парадигму в диалоговом окне Парадигма.
   Важно: В случае, если вы хотите с тем, чтобы при добавлении слова в английский словарь парадигма не строилась (слово добавлялось бы как неизменяемое), то на закладке Проверка (доступ: Сервис к Опции) активизируйте опцию Добавлять слово как неизменяемое.
   Вы имеете возможность добавлять слова во время просмотра списка добавленных слов. Для этого из меню Сервис выберите команду Просмотр словарей. В раскрывшемся диалоговом окне Выбор словаря выберите язык и просто нажмите на кнопку Просмотр. Откроется словарь со списком добавленных слов. Вы имеете возможность, нажав на кнопку Добавить, добавить набранное слово.
   В случае, если добавляемое слово уже имеется в словаре, OCR-система предупредит вас об этом. В этом случае вы имеете возможность посмотреть его парадигму. В случае, если существующая парадигма вас не устраивает, имеете возможность создать другую (кнопка Добавить в диалоговом окне Добавить слово).
   Вы имеете возможность импортировать пользовательские словари от FineReader ранних версий.
   Вы имеете возможность импортировать пользовательский словарь (*.dic), который вы создали при работе с программой Microsoft Word.
 
   Как импортировать словарь
   Из меню Сервис выберите команду Просмотр словарей. Далее выберите язык словаря и просто нажмите на кнопку Просмотр. В раскрывшемся диалоговом окне Словарь просто нажмите на кнопку Импорт и выберите файлы с расширениями (*.ext, *.txt или *.dic).
 
   Как удалить слово из словаря
   Из меню Сервис выберите команду Просмотр словарей. Выберите язык словаря и просто нажмите на кнопку Просмотр. В раскрывшемся диалоговом окне выделите слово и просто нажмите на кнопку Удалить.

Глава 35.
Редактирование текста

   Важно: В случае, если символы в текстовом диалоговом окне FineReader отображаются некорректно (в словах на месте некоторых букв стоят значки "?"), это означает, что шрифты, выбранные на закладке Форматирование, не содержат всех символов, входящих в распознаваемый язык. Установите шрифт (раздел Шрифты, меню Сервис к Опции, закладка Форматирование), поддерживающий все символы языка документа, и перераспознайте документ.
   Распознанный текст выводится в диалоговое окно Текст. Текстовый редактор программы не отображает исходное оформление документа:
   • Деление на строки сохраняется
   • Распознанный текст, картинки, таблицы располагаются подряд в порядке номеров блоков.
   Содержимое блоков разделяется пунктирной линией.
 
   В процессе сохранения текста в приложение, оформление документа сохраняется в соответствии с опциями форматирования, устанавливаемыми на закладке Форматирование в диалоговом окне Форматы.
   Неуверенно распознанные символы выделяются цветом. Вы имеете возможность отменить выделение слов с неуверенно распознанными символами: на закладке Вид (доступ: Сервис к Опции) дезактивируйте опцию Выделять неуверенно распознанные символы.
   Для более удобного просмотра документа в диалоговом окне Текст вы имеете возможность установить черновой режим редактора. В черновом режиме редактора не отображаются картинки; левый отступ; выравнивание параграфа (все параграфы прижаты к левому краю); цвет и фон символов; для отображения текста используется шрифт одного размера (по умолчанию 12 пунктов). Кроме этого сохраняется шрифт и форматирование текста: полужирный, курсив, подчеркнутый, верхние и нижние индексы.
   Переход из одного режима в другой осуществляется нажатием на панели Форматирование. В случае, если кнопка нажата, то форматирование отображается, в противном случае — текст отображается в черновом режиме.
   Вы имеете возможность поменять установленный по умолчанию размер шрифта для отображения в черновом режиме. Для этого:
   • Из меню Сервис выберите команду Опции.
   • На закладке Вид укажите нужный размер шрифта в поле данных Размер шрифта в черновом режиме.
   Редактор системы FineReader предоставляет следующие возможности по редактированию текста:
   • Копирование, перемещение, удаление выделенных фрагментов текста
   • Поиск и замена указанного фрагмента текста
   • Изменение начертания шрифта
   • Отмена и восстановление действий
   • Копирование, перемещение, удаление выделенных фрагментов текста
   Перед применением команд копирования, перемещения или удаления выделите нужный фрагмент текста.
   Для того, чтобы скопировать выделенный текст нажмите на кнопку Копировать на инструментальной панели Стандартная.
   Из ниспадающего меню выберите команду Копировать.
   Нажмите клавиши Ctrl + C.
   Как переместить фрагмент текста
   Нажмите на кнопку Вырезать на инструментальной панели Стандартная или из меню Правка выберите команду Вырезать (клавиатурный эквивалент: Ctrl + X).
 
   Как поместить скопированный (вырезанный) текст
   Нажмите на кнопку Вставить на инструментальной панели Стандартная или меню Правка выберите команду Вставить
   (Ctrl + V).
 
   Поиск и замена указанного фрагмента текста
   Как найти определенный фрагмент в редактируемом тексте
   Для этого из меню Правка выберите команду Найти (Клавиатурный эквивалент: Ctrl + F).
   В раскрывшемся диалоговом окне Поиск в строке Найти укажите, что вы хотите найти, и установите параметры поиска.
   Важно: Для того, чтобы повторить поиск того же слова с теми же параметрами, нажмите клавишу F3.
   Для того, чтобы найти и заменить определенный фрагмент в редактируемом тексте проделайте одну из следующих операций:
   • Из меню Правка выберите команду Заменить.
   • Нажмите клавиши Ctrl+H.
   • В раскрывшемся диалоговом окне Заменить в строке Найти укажите, что вы хотите найти, в строке Заменить на укажите, на что вы хотите заменить найденное слово, и установите параметры поиска.
 
   Как изменить начертания шрифта
   Установите курсор на слово, которое вы хотите изменить, или выделите участок текста, для которого вы хотите изменить шрифт.
   Нажмите правой кнопкой мыши в диалоговом окне Текст и из меню выберите команду Шрифт. Из раскрывшегося диалогового окна Шрифт выберите название шрифта и установите его параметры.
   Клавиатурные эквиваленты: Ctrl + B полужирный, Ctrl + I — курсив, Ctrl + U подчеркивание.
   Важно: Устанавливаемые в диалоговом окне
   Шрифты межсимвольный интервал, масштаб символов, а также форматирование текста малыми прописными (отображение всех строчных букв в выделенном тексте как прописных букв уменьшенного размера) не отображаются в диалоговом окне Текст. Вы увидите эти изменения при сохранении документа в формате приложений, поддерживающих указанные типы форматирования текста.
Отмена и восстановление действий
   Как отменить совершенное действие
   Нажмите на кнопку Отменить на инструментальной панели Стандартная или из меню Правка выберите команду Отменить (Ctrl + Z).
 
   Как восстановить отмененное действие
   Нажмите на кнопку Восстановить на инструментальной панели Стандартная или из меню Правка выберите команду Восстановить (клавиатурный эквивалент: Ctrl + Y).

Глава 36.
Редактирование таблиц

   В процессе редактирования таблицы вы имеете возможность:
   • Объединить содержимое ячеек или строк
   • Разбить содержимое ячеек
   • Разбить содержимое строки (столбца)
   • Удалить содержимое ячейки
 
   Как объединить содержимое ячеек или строк
   Удерживая клавишу Ctrl, выделите на изображении ячейки или строки, которые вы хотите объединить. Из меню Правка выберите команду Объединить ячейки таблицы или Объединить строки таблицы.
 
   Как разбить содержимое ячеек
   Из меню Правка выберите команду Разбить ячейки таблицы.
   Важно: Команда применяется только к ранее объединенным ячейкам таблицы.
 
   Как разбить содержимое строки или столбца
   На панели Изображение выберите инструмент Линия. Вставьте горизонтальную/вертикальную линию в строку/столбец таблицы, содержимое которых вы хотите разделить.
   Важно: Воспользовавшись инструментом или командой меню Объединить строки таблицы (доступ: Правка) вы имеете возможность объединить содержимое строк (столбцов).
 
   Как удалить содержимое ячейки
   В диалоговом окне Текст выделите ячейку (или несколько ячеек), содержимое которой вы хотите удалить, и нажмите клавишу Del.

Глава 37.
Экспорт результатов распознавания во внешние приложения

   Результаты распознавания можно сохранить в файл, передать во внешнее приложение, не сохраняя на диск, скопировать в буфер обмена или отправить по электронной почте. Сохранить можно все страницы или только выбранные.
   В программе ABBYY FineReader вы имеете возможность:
   • Сохранить распознанный текст, используя Мастер сохранения результатов.
   • Сохранить открытую или выделенные в диалоговом окне Пакет страницы в файл или во внешнее приложение.
   • Сохранить все страницы пакета в файл или во внешнее приложение.
   • Сохранить изображение страницы.
   • Передать результаты распознавания в выбранное приложение или сохранить их в файл. Внешний вид иконки меняется в зависимости от выбранного режима сохранения; подпись Сохранить меняется на название выбранного приложения.
 
   Как сохранить распознанный текст
   Нажмите стрелку справа от кнопки 4-Сохранить и из меню выберите необходимую команду.
   Важно: В процессе сохранения части страниц сначала выделите их в диалоговом окне Пакет.
   После того, как вы экспортировали распознанный текст в выбранное вами приложение, отправили его по электронной почте, передали в буфер или сохранили в файл, «информация» об этом действии отразится на иконке кнопки 4-Сохранить. Поэтому для того с тем, чтобы повторить ту же операцию для другого изображения, вам достаточно нажать на эту иконку.
 
   Опции сохранения распознанного текста