Есть две гипотезы: "l" (латинская "л") и "1" (единица). Чтобы выбрать между этими двумя гипотезами, мы должны целенаправленно проанализировать левый верхний угол изображения, где помещается та единственная деталь, по которой мы можем отличить один символ от другого. Только так возможно будет сделать окончательный вывод о том, какая гипотеза правильна. Причем тщательно исследовать эту единственную деталь мы будем только после того, как у нас останется всего две гипотезы. В этом и заключается целенаправленность предлагаемого подхода. Ибо, если мы решим с самого начала проверять все имеющиеся изображения на наличие огромного количества мелких деталей (ведь пар похожих символов достаточно много, и в каждом конкретном случае деталь, по которой их можно различить, будет меняться), то, во-первых, резко снизится скорость распознавания, а во-вторых, информация об этих мелких деталях будет «засорять» процесс распознавания и помешает опознать буквы, для которых те или иные детали не имеют значения. То есть система станет более восприимчива к помехам.
   После того, как работа дифференциального классификатора завершена, мы можем сказать, что непосредственно само распознавание закончено. У нас остается окончательный список гипотез, подлежащий проверке.
   Окончательная верификация результата распознавания осуществляется системой контекста. Система контекстной проверки позволяет резко улучшить качество распознавания текстов плохого качества за счет того, что при наличии некоторого количества распознанных букв из слова компьютер может «догадаться», что это за слово, используя словарь. В FineReader удалось без больших потерь в скорости увеличить число рассматриваемых гипотез при анализе контекста, что, в свою очередь, также в лучшую сторону сказывается на точности распознавания текстов очень низкого качества.
   В FineReader анализ документа проводится как до, так и после непосредственно распознавания, что позволяет гораздо лучше сохранять внешний вид документа при его экспорте в другие приложения из FineReader. В результате использования совмещенной процедуры значительно улучшилось выделение таблиц и отделение текста от графики. Фактически, основная задача разработчиков FineReader — сделать так, чтобы пользователь получил на выходе документ, полностью совпадающий как по содержанию, так и по внешнему оформлению с документом, который он недавно положил в сканер.
   На сегодняшний день система FineReader демонстрирует непревзойденную точность распознавания и высокое качество анализа документа и сохранения его оформления. От версии к версии она совершенствуется, используются новые алгоритмы, появляются новые возможности. Но принципы Целостности, Целенаправленности и Адаптивности остаются неизменными, так как именно эти принципы позволяют машине приблизится к логике мышления, свойственной человеку, и в дальнейшем решать, возможно, гораздо более сложные задачи, чем задача распознавания.

Глава 21.
Омнифонтовая OCR-система

   Программа FineReader является так называемой омнифонтовой системой оптического распознавания текстов. Подобные системы дают возможность распознавать печатные тексты, набранные шрифтами с различными гарнитурами.
 
   Основные возможности
   Программа FineReader:
   • Дает возможность ввести документ в компьютер посредством нажатия всего на одну кнопку.
   • Имеется возможность экспортировать распознанный текст в текстовый редактор или электронную таблицу, а также сохранить его в формате PDF или HTML.
   • Имеется возможность сохранять цвета распознанного текста в форматах RTF, PDF и HTML.
   • Встроенная технология «адаптивного распознавания»: Необычайно высокая точность распознанных текстов и малая чувствительность к дефектам печати.
   • Распознанные страницы представляются миниатюрными изображениями.
   • Имеется возможность сканировать разворот книги и распознавать ее каждую страницу по отдельности, при этом, изображение, содержащее сдвоенные страницы, сохраняется в две различные страницы пакета.
   • Встроенный алгоритм автоматического поиска блоков (участков изображения, выделенных в рамку) распознаваемого текста: Анализ отсканированного материала и его распознавание происходит одновременно.
   • Программа «видит» изображения в распознаваемом макете.
   • 176 языков распознавания.
   • Распознавание языков программирования (Basic, Cobol, Fortran, Java, C++, Pascal).
   • Распознавание подстрочных символов и вертикального текста.
   • Поддержка кодировки Unicode при сохранении распознанного текста в форматах RTF, DOC, XLS, HTML, TXT и CSV.
 
   Форматы текстовых файлов, которые поддерживает программа
   FineReader может экспортировать распознанный материал в одном из следующих форматов:
   • Microsoft Word Document (*.DOC).
   • Rich Text Format (*.RTF).
   • Adobe Acrobat Format (*.PDF)
   • HTML.
   • Comma Separated Values File (*.CSV).
   • Простой текст (*.TXT).
   • Microsoft Excel Speadsheet (*.XLS).
   • DBF.
 
   Форматы графических файлов, которые поддерживает программа
   FineReader позволяет импортировать в свою систему файлы следующих форматов:
   • TIFF.
   • BMP.
   • JPEG.
   • PCX
   • DCX.
   • PNG.
   Для работы с русскоязычной версией программы операционная система Microsoft Windows должна поддерживать русскоязычную раскладку клавиатуры (доступ в Microsoft Windows Me Millennium Edition: Панель управления к Язык и стандарты к Региональные стандарты к Язык к Русский к Страна/Регион к Россия).

Глава 22.
Установка программы

   Перед установкой программы выйдите из работающих приложений вашей операционной системы.
   В случае, если ваша операционная система настроена на автоматический запуск приложений из устройств чтения компакт-дисков (доступ в Microsoft Windows: Пуск к Настройка к Панель управления Система к Устройства к Устройство для чтения компакт-дисков к Пастройка к Автоматическое распознавание дисков), то после того, как фирменный компакт-диск с программой будет вставлен в соответствующее устройство, вы практически сразу же увидите на экране вашего монитора диалоговое окно ABBYY Software House Setup.
 
 
   Закройте диалоговое окно ABBYY Software House Setup, вставьте в соответствующее устройство фирменную флоппи-дискету, посредством двойного щелчка левой кнопкой мыши запустите файл Install. exe (он находится в главной директории диска) и через некоторое время обратитесь к Мастеру установки программы FineReader.
 
 
   В первом диалоговом окне Мастера установки выберите язык пользовательского интерфейса (набор команд меню и инструментов программы finereader).
   Для продолжения установки нажмите на кнопку Next (Далее), согласитесь с условиями лицензионного соглашения (нажмите на кнопку Согласен) и обратитесь к диалогу Введите информацию о себе, в котором определитесь с именем пользователя и названием вашей организации, а в поле данных Серийный номер впишите серийный номер, который должен присутствовать на последней обложке «Руководства пользователя FineReader».
 
 
   Программа FineReader предоставляется вам в защищенном от копирования виде. Это связано с тем, чтобы предотвратить возможность ее незаконного тиражирования.
   Для продолжения установки снова нажмите на кнопку Далее. На экране вашего монитора отобразится запрос относительно подтверждения введенной информации. Теперь просто нажмите на кнопку Далее для продолжения установки или на кнопку Назад — для корректировки «регистрационной» информации.
 
 
   После нажатия на кнопку Далее отобразится диалоговое окно Выберите способ установки.
 
 
   Полная
   Устанавливаются все компоненты программы, в том числе все языки распознавания.
   Нажав на кнопку Полная, установщик предложит вам выбрать папку на жестком диске, в которой будут находиться файлы программы.
   Вы имеете возможность использовать имя папки по умолчанию или через на кнопку Обзор выбрать ее другое имя. Если папка для установки вообще отсутствует, то на экране отобразится запрос относительно необходимости формирования новой папки. Нажав на кнопку Далее, вы подтверждаете ее создание.
 
   Выборочная
   Из предложенного набора компонент, входящих в ваш дистрибутив, имеется возможность выбрать только те, которые необходимы пользователю.
   0Щемонстрационные файлы
   0Руководство
   0Изображения для обучения
   0Программная оболочка
   0Установка дополнительным возможностей
   0Языки распознавания
   0Языки интерфейса ABBYY FineReader
 
   Минимальная
   Программа устанавливается в минимальной конфигурации:
   • Язык интерфейса (один) — выбранный при установке.
   • Языки распознавания — английский плюс выбранный язык при установке.
 
   Нажав на кнопку Минимальная, Мастер установки предложит вам выбрать папку на жестком диске, в которой будут находиться файлы программы.
 
 
   Вы имеете возможность использовать имя папки по умолчанию или через на кнопку Обзор выбрать ее другое имя. Если папка для установки вообще отсутствует, то на экране отобразится запрос относительно необходимости формирования новой папки. Нажав на кнопку Далее, вы подтверждаете ее создание.
 
 
   Далее Мастер установки начнет копирование файлов программы на ваш жесткий диск и в итоге сам создаст в меню Пуск вашей операционной системы программную группу ABBYY FineReader и поместит в нее необходимые пиктограммы.
 
   Установка на сетевом сервере
   Установка ABBYY FineReader Office на сервер осуществляется администратором сети. Для этого:
   • В случае, если дистрибутив включает в себя компакт-диск и дискету, запустите Install. exe из папки \ Server на стартовой дискете.
   • В случае, если дистрибутив включает в себя только компакт-диск, запустите файл Install. exe из папки \ Server компакт-диска.
 
   Дополнительные лицензии
   В случае, если по сети с программой работает больше одного пользователя, то по завершении установки программы на сервер необходимо добавить серийные номера дополнительных лицензий для сетевой работы. Для этого запустите LicSetup. ex e из папки, в которую была произведена установка на сервер, в раскрывшемся диалоговом окне Добавить лицензию введите новый серийный номер и просто нажмите на кнопку Добавить.
   Важно: В процессе установки на сервер нельзя использовать логические диски, созданные директивой SUBST.
   Пользователи сети, которые будут устанавливать FineReader Office на свои рабочие станции, должны иметь права на чтение и запись сетевой папки, в которую установлена программа.
 
   Установка на рабочую станцию
   В случае, если ABBYY FineReader Office установлена на сетевом сервере, то вы как пользователь локальной сети, имеете возможность установить ABBYY FineReader Office с сервера без использования компакт-диска и дискеты. Исключение составляет установка программы на сервер как на рабочую станцию, в этом случае потребуется установочная дискета. Для этого запустите программу NetSetup. exe из папки на сервере, в которую был установлен ABBYY FineReader Office и следуйте указаниям программы установки.
   Важно: Для установки программы на рабочую станцию необходимо обладать правами администратора на этой станции.
   Важно: В случае, если при запуске программы появляется сообщение «Невозможно загрузить FineReader. Нет свободной лицензии», проверьте количество дополнительных лицензий и количество пользователей, работающих с FineReader в данный момент.

Глава 23.
Запуск программы

   После установки приложение FineReader будет добавлено в вашу операционную систему, а именно — в меню Пуск, при этом в подменю Программы вы увидите программную группу FineReader.
   Для запуска программы просто выберите команду ABBYY FineReader Pro ( Office) из меню Пуск к Программы к ABBYY FineReader.
   Перед запуском программы убедитесь в том, что ваше сканирующее устройство подключено к компьютеру. Если у вас отсутствует сканирующее устройство, то вы можете использовать программу FineReader для распознавания графических файлов (пример такого файла demo. tif находится в папке ABBYY FineReader / Demo).

Глава 24.
Распознавание в программе FineReader

   Распознавание в программе FineReader осуществляется в так называемом пакетном режиме.
 
 
   В ABBYY FineReader пакет — это папка, в которой находятся изображения и рабочие файлы программы. После того, как вы отсканируете изображение оно сохранится в этой папке в качестве отдельной страницы пакета.
   В верхней части Главного диалогового окна содержится Главное меню и Инструментальные панели. С помощью Инструментальных панелей вы имеете возможность давать часто используемые команды из меню:
   • Файл.
   • Правка.
   • Вид.
   • Пакет.
   • Изображение.
   • Процесс.
   • Сервис.
   • Окна
   • Справка.
   Панель «Scan and Read»
   Панель Scan and Read дает возможность произвести полную обработку текста.
 
   Панель «Стандартная»
   Панель Стандартная облегчает работу с файлами и изображениями, а также содержит ниспадающий список доступных языков распознавания.
 
   Панель «Форматирование»
   На панели Форматирование находятся кнопки, позволяющие изменить оформление текста.
 
   Панель «Изображение»
   В программе ABBYY FineReader все Инструментальные панели дублируются командами Главного меню, но через панели Scan and Read,Стандартная,Форматирование и Изображение более удобно производить те или иные операции.
 
   После того, как вы задержите на той или иной кнопке курсор мыши, вы увидите на соответствующей Информационной панели подробное сообщение относительно функционирования этой кнопки.
   Вы можете спрятать или отобразить конкретную Инструментальную панель через команду Панель инструментов (доступ: Вид к Панель инструментов).
 
   Совет: Отображение Главного окна программы, а также точного количества кнопок на панелях Изображение,Стандартная и Форматирование, зависит от разрешения экрана вашего монитора. Для того, чтобы увидеть все доступные кнопки необходимо достаточно высокое разрешение экрана.
 
   Информационная панель
   Внизу Главного окна находится Информационная панель, которая кратко информирует вас относительно того или иного выполняемого действия.
 
   Рабочие окна
   Остальное пространство Главного окна занимают по мере своего появления так называемые Рабочие окна программы:
   Изображение
   Текст
   Пакет

Глава 25.
Пакет

   В омнифонтовой системе распознавания текстов ABBYY FineReader существует специальное рабочее окно Пакет, в котором отображаются страницы, которые вы только что отсканировали или открыли через команду меню Файл к Открыть пакет.
   Пакетом в программе FineReader называется папка, в которой хранятся ваши изображения и другие рабочие файлы. В одном пакете может содержаться до 9999 страниц отсканированного материала.
   Кроме этого, в пакете хранятся как исходные изображения, так и соответствующий им распознанный текст.
   В программе ABBYY FineReader практически все настройки (опции процесса сканирования, распознавания, сохранения, пользовательские эталоны, языки и группы языков) содержатся в пакете.
   В рабочем окне Пакет представлены миниатюрные изображения (пиктограммы) страниц печатного материала, пакет которых вы открыли через команду меню Файл к Открыть пакет или только что отсканировали. Просмотр страницы проходит в двух окнах Текст и Изображение. Для просмотра достаточно щелкнуть мышью на пиктограмме или номере страницы.
   В процессе первого запуска программы на вашем экране появится пакет, созданный системой по умолчанию. Вы имеете возможность продолжить вашу работу на основе этого пакета по умолчанию или создать новый пакет на основе текущего через опции диалогового окна Новый пакет (доступ: Файл к Новый пакет).
 
   Как создать новый пакет
   • В процессе создания нового пакета могут использоваться настройки: по умолчанию. настройки текущего пакета.
   • настройки из файла с расширением *.fbt.
   Создание нового пакета осуществляется через выбор команды Новый пакет из меню Файл. В открывшемся диалоговом окне Новый пакет вам достаточно указать папку, в которой будет храниться ваш пакет и дать ему новое имя.
 
 
   В диалоговом окне Новый пакет с помощью ниспадающего списка Шаблон пакета (под шаблоном понимается файл с расширением *.fbt, в котором содержатся настройки текущего пакета) вы можете создать новый пакет на основе пакета по умолчанию (опция Установки по умолчанию) или использовать настройки текущего пакета (опция Текущий пакет).
 
   Сохранить текущие настройки пакета, загрузить в программу ваши собственные или вернуться к настройкам пакета по умолчанию можно через диалоговое окно Опции (доступ: Сервис к Опции), обратившись к разделу Настройки пакета, который находится на закладке Общие.
 
   В диалоговом окне Настройка окна Пакет (доступ: Вид к Вид окна Пакет к Настройка) можно настроить отображение окна Пакет на вашем экране.
 
 
   Совет: Всегда объединяйте в один пакет программы логически связанный между собой отсканированный материал. К примеру, есть смысл содержать в одном пакете страницы какой-либо книги, тексты на одном и том же языке или изображения с однотипным расположением текста.
   В OCR-системе ABBYY FineReader в процессе запуска автоматически открывается последний пакет, с которым вы работали.
   Для того, чтобы открыть другой пакет из меню Файл выберите команду Открыть пакет, обратитесь к диалоговому окну Открыть пакет, выберите папку с необходимым пакетом и нажмите на кнопку Открыть, при этом пакет, с которым вы работали, будет автоматически закрыт и сохранен.
 
 
   Режимы отображения страниц в пакете
   В рабочем окне Пакет имеется два режима отображения страниц:
   • Наглядный (опция Пиктограммы, доступ: Вид к Вид окна Пакет к Пиктограммы).
   • Описательный (опция Вид со свойствами, доступ: Вид к Вид окна Пакет к Со свойствами).
 
   Наглядный
   Страницы пакета отображаются миниатюрными изображениями. По мере обработки изображения на пиктограмме появляются дополнительные специальные значки, отображающие действия, произведенные над страницей. Этот способ представления страниц пакета удобно использовать, например, для открытия необходимой страницы пакета: страница представлена своим миниатюрным изображением, и вам не надо запоминать номер, под которым она была отсканирована.
   Для того, чтобы открыть изображение, просто щелкните левой кнопкой мыши по его пиктограмме.
 
   Описательный
   В диалоговом окне пакета отображается подробная информация относительно страницы. В этом режиме вы можете отсортировать страницы по выбранному признаку.
   Этот режим удобен при обработке пакета, который содержит большое количество страниц, так как на экране монитора вашего компьютера помещается большее (чем в наглядном режиме) количество страниц.
   Для того, чтобы открыть изображение, щелкните дважды мышью на его иконке в диалоговом окне Пакет.
 
   Как выбрать вид страниц
   Для этого нажмите правой кнопкой мыши в диалоговом окне Пакет и из ниспадающего меню выберите команду Вид.
 
   Как настроить обзор изображений
   Для этого достаточно выбрать отображаемые свойства страницы и способ сортировки страниц пакета. Нажмите правой кнопкой мыши в диалоговом окне Пакет, из меню выберите команду Вид к Настройка, обратитесь к диалоговому окну Опции и на закладках Пиктограммы и Вид со свойствами установите необходимые вам вам опции.
 
   Как выделить несколько страниц подряд
   Просто удерживая клавишу Shift, нажмите левой кнопкой мыши сначала на первую, а затем на последнюю страницу пакета.
 
   Как выделить несколько страниц выборочно
   Просто удерживая клавишу Ctrl, выделите необходимый страницы левой кнопкой мыши.
 
   Как выделить все страницы
   При активизированном диалоговом окне Пакет из меню Правка выберите команду Выделить все.
   Важно: Для того, чтобы сохранить опции в отдельный файл, на закладке Общие (доступ: Сервис к Опции) просто нажмите на кнопку Сохранить. В раскрывшемся диалоговом окне укажите имя файла. В этот файл будут сохранены опции с закладок Сканирование/Открытие,Форматирование,Распознавание и Проверка; опции с закладок диалогового окна Форматы; пользовательские языки, группы языков и эталоны. Для возврата к опциям, устанавливаемым системой по умолчанию, на закладке Общие просто нажмите на кнопку Вернуть. Для загрузки опций на закладке Общие просто нажмите на кнопку Загрузить и выберите Шаблон пакета FineReader (*.fbt), содержащий требуемые опции.
   Как добавить изображение в пакет
   Для этого из меню Файл выберите команду Открыть изображение (клавиатурная команда: Ctrl + O), обратитесь к диалоговому окну Открыть изображение и найдите необходимое изображение на вашем диске.
 
 
   После того, как вы нажмете на кнопку Открыть, изображение будет добавлено в текущий пакет, а его копия сохранится в соответствующей папке пакета.
 
   Нумерация страниц пакета
   В программе ABBYY FineReader все страницы пакета пронумерованы, при этом номер страницы указывается непосредственно в самом пакете, около условного обозначения страницы.
 
   Как перенумеровать страницы
   Выделите страницу или несколько страниц из меню Пакет выберите команду Перенумеровать страницы… и введите новый номер для первой страницы из выборки (страницы с наименьшим номером).
   В случае, если вы хотите перенумеровать все страницы пакета, то в диалоговом окне Перенумеровать страницы выберите команду Все страницы.
   В случае, если вы хотите перенумеровать часть страниц пакета, то в диалоговом окне Пакет выделите те страницы, которые вы хотите перенумеровать или в диалоговом окне Перенумеровать страницы выберите команду Только выделенные.
   Для того, чтобы выделенные страницы были перенумерованы по порядку, начиная с указанного номера, активизируйте опцию Сплошная нумерация страниц. К примеру, перенумеровываются страницы 2, 5, 6; в качестве начального номера был указан 1. Новые номера страниц будут: 1, 2, 3. В противном случае (опция Сплошная нумерация страниц не активизирована) новыми номерами страниц будут: 1, 4, 5.
 
   Как закрыть пакет
   Из меню Файл выберите команду Закрыть пакет. В процессе закрытия пакет будет сохранен автоматически.
 
   Как удалить пакет
   Важно: При удалении пакета удаляются все его страницы (изображения и текст) и дополнительные файлы, созданные в процессе работы с этим пакетом: эталон, пользовательские языки. Это означает, что удаляется все содержимое папки, соответствующей пакету.
   Для того, чтобы удалить пакет из меню Пакет выберите команду Удалить пакет.
 
   Как вообще удалить страницу из пакета
   Для этого выделите необходимые вам страницы и из меню Пакет выберите команду Удалить страницу (клавиатурный эквивалент: Del.

Глава 26.
Крупный план

   Независимо от того, какое (цветное, серое или черно-белое) изображение вы импортировали в программу, в диалоговом окне Крупный план отображается только черно-белое изображение. Это установка по умолчанию.
 
 
   Если вы хотите, чтобы отображаемое изображение было цветным, отключите опцию Черно-белая палитра в диалоговом окне Опции в разделе Окно Изображение (доступ: Сервис к Опции к Вид).
 
   В программе ABBYY FineReader вы имеете возможность поменять взаимное расположение Рабочих окон на экране монитора вашего компьютера. Для этого из меню Вид просто выберите одну из следующих команд: