Страница:
Текст
Блок используется для обозначения текста. Он должен содержать только одноколоночный текст. В случае, если внутри текста содержатся картинки, выделите их в отдельные блоки.
Таблица
Блок используется для обозначения таблиц или текста, имеющего табличную структуру. В процессе распознавания программа разбивает данный блок на строки и столбцы и формирует табличную структуру. В выходном тексте данный блок передается таблицей. Вы имеете возможность выделить и скорректировать таблицу вручную.
Картинка
Этот блок используется для обозначения картинок. Он может содержать картинку или любую другую часть текста, которую вы хотите передать в распознанный текст в качестве картинки.
Штрих-код (только в версии Office)
Этот блок используется для распознавания штрих-кодов. Это означает, что, если ваш документ содержит штрих-код и вы хотите передать его не картинкой, а перевести его в последовательность букв и цифр, то выделите штрих-код в отдельный блок и присвойте ему тип Штрих-код.
Важно: По умолчанию опция, позволяющая искать и распознавать штрих-коды отключена. Для того, чтобы подключить ее, активизируйте опцию Искать штрих-коды на закладке Распознавание (доступ: Сервис к Опции).
Опции автоматического анализа макета страницы
В процессе автоматического анализа макета страницы FineReader сам выделяет блоки, содержащие тексты, таблицы, картинки и штрих-коды.
Автоматический анализ запускается по кнопке 2— Распознать одновременно с распознаванием текста. До запуска распознавания необходимо установить основные опции анализа: тип страницы и опции анализа таблиц.
Для большинства изображений расположение текста на странице определяется автоматически, чему соответствует значение Авто на закладкеРаспознавание в разделе Тип страницы (доступ: Сервис к Опции), устанавливаемое системой по умолчанию.
В некоторых случаях может потребоваться установить значение типа страницы вручную. Для этого на закладке Распознавание диалогового окна Опции (доступ: Сервис к Опции) в разделе Тип страницы выберите необходимую команду.
Указывает, что расположение текста на странице определяется автоматически. Это значение устанавливается системой по умолчанию; подходит для распознавания всех видов текстов, в том числе многоколоночного текста, текста с таблицами и картинками.
Одна колонка
Указывает, что текст на странице напечатан в одну колонку. Эта опция используется в случае, если автоматическое определение ошибочно сегментировало страницу как многоколоночный текст.
Форматированный пробелами текст
Указывает, что текст на странице расположен в одну колонку и напечатан моноширинным шрифтом одного размера. В распознанном тексте сохраняется деление на строки; отступы от левого края передаются пробелами; каждая строка выделяется в отдельный параграф, и расстояния между параграфами передаются пустыми строками. Используется, например, для распознавания распечаток текстов программ.
Опции для анализа таблиц
В большинстве случаев программа делит таблицу на строки и столбцы автоматически. Дополнительная настройка опций анализа таблиц устанавливается на закладке Распознавание в разделе Таблицы. Эти опции рекомендуется использовать, если:
• в результате автоматического анализа макета страницы таблица была выделена и разделена на строки и столбцы неверно; документ содержит много однотипных таблиц, для которых известна дополнительная информация (например: таблица не содержит объединенных ячеек или таблица состоит из ячеек, текст в которых расположен в одну строку).
• Выберите один из инструментов: выделить зону распознавания. выделить текстовый блок.
• выделить картинку.
• выделить табличный блок.
Установите курсор мыши в угол предполагаемого блока. Нажмите левую кнопку мыши и, не отпуская кнопки, потяните в противоположный по диагонали угол. Теперь отпустите кнопку мыши. Выделенная часть изображения будет заключена в рамку.
В OCR-системе ABBYY FineReader вы имеете возможность поменять тип блока (присвоить выделенному блоку один из существующих типов: Зона распознавания,Текст,Таблица,Картинка или Штрих-код). Для этого нажмите на блоке правой кнопкой мыши и из ниспадающего меню выберите Тип блока, а затем — необходимую команду.
Установите курсор мыши на границу блока. Нажмите левую кнопку мыши и потяните в нужную сторону. Отпустите кнопку мыши.
Важно: В случае, если вы установите курсор мыши на угол блока, то при движении мыши будут одновременно изменяться вертикальная и горизонтальная границы блока.
Как добавить прямоугольную часть блока
Выберите инструмент. Установите курсор мыши внутри блока, к которому вы хотите добавить часть. Нажмите левую кнопку мыши и, не отпуская кнопки, потяните по диагонали. Выделив нужную часть изображения, отпустите кнопку мыши. Выделенный прямоугольник будет добавлен к блоку.
В случае, если необходимо, передвиньте границу блока.
Как удалить прямоугольную часть блока
Выберите инструмент. Установите курсор мыши внутри блока, там, где вы хотите вырезать часть. Нажмите левую кнопку мыши и, не отпуская кнопки, потяните по диагонали. Выделив нужную часть изображения, отпустите кнопку мыши. Выделенный прямоугольник будет удален из блока.
В случае, если необходимо, передвиньте границу блока.
Важно: В процессе удаления внутренней части блока снизу или сверху дополнительно удаляется часть блока справа до границы блока. Такая особенность программы обусловлена необходимостью передавать на распознавание неразрывные текстовые строки. В отношении боковых сторон блоков такого ограничения нет.
Как выделить один или несколько блоков
Выберите инструмент и нажмите мышкой на необходимом блоке или проведите указателем по выделяемым блокам при нажатой кнопке мыши.
Важно: Вы имеете возможность выделить один или несколько блоков, используя стандартные инструменты создания блоков. Для того, чтобы выбрать несколько блоков подряд, нажмите клавишу Shift и мышью нажмите на требуемых блоках. Для того, чтобы отменить выделение уже выбранного блока или добавить невыделенные блоки, нажмите клавишу Ctrl и мышью нажмите на требуемых блоках.
Как передвинуть блок
Нажмите клавишу Alt и мышью переместите блоки.
Как перенумеровать блоки
Выберите инструмент. Нажмите на блоки в том порядке, в котором вы хотите видеть их содержимое в выходном тексте.
Важно: В случае, если вы перенумеровываете блоки на уже распознанном изображении, то одновременно в диалоговом окне Текст происходит перегруппировка распознанного текста в соответствии с новой нумерацией.
Как удалить блок
Выберите инструмент и нажмите на блок, который вы хотите удалить.
Важно: В случае, если вы удаляете блок с уже распознанного изображения, то одновременно с этим в диалоговом окне Текст удаляется текст, соответствующий этому блоку.
Как удалить все блоки на изображении
Из меню Сервис выберите команду Удалить блоки и текст.
Важно: В случае, если вы удаляете блоки с уже распознанного изображения, то одновременно с этим в диалоговом окне Текст удаляется текст, соответствующий этим блокам.
Редактирование таблицы
• Для редактирования таблицы выберите на панели Изображение один из инструментов для того, чтобы: добавить вертикальную линию. добавить горизонтальную линию. чтобы удалить линию.
Как объединить ячейки таблицы
Из меню Правка выберите команду Объединить ячейки таблицы.
Как разбить ранее объединенные ячейки таблицы
Из меню Правка выберите команду Разбить ячейки таблицы.
Как объединить строки таблицы (в этом случае деление на столбцы остается)
Из меню Правка выберите команду Объединить строки таблицы.
Ручной анализ таблицы
Важно: В случае, если в результате автоматического анализа таблицы разделение на строки и столбцы произошло неверно, прежде чем анализировать таблицу вручную заново, попробуйте сначала скорректировать результаты автоматического анализа.
Как скорректировать таблицу вручную
Отредактируйте таблицу, используя инструменты (панель в диалоговом окне Изображение):
• Добавить вертикальную линию
• Добавить горизонтальную линию
• Удалить линию
В случае, если ячейка таблицы содержит только картинку, в диалоговом окне Свойства блока (доступ: Вид к Свойства) активизируйте опцию Считать ячейку таблицы картинкой. В случае, если же, помимо картинки в ячейке содержится некоторый текст, то выделите картинку в отдельный блок внутри ячейки.
Как объединить ячейки или строки таблицы
Из меню Правка выберите команды Объединить ячейки таблицы или Объединить строки таблицы. В процессе объединения строк таблицы деление на столбцы остается.
Объединенные ячейки можно снова разделить, воспользовавшись командой Разбить ячейки таблицы (доступ:Правка).
Важно: Для того, чтобы не рисовать вертикальные и горизонтальные линии с нуля в таблице, выделите таблицу в отдельный блок и нажмите правой кнопкой мыши на блоке. Из ниспадающего меню выберите команду Анализ структуры таблицы и посредством инструментов для работы с таблицами, скорректируйте полученные результаты.
Использование шаблонов блоков
В процессе работы с документами с одинаковым расположением текста и картинок, такими, например, как формы, бланки, вместо того с тем, чтобы анализировать макет каждой страницы, вы имеете возможность провести анализ одной из них, сохранить расположение блоков на этой странице в файл, а затем, когда потребуется, «спроецировать» эти блоки на изображение (или группу изображений) со сходным расположением текста.
Как создать шаблон блоков
Откройте изображение и выделите на нем блоки автоматически или вручную. Из меню Изображение выберите команду Сохранить блоки… В раскрывшемся диалоговом окне укажите имя для шаблона блоков.
Как наложить шаблон блоков
В диалоговом окне Пакет выделите страницы, на которые вы хотите наложить существующий шаблон.
Из меню Изображение выберите команду Наложить блоки. В раскрывшемся диалоговом окне Открыть файл с блоками выберите файл (*.blk) с нужным вам расположением блоков.
В диалоговом окне Открыть файл с блоками в разделе Применить к активизируйте один из переключателей:
• Всем страницам (если вы хотите наложить шаблон на все страницы пакета).
• Выделенным страницам (если вы хотите наложить шаблон только на выделенные страницы).
Нажмите на кнопку Открыть.
Глава 32.
Глава 33.
Блок используется для обозначения текста. Он должен содержать только одноколоночный текст. В случае, если внутри текста содержатся картинки, выделите их в отдельные блоки.
Таблица
Блок используется для обозначения таблиц или текста, имеющего табличную структуру. В процессе распознавания программа разбивает данный блок на строки и столбцы и формирует табличную структуру. В выходном тексте данный блок передается таблицей. Вы имеете возможность выделить и скорректировать таблицу вручную.
Картинка
Этот блок используется для обозначения картинок. Он может содержать картинку или любую другую часть текста, которую вы хотите передать в распознанный текст в качестве картинки.
Штрих-код (только в версии Office)
Этот блок используется для распознавания штрих-кодов. Это означает, что, если ваш документ содержит штрих-код и вы хотите передать его не картинкой, а перевести его в последовательность букв и цифр, то выделите штрих-код в отдельный блок и присвойте ему тип Штрих-код.
Важно: По умолчанию опция, позволяющая искать и распознавать штрих-коды отключена. Для того, чтобы подключить ее, активизируйте опцию Искать штрих-коды на закладке Распознавание (доступ: Сервис к Опции).
Опции автоматического анализа макета страницы
В процессе автоматического анализа макета страницы FineReader сам выделяет блоки, содержащие тексты, таблицы, картинки и штрих-коды.
Автоматический анализ запускается по кнопке 2— Распознать одновременно с распознаванием текста. До запуска распознавания необходимо установить основные опции анализа: тип страницы и опции анализа таблиц.
Для большинства изображений расположение текста на странице определяется автоматически, чему соответствует значение Авто на закладкеРаспознавание в разделе Тип страницы (доступ: Сервис к Опции), устанавливаемое системой по умолчанию.
В некоторых случаях может потребоваться установить значение типа страницы вручную. Для этого на закладке Распознавание диалогового окна Опции (доступ: Сервис к Опции) в разделе Тип страницы выберите необходимую команду.
Возможные типы страницы
Автоматическое определениеУказывает, что расположение текста на странице определяется автоматически. Это значение устанавливается системой по умолчанию; подходит для распознавания всех видов текстов, в том числе многоколоночного текста, текста с таблицами и картинками.
Одна колонка
Указывает, что текст на странице напечатан в одну колонку. Эта опция используется в случае, если автоматическое определение ошибочно сегментировало страницу как многоколоночный текст.
Форматированный пробелами текст
Указывает, что текст на странице расположен в одну колонку и напечатан моноширинным шрифтом одного размера. В распознанном тексте сохраняется деление на строки; отступы от левого края передаются пробелами; каждая строка выделяется в отдельный параграф, и расстояния между параграфами передаются пустыми строками. Используется, например, для распознавания распечаток текстов программ.
Опции для анализа таблиц
В большинстве случаев программа делит таблицу на строки и столбцы автоматически. Дополнительная настройка опций анализа таблиц устанавливается на закладке Распознавание в разделе Таблицы. Эти опции рекомендуется использовать, если:
• в результате автоматического анализа макета страницы таблица была выделена и разделена на строки и столбцы неверно; документ содержит много однотипных таблиц, для которых известна дополнительная информация (например: таблица не содержит объединенных ячеек или таблица состоит из ячеек, текст в которых расположен в одну строку).
Выделение и редактирование блоков «вручную»
Как создать новый блок• Выберите один из инструментов: выделить зону распознавания. выделить текстовый блок.
• выделить картинку.
• выделить табличный блок.
Установите курсор мыши в угол предполагаемого блока. Нажмите левую кнопку мыши и, не отпуская кнопки, потяните в противоположный по диагонали угол. Теперь отпустите кнопку мыши. Выделенная часть изображения будет заключена в рамку.
В OCR-системе ABBYY FineReader вы имеете возможность поменять тип блока (присвоить выделенному блоку один из существующих типов: Зона распознавания,Текст,Таблица,Картинка или Штрих-код). Для этого нажмите на блоке правой кнопкой мыши и из ниспадающего меню выберите Тип блока, а затем — необходимую команду.
Редактирование формы и положения блоков пакета
Как передвинуть границу блокаУстановите курсор мыши на границу блока. Нажмите левую кнопку мыши и потяните в нужную сторону. Отпустите кнопку мыши.
Важно: В случае, если вы установите курсор мыши на угол блока, то при движении мыши будут одновременно изменяться вертикальная и горизонтальная границы блока.
Как добавить прямоугольную часть блока
Выберите инструмент. Установите курсор мыши внутри блока, к которому вы хотите добавить часть. Нажмите левую кнопку мыши и, не отпуская кнопки, потяните по диагонали. Выделив нужную часть изображения, отпустите кнопку мыши. Выделенный прямоугольник будет добавлен к блоку.
В случае, если необходимо, передвиньте границу блока.
Как удалить прямоугольную часть блока
Выберите инструмент. Установите курсор мыши внутри блока, там, где вы хотите вырезать часть. Нажмите левую кнопку мыши и, не отпуская кнопки, потяните по диагонали. Выделив нужную часть изображения, отпустите кнопку мыши. Выделенный прямоугольник будет удален из блока.
В случае, если необходимо, передвиньте границу блока.
Важно: В процессе удаления внутренней части блока снизу или сверху дополнительно удаляется часть блока справа до границы блока. Такая особенность программы обусловлена необходимостью передавать на распознавание неразрывные текстовые строки. В отношении боковых сторон блоков такого ограничения нет.
Как выделить один или несколько блоков
Выберите инструмент и нажмите мышкой на необходимом блоке или проведите указателем по выделяемым блокам при нажатой кнопке мыши.
Важно: Вы имеете возможность выделить один или несколько блоков, используя стандартные инструменты создания блоков. Для того, чтобы выбрать несколько блоков подряд, нажмите клавишу Shift и мышью нажмите на требуемых блоках. Для того, чтобы отменить выделение уже выбранного блока или добавить невыделенные блоки, нажмите клавишу Ctrl и мышью нажмите на требуемых блоках.
Как передвинуть блок
Нажмите клавишу Alt и мышью переместите блоки.
Как перенумеровать блоки
Выберите инструмент. Нажмите на блоки в том порядке, в котором вы хотите видеть их содержимое в выходном тексте.
Важно: В случае, если вы перенумеровываете блоки на уже распознанном изображении, то одновременно в диалоговом окне Текст происходит перегруппировка распознанного текста в соответствии с новой нумерацией.
Как удалить блок
Выберите инструмент и нажмите на блок, который вы хотите удалить.
Важно: В случае, если вы удаляете блок с уже распознанного изображения, то одновременно с этим в диалоговом окне Текст удаляется текст, соответствующий этому блоку.
Как удалить все блоки на изображении
Из меню Сервис выберите команду Удалить блоки и текст.
Важно: В случае, если вы удаляете блоки с уже распознанного изображения, то одновременно с этим в диалоговом окне Текст удаляется текст, соответствующий этим блокам.
Редактирование таблицы
• Для редактирования таблицы выберите на панели Изображение один из инструментов для того, чтобы: добавить вертикальную линию. добавить горизонтальную линию. чтобы удалить линию.
Как объединить ячейки таблицы
Из меню Правка выберите команду Объединить ячейки таблицы.
Как разбить ранее объединенные ячейки таблицы
Из меню Правка выберите команду Разбить ячейки таблицы.
Как объединить строки таблицы (в этом случае деление на столбцы остается)
Из меню Правка выберите команду Объединить строки таблицы.
Ручной анализ таблицы
Важно: В случае, если в результате автоматического анализа таблицы разделение на строки и столбцы произошло неверно, прежде чем анализировать таблицу вручную заново, попробуйте сначала скорректировать результаты автоматического анализа.
Как скорректировать таблицу вручную
Отредактируйте таблицу, используя инструменты (панель в диалоговом окне Изображение):
• Добавить вертикальную линию
• Добавить горизонтальную линию
• Удалить линию
В случае, если ячейка таблицы содержит только картинку, в диалоговом окне Свойства блока (доступ: Вид к Свойства) активизируйте опцию Считать ячейку таблицы картинкой. В случае, если же, помимо картинки в ячейке содержится некоторый текст, то выделите картинку в отдельный блок внутри ячейки.
Как объединить ячейки или строки таблицы
Из меню Правка выберите команды Объединить ячейки таблицы или Объединить строки таблицы. В процессе объединения строк таблицы деление на столбцы остается.
Объединенные ячейки можно снова разделить, воспользовавшись командой Разбить ячейки таблицы (доступ:Правка).
Важно: Для того, чтобы не рисовать вертикальные и горизонтальные линии с нуля в таблице, выделите таблицу в отдельный блок и нажмите правой кнопкой мыши на блоке. Из ниспадающего меню выберите команду Анализ структуры таблицы и посредством инструментов для работы с таблицами, скорректируйте полученные результаты.
Использование шаблонов блоков
В процессе работы с документами с одинаковым расположением текста и картинок, такими, например, как формы, бланки, вместо того с тем, чтобы анализировать макет каждой страницы, вы имеете возможность провести анализ одной из них, сохранить расположение блоков на этой странице в файл, а затем, когда потребуется, «спроецировать» эти блоки на изображение (или группу изображений) со сходным расположением текста.
Как создать шаблон блоков
Откройте изображение и выделите на нем блоки автоматически или вручную. Из меню Изображение выберите команду Сохранить блоки… В раскрывшемся диалоговом окне укажите имя для шаблона блоков.
Как наложить шаблон блоков
В диалоговом окне Пакет выделите страницы, на которые вы хотите наложить существующий шаблон.
Из меню Изображение выберите команду Наложить блоки. В раскрывшемся диалоговом окне Открыть файл с блоками выберите файл (*.blk) с нужным вам расположением блоков.
В диалоговом окне Открыть файл с блоками в разделе Применить к активизируйте один из переключателей:
• Всем страницам (если вы хотите наложить шаблон на все страницы пакета).
• Выделенным страницам (если вы хотите наложить шаблон только на выделенные страницы).
Нажмите на кнопку Открыть.
Глава 32.
Распознавание
Задача распознавания состоит в том с тем, чтобы преобразовать отсканированное изображение в текст, сохранив при этом оформление страницы. Прежде чем приступить к распознаванию текста, необходимо установить основные параметры распознавания: язык распознавания, тип печати распознанного текста и тип страницы.
Важно: Перед запуском распознавания проверьте установленные опции: язык распознавания, тип печати распознаваемого текста и тип страницы.
Вы имеете возможность:
• Распознать блок или несколько блоков, выделенных на изображении.
• Распознать открытую страницу или все страницы, выделенные в диалоговом окне Пакет.
• Распознать все нераспознанные страницы пакета.
• Распознать все страницы в фоновом режиме. В этом режиме возможно распознавание с одновременным редактированием уже распознанных страниц.
• Распознать страницы в режиме распознавание с обучением. Данный режим используется в основном для распознавания текстов, использующих декоративные шрифты, или распознавания большого объема (более 100 страниц) документов плохого качества печати.
• Распознать страницы одного пакета на нескольких компьютерах одновременно.
Запуск распознавания
Нажмите на кнопку 2-Распознать на панели Scan and Read. Из меню Процесс выберите необходимую команду:
• Распознать — чтобы распознать открытую страницу или все страницы, выделенные в диалоговом окне Пакет;
• Распознать все — чтобы распознать все нераспознанные страницы пакета;
• Распознать Блок — чтобы распознать блок или несколько блоков, выделенных на изображении;
• Запустить фоновое распознавание — чтобы запустить распознавание в фоновом режиме.
Кнопка 2-Распознать запускает распознавание открытого изображения. Для того, чтобы изменить режим кнопки, нажмите на стрелку справа от нее и из открывшегося меню выберите необходимую команду.
Важно: В процессе распознавания уже распознанной страницы перераспознаются только отредактированные и добавленные блоки.
Язык распознавания
FineReader поддерживает распознавание как одноязычных, так и многоязычных (например, английско-французских) документов.
Для того, чтобы указать язык распознаваемого текста, выберите соответствующую строку в списке на панели Распознавание.
В случае, если вы хотите распознать документ, написанный на нескольких языках:
В списке языков на панели Стандартная выберите команду Выбор нескольких языков… в раскрывшемся диалоговом окне Язык распознаваемого текста укажите несколько языков. Для этого активизируйте опции с соответствующими названиями языков.
Важно: В случае, если вы часто используете какую-либо комбинацию языков, то создайте новую группу, содержащую эти языки (возможно только в версии FineReader Office).
Важно: Увеличение количества подключенных к распознаванию одного документа языков может привести к ухудшению качества распознавания. Не рекомендуется подключать более 2-3 языков.
Перед запуском распознавания проверьте подключенные на закладке Форматирование шрифты: они должны содержать все символы языка распознавания. В противном случае распознанный текст будет неправильно отображен в диалоговом окне Текст (в словах на месте некоторых букв стоят значки "?").
В случае, если необходимый язык отсутствует в списке, то возможны следующие варианты:
• Данный язык не поддерживается системой FineReader.
• Язык исключен из списка языков отображаемых на панели Стандартная. В этом случае в списке языков на панели Стандартная выберите команду Выбор из полного списка языков и в раскрывшемся диалоговом окне Язык распознаваемого текста укажите необходимый язык.
• Язык не был установлен (была выбрана минимальная установка) или был отключен при выборочной установке. Для того, чтобы доустановить языки распознавания, запустите программу инсталляции FineReader в режиме покомпонентной установки (Установка дистрибутива по выбору), дезактивируйте все опции, за исключением опции Языки распознавания, и просто нажмите на кнопку Состав. В раскрывшемся списке языков укажите требуемые языки.
Важно: В процессе установке проверьте, что вы указали ту же папку, в которую вы ранее установили ABBYY FineReader.
Как подключить язык к списку отображаемых языков
В диалоговом окне Редактор языков (доступ: Сервис к Редактор языков) выберите язык, который вы хотите подключить, и дезактивируйте опцию Показывать в списке языков.
Важно: Вы имеете возможность установить язык распознавания на отдельный блок. Для этого нажмите правой кнопкой мыши на блоке, для которого вы хотите установить язык распознавания, отличный от языка распознавания для всего текста, и из меню выберите команду Свойства. В раскрывшемся диалоговом окне Свойства на закладке Блок в поле Язык распознавания выберите язык распознавания выделенного блока.
Тип печати входного текста
Для большинства текстов тип печати определяется автоматически. Этому соответствует значение Авто (доступ: раздел Тип печати, меню Сервис к Опции, закладка Распознавание).
В процессе распознавания текстов, напечатанных на матричном принтере в черновом режиме или на пишущей машинке, можно добиться более высокого качества распознавания, установив правильный Тип печати: для текстов, набранных на пишущей машинке — значение Пишущая машинка. для текстов, напечатанных на матричном принтере — значение Матричный принтер.
Как поменять тип печати
На закладке Распознавание диалогового окна Опции (доступ: Сервис к Опции) из раздела Тип печати выберите нужную опцию.
Важно: После распознавания текстов, набранных на пишущей машинке или матричном принтере, не забудьте снова выбрать значение Авто при возвращении к типографскому тексту.
Другие опции распознавания
Показывать или не показывать изображение при распознавании
Распознавание группы страниц происходит быстрее, если обрабатываемое изображение не отображается.
На закладке Общие (доступ: Сервис к Общие) дезактивируйте опцию Показывать изображение при распознавании.
Инвертировать блок
Для того, чтобы распознать инвертированные участки изображений (текстовый блок, ячейки таблицы или всю таблицу целиком) нажмите правой кнопкой мыши на инвертированном блоке и из меню выберите команду Свойства. В раскрывшемся диалоговом окне Свойства блока активизируйте опцию Инвертированный.
Распознавание в фоновом режиме
В случае, если вы хотите одновременно с распознаванием редактировать распознанные страницы, вы имеете возможность запустить распознавание в фоновом режиме: из меню Процесс выберите команду Запустить фоновое распознавание.
В строке состояния появится значок. В случае, если для диалогового окна Пакет вами выбран режим показа свойства страниц (доступ: Вид к Вид со свойствами), то напротив распознаваемой страницы в колонке Открыта появится специальный значок. В этом режиме распозна вание автоматически возобновляется, как только в пакете появляются нераспознанные страницы.
Как остановить распознавание в фоновом режиме
Из меню Процесс выберите команду Остановить фоновое распознавание.
Важно: В программе abbyy finereader в режиме Распознавание в фоновом режиме используются опции, установленные в программе до запуска фонового распознавания.
Важно: Перед запуском распознавания проверьте установленные опции: язык распознавания, тип печати распознаваемого текста и тип страницы.
Вы имеете возможность:
• Распознать блок или несколько блоков, выделенных на изображении.
• Распознать открытую страницу или все страницы, выделенные в диалоговом окне Пакет.
• Распознать все нераспознанные страницы пакета.
• Распознать все страницы в фоновом режиме. В этом режиме возможно распознавание с одновременным редактированием уже распознанных страниц.
• Распознать страницы в режиме распознавание с обучением. Данный режим используется в основном для распознавания текстов, использующих декоративные шрифты, или распознавания большого объема (более 100 страниц) документов плохого качества печати.
• Распознать страницы одного пакета на нескольких компьютерах одновременно.
Запуск распознавания
Нажмите на кнопку 2-Распознать на панели Scan and Read. Из меню Процесс выберите необходимую команду:
• Распознать — чтобы распознать открытую страницу или все страницы, выделенные в диалоговом окне Пакет;
• Распознать все — чтобы распознать все нераспознанные страницы пакета;
• Распознать Блок — чтобы распознать блок или несколько блоков, выделенных на изображении;
• Запустить фоновое распознавание — чтобы запустить распознавание в фоновом режиме.
Кнопка 2-Распознать запускает распознавание открытого изображения. Для того, чтобы изменить режим кнопки, нажмите на стрелку справа от нее и из открывшегося меню выберите необходимую команду.
Важно: В процессе распознавания уже распознанной страницы перераспознаются только отредактированные и добавленные блоки.
Язык распознавания
FineReader поддерживает распознавание как одноязычных, так и многоязычных (например, английско-французских) документов.
Для того, чтобы указать язык распознаваемого текста, выберите соответствующую строку в списке на панели Распознавание.
В случае, если вы хотите распознать документ, написанный на нескольких языках:
В списке языков на панели Стандартная выберите команду Выбор нескольких языков… в раскрывшемся диалоговом окне Язык распознаваемого текста укажите несколько языков. Для этого активизируйте опции с соответствующими названиями языков.
Важно: В случае, если вы часто используете какую-либо комбинацию языков, то создайте новую группу, содержащую эти языки (возможно только в версии FineReader Office).
Важно: Увеличение количества подключенных к распознаванию одного документа языков может привести к ухудшению качества распознавания. Не рекомендуется подключать более 2-3 языков.
Перед запуском распознавания проверьте подключенные на закладке Форматирование шрифты: они должны содержать все символы языка распознавания. В противном случае распознанный текст будет неправильно отображен в диалоговом окне Текст (в словах на месте некоторых букв стоят значки "?").
В случае, если необходимый язык отсутствует в списке, то возможны следующие варианты:
• Данный язык не поддерживается системой FineReader.
• Язык исключен из списка языков отображаемых на панели Стандартная. В этом случае в списке языков на панели Стандартная выберите команду Выбор из полного списка языков и в раскрывшемся диалоговом окне Язык распознаваемого текста укажите необходимый язык.
• Язык не был установлен (была выбрана минимальная установка) или был отключен при выборочной установке. Для того, чтобы доустановить языки распознавания, запустите программу инсталляции FineReader в режиме покомпонентной установки (Установка дистрибутива по выбору), дезактивируйте все опции, за исключением опции Языки распознавания, и просто нажмите на кнопку Состав. В раскрывшемся списке языков укажите требуемые языки.
Важно: В процессе установке проверьте, что вы указали ту же папку, в которую вы ранее установили ABBYY FineReader.
Как подключить язык к списку отображаемых языков
В диалоговом окне Редактор языков (доступ: Сервис к Редактор языков) выберите язык, который вы хотите подключить, и дезактивируйте опцию Показывать в списке языков.
Важно: Вы имеете возможность установить язык распознавания на отдельный блок. Для этого нажмите правой кнопкой мыши на блоке, для которого вы хотите установить язык распознавания, отличный от языка распознавания для всего текста, и из меню выберите команду Свойства. В раскрывшемся диалоговом окне Свойства на закладке Блок в поле Язык распознавания выберите язык распознавания выделенного блока.
Тип печати входного текста
Для большинства текстов тип печати определяется автоматически. Этому соответствует значение Авто (доступ: раздел Тип печати, меню Сервис к Опции, закладка Распознавание).
В процессе распознавания текстов, напечатанных на матричном принтере в черновом режиме или на пишущей машинке, можно добиться более высокого качества распознавания, установив правильный Тип печати: для текстов, набранных на пишущей машинке — значение Пишущая машинка. для текстов, напечатанных на матричном принтере — значение Матричный принтер.
Как поменять тип печати
На закладке Распознавание диалогового окна Опции (доступ: Сервис к Опции) из раздела Тип печати выберите нужную опцию.
Важно: После распознавания текстов, набранных на пишущей машинке или матричном принтере, не забудьте снова выбрать значение Авто при возвращении к типографскому тексту.
Другие опции распознавания
Показывать или не показывать изображение при распознавании
Распознавание группы страниц происходит быстрее, если обрабатываемое изображение не отображается.
На закладке Общие (доступ: Сервис к Общие) дезактивируйте опцию Показывать изображение при распознавании.
Инвертировать блок
Для того, чтобы распознать инвертированные участки изображений (текстовый блок, ячейки таблицы или всю таблицу целиком) нажмите правой кнопкой мыши на инвертированном блоке и из меню выберите команду Свойства. В раскрывшемся диалоговом окне Свойства блока активизируйте опцию Инвертированный.
Распознавание в фоновом режиме
В случае, если вы хотите одновременно с распознаванием редактировать распознанные страницы, вы имеете возможность запустить распознавание в фоновом режиме: из меню Процесс выберите команду Запустить фоновое распознавание.
В строке состояния появится значок. В случае, если для диалогового окна Пакет вами выбран режим показа свойства страниц (доступ: Вид к Вид со свойствами), то напротив распознаваемой страницы в колонке Открыта появится специальный значок. В этом режиме распозна вание автоматически возобновляется, как только в пакете появляются нераспознанные страницы.
Как остановить распознавание в фоновом режиме
Из меню Процесс выберите команду Остановить фоновое распознавание.
Важно: В программе abbyy finereader в режиме Распознавание в фоновом режиме используются опции, установленные в программе до запуска фонового распознавания.
Глава 33.
Как обучить FineReader
Распознавание с обучением
• В программе ABBYY FineReader тексты хорошего и среднего качества, а также шрифты обычного начертания распознаются без предварительного обучения. Поэтому OCR-система может работать в режиме Распознавание с обучением, который позволяет вводить тексты разного качества, набранные практически любыми шрифтами. В режиме Распознавание с обучением вы можете: распознавания текстов, использующих декоративные шрифты; распознавания текстов, в котором встречаются специальные символы (например, отдельные математические символы); распознавания большого объема (более 100 страниц) текста плохого качества.
В других случаях Распознавание с обучением использовать не рекомендуется, так как затраты на обучение будут больше, чем полученный выигрыш в качестве распознавания.
Обучение проводится при распознавании одной-двух страниц текста в специальном режиме. В результате создается эталон букв, встречающихся в тексте. Этот эталон в дальнейшем используется при распознавании основного объема текста. Некоторые пары или тройки символов в тексте могут склеиваться. В случае, если при обучении вам не удается переместить описывающий прямоугольник так, чтобы он заключал в себя один целый символ и не содержал при этом части соседних, то вы имеете возможность обучить программу сочетанию символов, которые невозможно «расклеить». Такие неразделяемые сочетания двух или трех символов называются лигатурами.
Важно: Созданный эталон можно использовать только для распознавания текстов, использующих тот же шрифт и размер шрифта и отсканированных с тем же разрешением, как и документ, на котором данный эталон создавался.
В процессе удаления пакета эталон также удаляется.
Вы имеете возможность сохранить созданный эталон для работы с другими пакетами. Для этого сохраните настройки пакета в формате шаблона пакета (*.fbt).
В процессе перехода к распознаванию текстов, набранных другим шрифтом, не забудьте отключить эталон (Сервис к Опции к Распознавание) активизируйте переключатель Не использовать пользовательский эталон.
Как начать распознавать с обучением
Установите режим Распознавание с обучением (на закладке Распознавание, меню Сервис к Опции в разделе Распознавание с обучением активизируйте переключатель Распознавание с обучением). В строке состояния появится название эталона (по умолчанию default).
Нажмите на кнопку 2-Распознать.
Обучите эталон, распознав одну-две страницы в режиме распознавание с обучением.
Обучаемые символы заносятся в эталон, создаваемый системой по умолчанию. По окончании обучения OCR-система сохранит созданный эталон (default.ptn) в папке, где хранится пакет.
Отредактируйте эталон.
Отмените режим Распознавание с обучением (на закладке Распознавание в разделе Обучение установите переключатель Распознавание с пользовательским эталоном).
Запустите распознавание основного текста, нажав на кнопку 2-Распознать.
Важно: Для того, чтобы создать несколько эталонов на один пакет, воспользуйтесь диалогом Редактор эталонов (доступ:Сервис к Редактор эталонов). Создайте новый эталон (нажмите в диалоговом окне на кнопку Новый) и выберите его для работы (нажмите на кнопку Выбрать). Далее работа с созданным эталоном происходит так же, как и работа с default-эталоном.
В случае, если в процессе обучения было создано несколько эталонов, то подключается последний созданный эталон. Название подключенного эталона пишется в строке состояния.
Для того, чтобы подключить другой эталон для распознавания, в диалоговом окне Редактор эталонов (доступ: Сервис к Редактор эталонов) в списке эталонов выберите эталон и просто нажмите на кнопку Выбрать. На закладке
Распознавание в разделе Обучение активизируйте переключатель Распознавание с пользовательским эталоном.
В случае, если на закладке Распознавание активизирована опция Использовать встроенные эталоны, то в режиме Распознавание с обучением программа предложит вам обучить только неуверенно распознанные символы.
В случае, если вы обучаете программу декоративным или нестандартным шрифтам и при этом используете встроенные эталоны, то OCR-система может распознать часть символов неправильно, не предложив их обучить. В этом случае дезактивируйте опцию Использовать встроенные эталоны.
Как обучить эталон
Перед обучением обратитесь к закладке Распознавание (доступ: Сервис к Опции) и в разделе Распознавание с обучением активизируйте опцию Распознавание с обучением.
Нажмите на кнопку 2-Распознать. Программа начнет распознавание. Как только встретится символ, подлежащий обучению, откроется диалоговое окно Ручное обучение эталона с изображением этого символа.
Как обучить символ
Описывающий прямоугольник в верхней части диалогового окна должен содержать один целый символ. В случае, если он содержит часть буквы или более одной буквы, то посредством мыши или кнопок и прямоугольник можно передвинуть так с тем, чтобы он охватывал одну целую букву.
Далее введите нужный символ и просто нажмите на кнопку Обучить.
Важно: Обучать можно только символам, входящим в алфавит языка.
В случае, если вы обучаете программу символам, которые нельзя ввести с клавиатуры, то для их обозначения можно использовать комбинацию из двух символов или вы имеете возможность скопировать требуемый символ из Таблицы символов (открывается при нажатии в диалоговом окне Ручное обучение эталона кнопки).
В случае, если в обучаемом тексте встречаются слова, набранные курсивом или полужирным, и вам важно сохранить гарнитуру шрифта в распознанном тексте, то при обучении таким символам в диалоговом окне Ручное обучение эталона активизируйте опции Курсив или Полужирный.
В процессе обучения следите за тем с тем, чтобы изображениям заглавных букв соответствовали заглавные буквы, а изображениям строчных букв — строчные.
В случае, если при обучении вы ошиблись, то можно нажать кнопку Вернуться, и охватывающий прямоугольник вернется на предыдущую позицию, а последняя обученная пара «изображение — символ» будет удалена из эталона. Кнопка Вернуться действует в пределах одного слова.
• В программе ABBYY FineReader тексты хорошего и среднего качества, а также шрифты обычного начертания распознаются без предварительного обучения. Поэтому OCR-система может работать в режиме Распознавание с обучением, который позволяет вводить тексты разного качества, набранные практически любыми шрифтами. В режиме Распознавание с обучением вы можете: распознавания текстов, использующих декоративные шрифты; распознавания текстов, в котором встречаются специальные символы (например, отдельные математические символы); распознавания большого объема (более 100 страниц) текста плохого качества.
В других случаях Распознавание с обучением использовать не рекомендуется, так как затраты на обучение будут больше, чем полученный выигрыш в качестве распознавания.
Обучение проводится при распознавании одной-двух страниц текста в специальном режиме. В результате создается эталон букв, встречающихся в тексте. Этот эталон в дальнейшем используется при распознавании основного объема текста. Некоторые пары или тройки символов в тексте могут склеиваться. В случае, если при обучении вам не удается переместить описывающий прямоугольник так, чтобы он заключал в себя один целый символ и не содержал при этом части соседних, то вы имеете возможность обучить программу сочетанию символов, которые невозможно «расклеить». Такие неразделяемые сочетания двух или трех символов называются лигатурами.
Важно: Созданный эталон можно использовать только для распознавания текстов, использующих тот же шрифт и размер шрифта и отсканированных с тем же разрешением, как и документ, на котором данный эталон создавался.
В процессе удаления пакета эталон также удаляется.
Вы имеете возможность сохранить созданный эталон для работы с другими пакетами. Для этого сохраните настройки пакета в формате шаблона пакета (*.fbt).
В процессе перехода к распознаванию текстов, набранных другим шрифтом, не забудьте отключить эталон (Сервис к Опции к Распознавание) активизируйте переключатель Не использовать пользовательский эталон.
Как начать распознавать с обучением
Установите режим Распознавание с обучением (на закладке Распознавание, меню Сервис к Опции в разделе Распознавание с обучением активизируйте переключатель Распознавание с обучением). В строке состояния появится название эталона (по умолчанию default).
Нажмите на кнопку 2-Распознать.
Обучите эталон, распознав одну-две страницы в режиме распознавание с обучением.
Обучаемые символы заносятся в эталон, создаваемый системой по умолчанию. По окончании обучения OCR-система сохранит созданный эталон (default.ptn) в папке, где хранится пакет.
Отредактируйте эталон.
Отмените режим Распознавание с обучением (на закладке Распознавание в разделе Обучение установите переключатель Распознавание с пользовательским эталоном).
Запустите распознавание основного текста, нажав на кнопку 2-Распознать.
Важно: Для того, чтобы создать несколько эталонов на один пакет, воспользуйтесь диалогом Редактор эталонов (доступ:Сервис к Редактор эталонов). Создайте новый эталон (нажмите в диалоговом окне на кнопку Новый) и выберите его для работы (нажмите на кнопку Выбрать). Далее работа с созданным эталоном происходит так же, как и работа с default-эталоном.
В случае, если в процессе обучения было создано несколько эталонов, то подключается последний созданный эталон. Название подключенного эталона пишется в строке состояния.
Для того, чтобы подключить другой эталон для распознавания, в диалоговом окне Редактор эталонов (доступ: Сервис к Редактор эталонов) в списке эталонов выберите эталон и просто нажмите на кнопку Выбрать. На закладке
Распознавание в разделе Обучение активизируйте переключатель Распознавание с пользовательским эталоном.
В случае, если на закладке Распознавание активизирована опция Использовать встроенные эталоны, то в режиме Распознавание с обучением программа предложит вам обучить только неуверенно распознанные символы.
В случае, если вы обучаете программу декоративным или нестандартным шрифтам и при этом используете встроенные эталоны, то OCR-система может распознать часть символов неправильно, не предложив их обучить. В этом случае дезактивируйте опцию Использовать встроенные эталоны.
Как обучить эталон
Перед обучением обратитесь к закладке Распознавание (доступ: Сервис к Опции) и в разделе Распознавание с обучением активизируйте опцию Распознавание с обучением.
Нажмите на кнопку 2-Распознать. Программа начнет распознавание. Как только встретится символ, подлежащий обучению, откроется диалоговое окно Ручное обучение эталона с изображением этого символа.
Как обучить символ
Описывающий прямоугольник в верхней части диалогового окна должен содержать один целый символ. В случае, если он содержит часть буквы или более одной буквы, то посредством мыши или кнопок и прямоугольник можно передвинуть так с тем, чтобы он охватывал одну целую букву.
Далее введите нужный символ и просто нажмите на кнопку Обучить.
Важно: Обучать можно только символам, входящим в алфавит языка.
В случае, если вы обучаете программу символам, которые нельзя ввести с клавиатуры, то для их обозначения можно использовать комбинацию из двух символов или вы имеете возможность скопировать требуемый символ из Таблицы символов (открывается при нажатии в диалоговом окне Ручное обучение эталона кнопки).
В случае, если в обучаемом тексте встречаются слова, набранные курсивом или полужирным, и вам важно сохранить гарнитуру шрифта в распознанном тексте, то при обучении таким символам в диалоговом окне Ручное обучение эталона активизируйте опции Курсив или Полужирный.
В процессе обучения следите за тем с тем, чтобы изображениям заглавных букв соответствовали заглавные буквы, а изображениям строчных букв — строчные.
В случае, если при обучении вы ошиблись, то можно нажать кнопку Вернуться, и охватывающий прямоугольник вернется на предыдущую позицию, а последняя обученная пара «изображение — символ» будет удалена из эталона. Кнопка Вернуться действует в пределах одного слова.