Captiva cloud runtime что это
В реалиях российского законодательства в силу нехватки правовых норм ведения бизнеса электронным (безбумажным) способом бухгалтерия должна создавать и хранить очень большое количество бумажных документов (первичные финансовые документы (счета, счета-фактуры, накладные и прочее), журналы проводок и операций, кадровые документы и др.).
Для сокращения издержек обработки и хранения средние и крупные компании прибегают к использованию автоматизированных систем массового ввода и обработки. На рынке широко известны и используются продукты следующих верндоров ПО: EMC, Kofax, Abbyy, Cognitive Technologies.
За последний год работы я успел с полного нуля постичь немало тайн этой интересной области автоматизации бизнеса с использованием систем EMC Captiva и Kofax Capture, о них я и хочу рассказать в данной статье.
Оба производителя продвигают свои продукты под определением «Систем массового ввода», а не как систем распознавания текста, и это неспроста. Все дело в том, что распознавание текста как такового это всего лишь малая задача, из всех, которые могут осуществлять эти системы.
Начнем с того, что обработка у Kofax и Captiva происходит одинаковым принципом: пошагово. Один шаг обработки это условно запуск одной отдельной .exe, которая и производит некие заданные действия. Для создания так называемого «процесса» существуют специальные дизайнеры, в которых вы задаете последовательность шагов и правила маршрутизации.
- База данных
- Сервер Kofax Capture
- Неуправляемые модули обработки
- Клиентские модули
База данных состоит из непосредственно реляционной базы данных и директории на файловой системе, обычно расаширенной по сети, в которой хранятся артефакты пошаговой обработки документов.
Сервер производит маршрутизацию документов по шагам и модулям.
Неуправляемые модули работают в фоновом режиме без участия пользователя, например, модуль распознавания.
Клиентские модули, такие как 'Сканирование' или 'Индексация' — основной интерфейс пользователя системы.
Администрирование производится в модуле Batch Administrator для Kofax или Administrative console для Captiva.
Для обоих систем имеет место масштабирование, как вертикальное, так и горизонтальное. Сервисы могут быть запущены на одном компьютере или разнесены по разным с целью увеличить производительность, запущены многократно (в рамках доступных лицензий), именно поэтому на этой схеме Recognition service отделен от остальных сервисов, т.к. требуется больше всего ресурсов.
Качество входного образа может быть низким (минимальное типовое требование 300dpi, 1 bit per pexel – black&white), содержать артефакты, пятна, размытости и прочие шумы, поэтому обычно применяют предобработку, которая может значительно изменить качество изображения и повысить качество распознавания. EMC использует компоненты PixTools, Kofax применяет свою разработку VirtualReScan.
Исходное изображение до обработки
Изображение после обработки
Важный шаг – Классификация (определение принадлежности к типу и форме заранее настроенного документа). Определяться документ может либо по графическому содержимому, либо по наличию ключевых слов или смешанным образом. Также возможно произвести классификацию «в коде» — например, когда документ был получен через веб сервис через учетную систему и его тип заранее известен.
Для распознавания текста могут быть использованы разные движки распознавания, которые поставляются вместе с базовым комплектом с продуктами, однако в большинстве своем и там и там используется движок от компании Abbyy, т.к. он дает высокое качество распознавания русского печатного текста. Рукописный ввод распознаванию поддается с большим трудом, поэтому обычно такие документы, если они и есть, не распознаются, а на них индексируется ограниченное число полей оператором.
Важно заметить, что базовый комплект Captiva InputAccel, а также Kofax Capture позволяет индексировать только строго формальные документы, например банковские анкеты, где заранее нанесены поля для текста и при извлечении мы всегда будем достоверно знать где что искать. Для обработки слабо- и неструктурированных документов необходимо использовать дополнительные модули Captiva Dispatcher или Kofax Transformation Modules. При этом происходит полностраничное распознавание текста и в большинстве случаев используется принцип нахождения полей по регулярным выражениям в совокупности с положением «якорных» участков (якорные слова также могут обнаруживать по регулярным выражениям или жестким шаблонам). Эти же модули необходимы, если вы собираетесь обрабатывать табличные части документов, это, кстати, самый страшный сон разработчика и по возможности мы стараемся отказываться от таблиц.
Сравнение компонентов систем
Emc Captiva | Kofax | Что делает |
---|---|---|
InputAccel Server | Серверный процесс, управляет жизненным циклом процесса (батча) | |
KNS, не обязательно если весь процесс будет идти на одной машине, не требует IIS | Работа по сети | |
InputAccel | Kofax Capture | Базовые процессы, возможность распознавать только строго структурированные документы, т.е. строгие формы, анкеты и т.д. |
Dispatcher | KTM | Настройка шаблонов распознавания для полуструктурированных документов и нешаблонных текстов (вся российская фин.первичка) |
FreeForm Designer | Нет, встроено в KTM | Дизайнер для настройки сложных правил распознавания |
Administation Console, Web application, требует IIS | Нет, нет такой необходимости, встроено в Capture | Приложение для настройки сервера, управления процессами и батчами, лицензирования и т.п. |
eInput | KFS | Возможность работы через браузер |
Лицензирование у продуктов примерно одинаковое, все лицензии конкурирующие, т.е на количество активных подключений. Вы покупаете объем страниц в год, которые вы собираетесь обработать, такая лицензия бывает возобновляемая (счетчик сбрасывается раз в год) и невозобновляемая. Также необходимо дополнительно покупать лицензии на модули, например в поставке Captiva только одно место сканировщика и все остальные нужно приобрести отдельно.
На территории России в большинстве своем распространена система EMC Captiva, Kofax используется довольно редко.
Если вам будет интересно продолжение, то я могу подробно описать процесс разработки и настройки процессов и шаблонов распознавания на базе платформы EMC Captiva.
EMC Captiva – интеллектуальное программное обеспечение, делающее гораздо больше, чем просто сканирование и преобразование бумажных документов в электронный вид, пригодный для использования другими приложениями.
Помогая снизить количество ручных операций при работе с бумажными документами, Captiva минимизирует ошибки обработки, повышает точность данных и ускоряет бизнес-процессы, делая информацию мгновенно доступной в репозиториях контента, таких как как EM Documentum, EMC ApplicationXtender и Microsoft SharePoint.
Captiva дает возможность обрабатывать тысячи и даже миллионы документов в день и используется компаниями из различных отраслей по всему миру.
- Интеграцию устройств – захват документов с сотен сканеров, МФУ, факсов, адресов электронной почты и других цифровых источников
- Контроль качества изображения – повышение качества изображения для большей точности
- Распознавание документа – повышение производительности за счет автоматического выявления отсканированных документов на основе штрих-кодов, патч-кодов или отделителей листов
- Сбор данных – уменьшение ручного ввода данных с помощью автоматического распознавания машинописного текста и штрих-кодов
- Интеграция бизнес-систем – автоматическая доставка документов и данных в в системы управления контентом, бизнес-процессы и базы данных
- Проверка данных – установка бизнес-правил для обеспечения точности собранных данных и уменьшения количества ошибок
- Обработка больших объемов данных – от тысяч до миллионов изображений документов в день
- Унификация – простое и быстрое создание правил сканирования и распознавания с помощью помощников по установке и конфигурированию «укажи и кликни» (point-and-click setup)
- Производительность: Desktop-клиент Captiva легко кастомизировать для любых типов задач ввода, включая анализ качества изображения, сборку документа, высокоскоростной ввод и индексирование данных, высокоскоростную коррекцию и валидацию данных, что значительно повышает эффективность работы оператора ввода.
- Интеллектуальность: точность и самообучение, сравнимые с человеческими возможностями. Captiva использует уникальную патентуемую технологию текстовой классификации, автоматически изучая обрабатываемые документы, интеллектуально определяя слова и выражения для последующего использования при классификации документов.
- Гибкость: наиболее быстрая окупаемость инвестиций в отрасли. Captiva обеспечивает экономию за счет быстрого определения профилей конфигурации (типов документов, обработку образов, распознавание и экспорт) для повторного использования в нескольких процессах и позволяет осуществить миграцию до уровня промышленно эксплуатируемой системы одним нажатием кнопки.
EMC Captiva входит в продуктовую линейку EMC Documentum.
Файл emc.captiva.webtoolkithost.exe из EMC Corporation является частью EMC Captiva Cloud Toolkit. emc.captiva.webtoolkithost.exe, расположенный в C:Program FilesEMC CaptivaCaptiva Cloud RuntimeEmc.Captiva.WebToolkitHost.exe с размером файла 13920 байт, версия файла 1.0.0.461, подпись 5f3ab9f57f2a6ef17a8a503df36c2854.
- Запустите приложение Asmwsoft Pc Optimizer.
- Потом из главного окна выберите пункт “Clean Junk Files”.
- Когда появится новое окно, нажмите на кнопку “start” и дождитесь окончания поиска.
- потом нажмите на кнопку “Select All”.
- нажмите на кнопку “start cleaning”.
EMC Captiva 6.5
Решение EMC Captiva которое преобразует бумажные документы, факсы и другое содержание в цифровые данные, используемые корпоративными приложениями. Прорыв в производительности и интеллектуальности достигается, в частности, за счет новых средств Production Auto Learning, позволяющих системе изучать свойства документа в процессе обработки. В результате организации могут еще быстрее, чем когда-либо ранее реализовать возможности ввода документов. Кроме того, усовершенствования в производительности новой версии и дополнительная поддержка языков способствуют дальнейшему преобразованию информации на бумаге из обузы в цифровые данные, готовые к использованию в приложениях.
Capture, connect, and go.
Intelligent enterprise capture does more than transform your paper documents into digital information. It helps you lower costs and minimize risks, and connects you with the information you need to get your job done. It’s time to take control and accelerate your business. Go with EMC Captiva.
EMC Live Webcast
Looking for the latest techniques and technologies for managing paper and electronic records?
Recorded Webcast: Managing Paper and Electronic Records: A Strategy for Compliance
Glossary Item Box
Captiva Cloud Runtime
Redistribution
The following redistribution options are available. You need to use only one of these.
Merge Module
A merge module lets you include toolkit components in an installer application. Use this option when you want to install the runtime alongside additional software. You can add a merge module file to your installation project following the instructions provided with Visual Studio.
The following merge modules are available:
- EMC.CaptivaCloud.msm: Contains all of the files needed for ImageGear ISIS applications to use scanners via the ISIS driver interface.
- pixtwain.msm: Contains PixTWAIN, which is an application that enables ISIS commands to work with TWAIN drivers. ISIS is often preferred, but not all scanners have ISIS drivers. Include this package if you might need to support TWAIN drivers.
This version of PixTWAIN can be used only by applications using the Captiva Cloud Runtime.
Installer
The installer is an executable file (plus supporting files) that can be used to distribute only the toolkit components. The installer can be run from a number of different contexts. A silent installation option is available, but by default the installer is interactive. You can distribute the installer if you want to allow users to decide where to install the files.
You can redistribute the runtime installer in many ways, such as on an intranet site, via an automatic deployment tool such as Microsoft Systems Management Server (SMS), or simply by making it available on a network share. Your distribution package must include all of the files in the Redistributable folder. The runtime can be installed by running setup.exe.
To perform a silent installation, run the installer using the following command:
Additional command line arguments are available. Run the following command to display a list of arguments that you can specify:
The Windows Installer program itself (MsiExec.exe) accepts a number of additional arguments that can be passed with the /v argument. Run MsiExec.exe /help for more information about these arguments.
Configuring the Service to Restart Automatically
To help ensure continuous availability of toolkit functionality, you can configure the Captiva Cloud Service to restart automatically on failure when you install it. Windows services are configurable from a command line that you can call from your installer. Refer to the operating system documentation or the Microsoft web site for information about configuring the behavior for a service that fails. The service name is Emc.Captiva.WebCaptureService.
Glossary Item Box
Captiva Cloud Runtime
Redistribution
The following redistribution options are available. You need to use only one of these.
Merge Module
A merge module lets you include toolkit components in an installer application. Use this option when you want to install the runtime alongside additional software. You can add a merge module file to your installation project following the instructions provided with Visual Studio.
The following merge modules are available:
- EMC.CaptivaCloud.msm: Contains all of the files needed for ImageGear ISIS applications to use scanners via the ISIS driver interface.
- pixtwain.msm: Contains PixTWAIN, which is an application that enables ISIS commands to work with TWAIN drivers. ISIS is often preferred, but not all scanners have ISIS drivers. Include this package if you might need to support TWAIN drivers.
This version of PixTWAIN can be used only by applications using the Captiva Cloud Runtime.
Installer
The installer is an executable file (plus supporting files) that can be used to distribute only the toolkit components. The installer can be run from a number of different contexts. A silent installation option is available, but by default the installer is interactive. You can distribute the installer if you want to allow users to decide where to install the files.
You can redistribute the runtime installer in many ways, such as on an intranet site, via an automatic deployment tool such as Microsoft Systems Management Server (SMS), or simply by making it available on a network share. Your distribution package must include all of the files in the Redistributable folder. The runtime can be installed by running setup.exe.
To perform a silent installation, run the installer using the following command:
Additional command line arguments are available. Run the following command to display a list of arguments that you can specify:
The Windows Installer program itself (MsiExec.exe) accepts a number of additional arguments that can be passed with the /v argument. Run MsiExec.exe /help for more information about these arguments.
Configuring the Service to Restart Automatically
To help ensure continuous availability of toolkit functionality, you can configure the Captiva Cloud Service to restart automatically on failure when you install it. Windows services are configurable from a command line that you can call from your installer. Refer to the operating system documentation or the Microsoft web site for information about configuring the behavior for a service that fails. The service name is Emc.Captiva.WebCaptureService.
Интеллектуальные решения корпоративного класса EMC Captiva для ввода документов позволяют организациям превратить бумажные документы из обузы в преимущество для бизнеса – благодаря их преобразованию в информацию, готовую для использования в приложениях. Продукты Captiva включают Captiva InputAccel – хорошо конфигурируемое корпоративное решение для ввода документов со сканеров и других источников. Оно преобразует документы в деловую информацию и передает их образы, а также данные в бизнес-приложения и системы управления содержанием. Captiva InputAccel for Invoices превращает бумажные счета в цифровые образы, автоматически вводит данные счетов, проверяет их и отправляет для дальнейшей обработки в процессы документооборота, управления содержанием и системы ERP (Enterprise Resource Planning). Captiva Dispatcher реализует технологию интеллектуального распознавания документов, которая автоматически идентифицирует входящие документы, маршрутизирует их по заранее заданным бизнес-правилам и извлекает бизнес-данные из документов различных типов. Captiva eInput предлагает среду тонкого клиента на базе web для сканирования, импорта и индексирования образов документов и электронных файлов. Это дает возможность реализовать специальное и распределенное сканирование как в масштабе предприятия, так и за его пределами.
3- Настройка Windows для исправления критических ошибок emc.captiva.webtoolkithost.exe:
- Нажмите правой кнопкой мыши на «Мой компьютер» на рабочем столе и выберите пункт «Свойства».
- В меню слева выберите ” Advanced system settings”.
- В разделе «Быстродействие» нажмите на кнопку «Параметры».
- Нажмите на вкладку “data Execution prevention”.
- Выберите опцию ” Turn on DEP for all programs and services . ” .
- Нажмите на кнопку “add” и выберите файл emc.captiva.webtoolkithost.exe, а затем нажмите на кнопку “open”.
- Нажмите на кнопку “ok” и перезагрузите свой компьютер.
Всего голосов ( 77 ), 20 говорят, что не будут удалять, а 57 говорят, что удалят его с компьютера.
Управление бумажными документами обходится дорого, снижает производительность и приводит к напрасной трате времени и ресурсов. Интеллектуальный корпоративный ввод позволяет преодолеть эти проблемы. Решение EMC Captiva обеспечивает поддержку в масштабах всего предприятия и приносит реальную пользу для многих направлений бизнеса внутри организации. Оно позволяет установить контроль над огромным объемом и сложностью бумажных документов в ваше рабочем пространстве за счет автоматической классификации документов и извлечения данных, преобразования бумаг в управляемую электронную информацию и генерации аудиторского следа.
С помощью EMC Captiva вы достигаете более строгого соответствия требованиям регуляторов и стратегического управления, а также снижаете риски —
начиная с упрощения управления и контроля канцелярии и
до перемещения документов в Microsoft SharePoint и ускорения процессов,
которые по-прежнему зависят от бумажных документов.
Интеллектуальный корпоративный ввод позволяет вам уменьшить операционные затраты, повысить
точность информации и оптимизировать бизнес-процессы — предприятие станет более гибким и оперативным,
а вы сможете сосредоточиться на предоставлении услуг.
EMC Captiva 7.0
EMC Captiva 7.0 - решение для преобразования бумажных документов, факсов и другой неструктурированной информации в цифровые данные, используемые корпоративными приложениями. Этот релиз предоставляет существенно улучшенную функциональность для интеллектуального корпоративного ввода, повышения производительности, а также увеличения гибкости организации. Captiva 7.0 представляет новые функции, такие как Captiva Designer, Captiva Desktop, а также существенные усовершенствования Captiva Advanced Recognition.
Решения для интеллектуального корпоративного ввода позволяют организациям обрабатывать бумажные документы, которые используют почти все подразделения. Бумажные и электронные документы всё еще требуются для того, чтобы работа была выполнена. Идет ли речь о начале нового проекта, взаимодействие по поводу финансовых операций или поддержки процесса принятия решений, организациям нужны системы для ввода и классификации всей необходимой информации, существующей в бумажном виде, а также другой неструктурированной информации. Captiva 7.0 поддерживает такие бизнес-решения для различных вертикалей: госсектора, сферы финансовых услуг (включая банковские услуги и страхование), энергетики и машиностроения, здравоохранения и медико-биологических наук.
Для международных организаций Captiva 7.0 предоставляет поддержку информации на разных языках, включая английский, французский, итальянский, немецкий, испанский, бразильский португальский, русский, упрощенный китайский, японский и корейский языки.
Captiva 7.0 повышает эффективность работы оператора благодаря новому настраиваемому гибкому десктоп-клиенту для выполнения широкого круга задач. Captiva Desktop – это новый клиент для операторов ввода; его легко кастомизировать для любых типов задач ввода, включая анализ качества изображения, сборку документа, высокоскоростной ввод и индексирование данных, высокоскоростную коррекцию и валидацию данных. С помощью поддержки шаблонов форм, повторяющих изображение бумажного документа, Captiva Desktop оптимизирует рабочую среду оператора для ускорения индексации по контексту.
Captiva Advanced Recognition используется в случае предъявления более сложных требований к решениями для корпоративного ввода. Он включает патентуемую технологию текстовой классификации, которая значительно повышает показатель точности входящих документов. В отличие от других аналогичных продуктов, где правила классификации полностью определяются администратором при запуске проекта, Captiva автоматически изучает обрабатываемые документы, интеллектуально определяя слова и выражения для последующего использования при классификации документов. Используя этот уникальный подход, получивший название Production Auto Learning, совместно с методом классификации на основе образов, Captiva сокращает время на разработку проекта и повышает эффективность работы оператора, обеспечивая повышение точности до 20% по сравнению с правилами и шаблонами, создаваемыми экспертами вручную.
Captiva Designer – это новый унифицированный инструмент для ИТ-разработчиков и администраторов, созданный для упрощения настройки, развертывания и текущего сопровождения проектов корпоративного ввода. Этот модуль позволяет проектной команде с легкостью создавать формы для ввода данных и правилы валидации, обеспечивая возможность создания полей формы средствами графического проектирования, а также средства проверки для повышения удобства использования индексирования по контексту и валидации. Captiva Designer обеспечивает экономию времени за счет быстрого определения профилей конфигурации (типов документов, обработку образов, распознавание и экспорт) для повторного использования в нескольких процессах и позволяет осуществить миграцию до уровня промышленно эксплуатируемой системы одним нажатием кнопки. Благодаря этому Captiva позволяет внедрять корпоративные конфигурации – включая серверные и клиентские настройки – за считанные минуты и даже секунды, а не за часы или даже дни, как это делают конкурирующие продукты.
Captiva оптимизирована для использования в облаке и доступна в EMC OnDemand, модели развертывания частного облака для приложений корпоративного класса, созданной для того, чтобы помочь заказчикам ускорить переход к облакам.
Далее
- Белая книга. 15-минутное руководство по интеллектуальному вводу
- Аналитическая статья. AIIM: расширение возможностей ввода— измерение ROI
- Калькулятор. Преимущества EMC Captiva Intelligent Capture
- Веб-трансляция. Оценка реальной пользы от ввода документов
- Обзор решения. EMC Captiva Intelligent Capture
- Веб-трансляция. Возьмите бумагу под контроль в удаленных офисах с помощью распределенного ввода
Производительность корпоративного класса в Captiva 6.5
Внутренние эталонные тесты показывают, что теперь один сервер Captiva может обработать более 10 млн образов документов в день, что отвечает требованиям крупнейших предприятий. Чтобы помочь заказчикам максимально увеличить производительность, EMC предлагает руководство по производительности и настройке с детальными сведениями по выполненному эталонному тестированию, а также рекомендации, помогающие выбрать оптимальный масштаб системы ввода документов. Captiva предусматривает и новые опции адаптации к требованиям заказчика и интеграции, упрощающие развертывания системы с помощью простого интерфейса (drag-and-drop). Организации получили возможность легко развертывать решения ввода любого масштаба в самое короткое время.
Кроме того, эта новая версия предлагает глобальным компаниям дополнительные пользовательские интерфейсы на французском, итальянском, немецком, испанском, бразильском португальском, русском, упрощенном китайском и корейском языках. Теперь Captiva включает поддержку распознавания более чем 100 языков с одно- и двухбайтовыми символами, в том числе упрощенного китайского, японского и корейского.
3- Настройка Windows для исправления критических ошибок emc.captiva.webtoolkithost.exe:
- Нажмите правой кнопкой мыши на «Мой компьютер» на рабочем столе и выберите пункт «Свойства».
- В меню слева выберите ” Advanced system settings”.
- В разделе «Быстродействие» нажмите на кнопку «Параметры».
- Нажмите на вкладку “data Execution prevention”.
- Выберите опцию ” Turn on DEP for all programs and services . ” .
- Нажмите на кнопку “add” и выберите файл emc.captiva.webtoolkithost.exe, а затем нажмите на кнопку “open”.
- Нажмите на кнопку “ok” и перезагрузите свой компьютер.
Всего голосов ( 77 ), 20 говорят, что не будут удалять, а 57 говорят, что удалят его с компьютера.
Управление бумажными документами обходится дорого, снижает производительность и приводит к напрасной трате времени и ресурсов. Интеллектуальный корпоративный ввод позволяет преодолеть эти проблемы. Решение EMC Captiva обеспечивает поддержку в масштабах всего предприятия и приносит реальную пользу для многих направлений бизнеса внутри организации. Оно позволяет установить контроль над огромным объемом и сложностью бумажных документов в ваше рабочем пространстве за счет автоматической классификации документов и извлечения данных, преобразования бумаг в управляемую электронную информацию и генерации аудиторского следа.
С помощью EMC Captiva вы достигаете более строгого соответствия требованиям регуляторов и стратегического управления, а также снижаете риски —
начиная с упрощения управления и контроля канцелярии и
до перемещения документов в Microsoft SharePoint и ускорения процессов,
которые по-прежнему зависят от бумажных документов.
Интеллектуальный корпоративный ввод позволяет вам уменьшить операционные затраты, повысить
точность информации и оптимизировать бизнес-процессы — предприятие станет более гибким и оперативным,
а вы сможете сосредоточиться на предоставлении услуг.
Captiva с Production Auto Learning: интеллектуальность, скорость и эффективность
Новое средство Captiva Production Auto Learning позволяет системе автоматически классифицировать и извлекать деловую информацию из документов в процессе их быстрого сканирования. Это значительно ускоряет процесс ввода различных документов – счетов, займов, заявлений и др. Благодаря функциям Production Auto Learning решение Captiva намного опережает конкурентные продукты, которые нередко требуют участия администраторов проектов в предварительном создании шаблонов документов или операторов – в выполнении дополнительных шагов, отнимающих много времени, с целью указания свойств документов. Теперь, автоматизируя создание шаблонов, Captiva сокращает скорость подготовки проекта с дней или даже недель до нескольких часов. Время настройки конфигурации уменьшается до 90%.
Stop paper from slowing down your business.
Читайте также: