Автоматическое извлечение текстов 1с что это

Полнотекстовый поиск - позволит найти текстовую информацию, размещенную практически в любом месте используемой конфигурации. При этом искать нужные данные можно либо по всей конфигурации в целом, либо сузив область поиска до нескольких объектов (например, определенных видов документов или справочников). Сами критерии поиска могут варьироваться в довольно широком диапазоне. То есть найти нужные данные можно, даже не помня точно, где они хранятся в конфигурации и как именно записаны.

Полнотекстовый поиск предоставляет следующие возможности:

Есть поддержка транслитерации (написание русских слов символами латиницы в соответствии с ГОСТ 7.79-2000). Пример: "русская фраза" = "russkaya fraza".
Есть поддержка замещения (написание части символов в русских словах одноклавишными латинскими символами). Пример: "руссrfz фраpf" (окончания каждого слова набраны латиницей, допустим, в результате ошибки оператора).
Есть возможность нечеткого поиска (буквы в найденных словах могут отличаться) с указанием порога нечеткости. Пример: указав в строке поиска слово "привет" и нечеткость 17 %, найдем все аналогичные слова с ошибками и без: "привет", "превет", "привед".
Есть возможность указать область выполнения поиска по выбранным объектам метаданных.
Полнотекстовое индексирование названий стандартных полей ("Код", "Наименование" и т. д.) производится на всех языках конфигурации.
Поиск выполняется с учетом синонимов русского, английского и украинского языков.
Морфологический словарь русского языка содержит ряд специфических слов, относящихся к областям деятельности, автоматизируемым с помощью системы программ "1С:Предприятие".
Стандартно в состав поставляемых словарей включены словарные базы и словари тезауруса и синонимов русского, украинского и английского языков, которые предоставлены компанией "Информатик".
Поиск можно осуществлять с использованием подстановочных символов ("*"), а также с указанием поисковых операторов ("И", "ИЛИ", "НЕ", "РЯДОМ") и спецсимволов.

Полнотекстовый поиск можно осуществлять в любой конфигурации на платформе 1С:Предприятие 8

Для того чтобы открыть окно управления полнотекстовым поиском необходимо выполнить следующее:

Обычное приложение - пункт меню Операции - Управление полнотекстовым поиском.

Управляемое приложение - пункт меню Главное меню - Все функции - Стандартные - Управление полнотекстовым поиском.

Обновить индекс – Создание индекса/Обновление индекса;
Очистить индекс – обнуление индекса(рекомендуется после обновления всех данных);
пункт Разрешить слияние индексов – отвечает за слияние основного и дополнительного индекса.

Полнотекстовый поиск осуществляется при помощи полнотекстового индекса. При отсутствии индекса полнотекстовый поиск как таковой не возможен. Для того чтобы поиск имел результат, все необходимые данные должны быть включены в полнотекстовый индекс. Если пользователем введены в базу новые данные, их следует включить в рассматриваемый индекс, иначе они не будут участвовать в поиске. Чтобы этого избежать, необходимо обновлять полнотекстовый индекс. При обновлении система анализирует только определенные типы данных: Строка, Данные ссылочного типа (ссылки на документы, справочники),Число, Дата, ХранилищеЗначения. Если пользователь не имеет прав доступа к определенной информации, то он не сможет увидеть ее в результатах поиска. Следует также помнить и о том, что в свойствах объектов, по которым будет происходить поиск должно быть установлено значение Полнотекстовый Поиск – Использовать, которое задано по умолчанию.

Как вы можете заметить свойство Использовать установлено для всего справочника Контрагенты, но сделать это можно и для каждого его реквизита соответствующего типа.

Рассмотрим более подробно полнотекстовый индекс, который состоит из двух частей (индексов): основного индекса и дополнительного. Высокая скорость поиска данных обеспечивается за счет основного индекса, но обновление его происходит относительно медленно, в зависимости от объема данных. Дополнительный индекс ему противоположен. Данные добавляются в него намного быстрее, но поиск осуществляется медленнее. Система осуществляет поиск одновременно в обоих индексах. Большая часть данных находится в основном индексе, а данные добавляемые в систему попадают в дополнительный индекс. Пока объем данных в дополнительном индексе небольшой, поиск по нему происходит относительно быстро. В тот момент, когда нагрузка на систему невелика, происходит операция слияния индексов, в результате чего дополнительный индекс очищается, а все данные помещаются в основной индекс. Слияние индексов предпочтительнее выполнять в тот момент времени, когда нагрузка на систему минимальна. С этой целью можно создавать регламентированные задания и задания по расписанию.

Специальные операторы, допустимые при задании поискового выражения

Механизм полнотекстового поиска допускает написание части символов русского слова одноклавишными латинскими символами. Результат поиска при этом не измениться.

Два оператора РЯДОМ

упрощенный. На расстоянии 8 слов друг от друга
РЯДОМ/[+/-]n – поиск данных в одном реквизите на расстоянии n-1 слов между ними.

Знак указывает в каком направлении от первого слова будет поиск второго. (+ - после, - до)

Групповой символ «*» может использоваться только в качестве замены конца слова

Программными средствами и средствами 1с: программирование.

Оператор синонимов «!». Позволяет найти слово и его синонимы

Как программно обновить индекс полнотекстового поиска?

Пример полнотекстового поиска данных

Определение переменной СписокПоиска

Кроме этого в процедуре обработки события ПриОткрыии формы определим, что эта переменная будет содержать список полнотекстового поиска, с помощью которого мы и будем осуществлять поиск в данных

Теперь для события нажатия на кнопку Найти напишем код, который позволит нам выполнять поиск в соответствии с тем выражением, которое задано в поле ПоисковоеВыражение

Создадим в модуле формы процедуру с таким именем и напишем в ней код,

В заключение передаем управление в процедуру ДоступностьКнопок() для того, чтобы сделать доступными или, наоборот, запретить доступ к кнопкам Предыдущая порция и Следующая порция (в зависимости от того, какая порция полученных результатов отображена). Текст этой процедуры представлен в Коде

Теперь необходимо создать обработчики событий нажатия на кнопки ПредыдущаяПорция() и СледующаяПорция().

Заключительным «штрихом» будет создание обработчика события onclick поля HTML-документа, расположенного в форме. Дело в том, что результат полнотекстового поиска, представленный в виде HTML-текста, содержит гиперссылки на номера элементов списка поиска. И нам хотелось бы, чтобы при переходе пользователя на эту ссылку система открывала бы форму того объекта, который содержится в этом элементе списка. Для этого мы будем перехватывать событие onclick HTML-документа, содержащегося в поле HTML-документа, получать номер элемента списка из гиперссылки и открывать форму соответствующего объекта. Текст обработчика события onclick поля HTML-документа представлен в коде

Еще в этой же категории

Дата создания объекта по ссылке (GUID) 7
Код позволяет получить информацию о дате и времени создания объекта ИБ (документ, элемент справочника) по уникальному идентификатору (GUID) Позволяет узнать, когда был создан документ или элемент справочника. Для получения информации используется у Циклы в языке 1С, примеры и тест - какой цикл быстрее? 6
Циклы применяются для выполнения каких либо повторяющихся действий, возможные варианты перебора в цикле: Перебираем строки с помощью цикла Для каждого Для каждого ТекСтрока Из КоллекцияСтрок Цикл // код обработки КонецЦикла; Перебираем строки Полнотекстовый Поиск - пример поиска контрагентов в базе 3
У клиента огромная база клиентов и соответственно огромный штат менеджеров. Дошло до того, что менеджеры в поисках новых клиентов( знакомство, интернет, реклама и т.д.) очень часто звонят одним и тем же клиентам по несколько раз. Стали вести базу зв Отказ от модальности - Где, Что и Как? 2
В общем виде задача отказа от модальности заключается в том, чтобы заменить модальные методы их асинхронными аналогами. Старая процедура, открывавшая модальное окно и обрабатывавшая полученные им данные, могла выглядеть так: В новом варианте Посмотреть все в категории Встроенные Функции

Ключевые слова и Изображения

Слова упорядочены по частоте использования в тексте

Изображения

Для работы полнотектового поиска в "1С:Документооборот" по содержимому файлов нужно, чтобы программа "1С:Документооборот" могла извлекать тексты. "1С:Документооборот" умеет извлекать тексты из файлов популярных форматов средствами операционной системы Windows для дальнейшего использования в полнотекстовом поиске. Данная процедура в клиент-серверном варианте под Windows должна производиться на сервере.

Решение:

В Windows обязательно надо проверить региональные настройки (особенно это важно, если Windows не русский). Если русский язык в системе не установлен, то при извлечении русских текстов на сервере "1С" будут проблемы, так как извлечение текстов осуществляется средствами операционной системы MS Windows.

Для того, чтобы извлечение текстов в "1С:Документооборот" производилось на сервере, надо включить настройку "Извлекать тексты только на сервере" в настройках программы.

За это отвечает регламентное задание "Извлечение текста".
Из форматов txt, html, doc, xls текст будет извлекаться средствами Windows. А вот из форматов docx и xlxs – нет. Для извлечения текстов данных форматов в "1С:Документообороте" надо установить Pack от Microsoft.
Есть 32 и 64 битные версии Pack-ов от Microsoft. Все зависит от разрядности сервера 1С:Предприятия. Ставим тот, который нам подходит. Скачиваем с сайта microsoft по ссылке файлы Filters:

FilterPack32bit.exe или
FilterPack64bit.exe.

Проверим тестовые образы файлов pdf и doc.

Видим, что содержимое файлов успешно извлекается.
Проверим расписание регламентного задания "Извлечение текста".

И проверим, как выполнялись фоновые задания.

Этот и другие материалы Владимира Лушникова опубликованы в блоге "1С:Документооборот".

Самый детальный видеокурс по 1С:Документообороту

Объявления

Извлечение текстов в 1С:Документооборот

Как настроить автоматическое извлечение текстов в 1С:Документооборот на сервере приложений 1С?

Для работы полнотектового поиска в 1С:Документооборот по содержимому файлов нужно, чтобы программа 1С:Документооборот могла извлекать тексты. 1С:Документооборот умеет извлекать тексты из файлов популярных форматов средствами операционной системы Windows для дальнейшего использования в полнотекстовом поиске. Данная процедура в клиент-серверном варианте под Windows должна производиться на сервере.

Для того, чтобы извлечение текстов в 1С:Документооборот производилось на сервере, надо включить настройку «Извлекать тексты только на сервере» в настройках программы.

FilterPack32bit.exe или
FilterPack64bit.exe.

Для извлечения текстов из pdf файлов с текстовым слоем в 1С:Документооборот нужно установить IFilter. Есть разные версии iFilters: платные и бесплатные, под разные форматы (в том числе и для Autocad). PDF является самым популярным форматом у пользователей.
Есть 32 и 64 битные версии PDF IFilter. Все зависит от разрядности сервера 1С:Предприятия. Ставим тот, который нам подходит. Скачиваем с сайта adobe по ссылкам фильтры:

В программе 1С:Документооборот под Администратором установим в настойках программы флаг «Извлекать тексты только на сервере». Это нужно для того, чтобы извлечение текстов не зависело от того, где работают пользователи (в тонком клиенте под Линукс и в браузерах извлечение текстов не работает).
Загрузим файлы в формате doc и в формате pdf в хранилище Файлы.

Видим, что содержимое файлов успешно извлекается.
Проверим расписание регламентного задания «Извлечение текста».

Большое спасибо. На эту тему очень мало информации. Еле нашла.

Огромное спасибо! Все заработало только когда дошла до совета убрать пробелы из наименования

Спасибо Renatius, мне тоже помогло.

"Установку программы CuneiForm . в клиент-серверном варианте на сервере 1С - под пользователем, под которым работает сервис 1С:Предприятия."
У пользователя USR1CV8 нет прав администратора.

Давать админские права, устанавливать, а потом отбирать?

Да, дать права, а потом забрать.
Или второй вариант: установить можно под админом, а потом пользователю USR1CV8 дать полные права на папку, куда будет установлена программа CuneiForm.

Получилось.
Достаточно дать полные права на папку установки (правда не понятно зачем это - вроде ничего туда не пишется. )

Выбираю "Поместить только текстовый образ"- работает, сохраняю.
Но появляется пункт меню "Открыть текстовый образ".
В чем может быть проблема?

Текстовые образы распознанных документов хранятся в каком-то справочнике или просто как значение реквизита файла?

Как значение реквизита "Текстовый образ".

Текстовые образы распознанных документов в базе хранятся в каком-то справочнике или как значение реквизита файла?

1.При печати штрихкода на листе из карточки документа штрихкод выводится вместе с наименованием организации. Можно ли выводить на печать без этой информации?
2. Пробовали под разными пользователями печатать штрихкод на странице, у некоторых выходит первый лист со штрихкодом, а дальше прогоняются через принтер пустые листы. Какими настройками это регулируется?

редакция КОРП 2.1.11.5

1. Вы печатаете из карточки документа "Штрихкод на странице" или "Регистрационный штамп"? При печати регистрационного штампа действительно выводится наименование организации, а при печати штрихкода организация не должна выводится.

2. Попробуйте в персональных настройках пользователя проверить Штрихкодирование - Положение на странице.

Заметил, что качество распознавания - отвратное (сразу на это не обращаешь внимания, вроде результат есть - значит всё хорошо). Начал разбираться, выяснил, что потеря качества идёт в утилите convert. В опциях конвертации по-умолчанию забито качество 100 или 200 dpi (можете сами проверить, открыв любой pdf-файл в программе ImageMagic - он откроется уже огрубленным).

Вычитал, что у convert.exe есть опция "-destiny 300", тогда преобразование идёт с качеством 300dpi - мне бы хватило. Попробовал дописать в общих настройках преобразования путь к конверту уже с опцией
"C:\Program Files\ImageMagick-7.0.6-Q16\convert.exe -destiny 300". Не канает, выдаёт ошибку распознавания.

Вопрос, что делать для решения вопроса с качеством? Реально обидно: большинство сканов не попадает в полнотекстовый поиск из-за хренового распознавания.

Доработать типовой функционал.

Дополнение. Опция называется -density. По-умолчанию 96dpi, этого конечно же мало - даже жалко забивать хламом индексы полнотекстового поиска. 200 dpi более чем достаточно - качество распознавания возрастает как-будто раз в 10.

Ещё помучаюсь с костылями, не хочется типовую конфигурацию портить.

Владимир, здравствуйте еще раз. к вопросу от 31.января

>1.При печати штрихкода на листе из карточки документа штрихкод выводится вместе с наименованием организации. Можно ли выводить на печать без этой информации?
>2. Пробовали под разными пользователями печатать штрихкод на странице, у некоторых выходит первый лист со штрихкодом, а дальше прогоняются через принтер пустые листы. Какими настройками это регулируется?

Печатаем именно "Штрихкод на странице" - организация выводится. Пока будем печатать "Штрихкод на наклейке" просто на бумаге, но проблема не уходит.

ко второму вопросу: проверили все настройки принтеров, но по умолчанию система выдает принтеру макет, где по умолчанию стоят настройки страниц 1-60000. Это происходит при выборе варианта печати: регистрационный штамп, штрихкод на наклейке и штрихкод на странице. Если пользователь "проворонит" исправление такой настройки, то принтер прогоняет все 60000 листов.

Подскажите, как решать эту проблему?

Какой релиз Докуентооборота используете? попробуйте обновиться на последний релиз, обычно такие ошибки исправляют

Полнотекстовый поиск предоставляет следующие возможности:

Есть поддержка транслитерации (написание русских слов символами латиницы в соответствии с ГОСТ 7.79-2000). Пример: "русская фраза" = "russkaya fraza".
Есть поддержка замещения (написание части символов в русских словах одноклавишными латинскими символами). Пример: "руссrfz фраpf" (окончания каждого слова набраны латиницей, допустим, в результате ошибки оператора).
Есть возможность нечеткого поиска (буквы в найденных словах могут отличаться) с указанием порога нечеткости. Пример: указав в строке поиска слово "привет" и нечеткость 17 %, найдем все аналогичные слова с ошибками и без: "привет", "превет", "привед".
Есть возможность указать область выполнения поиска по выбранным объектам метаданных.
Полнотекстовое индексирование названий стандартных полей ("Код", "Наименование" и т. д.) производится на всех языках конфигурации.
Поиск выполняется с учетом синонимов русского, английского и украинского языков.
Морфологический словарь русского языка содержит ряд специфических слов, относящихся к областям деятельности, автоматизируемым с помощью системы программ "1С:Предприятие".
Стандартно в состав поставляемых словарей включены словарные базы и словари тезауруса и синонимов русского, украинского и английского языков, которые предоставлены компанией "Информатик".
Поиск можно осуществлять с использованием подстановочных символов ("*"), а также с указанием поисковых операторов ("И", "ИЛИ", "НЕ", "РЯДОМ") и спецсимволов.

Полнотекстовый поиск можно осуществлять в любой конфигурации на платформе 1С:Предприятие 8

Для того чтобы открыть окно управления полнотекстовым поиском необходимо выполнить следующее:

Обычное приложение - пункт меню Операции - Управление полнотекстовым поиском.

Обновить индекс – Создание индекса/Обновление индекса;
Очистить индекс – обнуление индекса(рекомендуется после обновления всех данных);
пункт Разрешить слияние индексов – отвечает за слияние основного и дополнительного индекса.

Специальные операторы, допустимые при задании поискового выражения

Два оператора РЯДОМ

упрощенный. На расстоянии 8 слов друг от друга
РЯДОМ/[+/-]n – поиск данных в одном реквизите на расстоянии n-1 слов между ними.

Знак указывает в каком направлении от первого слова будет поиск второго. (+ - после, - до)

Групповой символ «*» может использоваться только в качестве замены конца слова

Программными средствами и средствами 1с: программирование.

Оператор синонимов «!». Позволяет найти слово и его синонимы

Как программно обновить индекс полнотекстового поиска?

Пример полнотекстового поиска данных

Определение переменной СписокПоиска

Создадим в модуле формы процедуру с таким именем и напишем в ней код,

Теперь необходимо создать обработчики событий нажатия на кнопки ПредыдущаяПорция() и СледующаяПорция().

Еще в этой же категории

Читайте также:

Автоматическое извлечение текстов 1с что это

Специальные операторы, допустимые при задании поискового выражения

Как программно обновить индекс полнотекстового поиска?

Пример полнотекстового поиска данных

Похожие FAQ

Еще в этой же категории

Ключевые слова и Изображения

Слова упорядочены по частоте использования в тексте

Изображения

Решение:

Самый детальный видеокурс по 1С:Документообороту

Объявления

Извлечение текстов в 1С:Документооборот

Как настроить автоматическое извлечение текстов в 1С:Документооборот на сервере приложений 1С?

Специальные операторы, допустимые при задании поискового выражения

Как программно обновить индекс полнотекстового поиска?

Пример полнотекстового поиска данных

Похожие FAQ

Еще в этой же категории