Что такое лингвистический процессор

Семантико-ориентированный лингвистический процессор основан на специальным образом организованных лингвистических знаниях - в виде семантических сетей. Более подробное их описание требует введения в продукционные грамматики и значительного дополнительного материала, что выходит за рамки объема данной статьи. [4]

В лингвистическом процессоре используется синтакти-ко-семантическое кодирование слов исходного предложения с его последующим грамматическим анализом. [5]

В лингвистическом процессоре происходит морфологический, синтаксический и семантический анализ текста и вопросов, относящихся к нему. На выходе лингвистического процессора получается внутреннее представление текста и вопросов, с которыми может работать блок вывода. Используя специальные процедуры ( логические модели описания предметной области, дедуктивные выводы на знаниях), этот блок формирует ответы. Другими словами, уже понимание на первом уровне требует от ИнС определенных средств представления данных и вывода на этих данных. [7]

Как правило, лингвистические процессоры на базе ATNL являются достаточно сложными рекурсивными программами. Поэтому одним из главных факторов увеличения эффективности отладки ATNL-программ является отладка на уровне входного языка. [8]

Рассматриваются принципы построения лингвистического процессора , использующего лингвистические знания ( в виде семантических сетей) для глубинного анализа предложений русского языка с их отображением на предметные знания - семантические сети. [9]

В системе ДИЛОС целью работы лингвистического процессора ( ЛингП) является перевод предложений с ЕЯ на внутренний язык представления - Ф - язык. [10]

ПИИ входят три основных блока: лингвистический процессор ( ЛП), блок регламентированного общения ( БРО) и блок когнитивной графики. [11]

Перевод во внутреннее представление заканчивает работу лингвистического процессора . На каждом из этапов анализа система может встретиться с конструкциями, не предусмотренными при ее начальном заполнении. В этих случаях анализ прекращается и организуется диалог с пользователем по фиксированному сценарию для выяснения возможности дальнейшего продолжения анализа. Однако в большинстве случаев проще бывает переформулировать запрос. [12]

Рассмотрим более подробно работу основных модулей лингвистического процессора . [13]

Основанием для включения в состав ЛО АБИС лингвистических процессоров служит наличие потребности в увеличении пропускной способности таких служб, как служба индексирования, служба переводов и словарно-терминологическая служба. [14]

Выше уже говорилось, что основная задача лингвистического процессора заключается в переводе исходного запроса во внутреннее формальное его представление. [15]

В статье был проведен анализ работы лингвистических процессоров при обработке текстов на естественном языке, обозначена важность повышения эффективности алгоритмов обработки неструктурированной информации, объём которой увеличивается с каждым годом. Определены задачи, для решения которых служат современные лингвистические процессоры. Были подробно рассмотрены этапы процесса анализа и синтеза текстов на естественном языке при помощи морфологического, синтаксического и семантического анализаторов. Определены задачи и функции анализаторов на каждом из этапов. Рассмотрены наиболее частые способы обработки текста морфологического, синтаксического и семантического анализаторов. Предложены алгоритмы анализа и синтеза текстов на естественном языке. Выявлены факторы, определяющие качество лингвистического процессора. Обозначена актуальность разработки и совершенствования лингвистических процессоров при работе над созданием искусственного интеллекта.

1. Волкова И.А., Головин И.Г. Лингвистический процессор русского языка: анализ устойчивых словосочетаний // Научные труды SWorld. – 2015. – Т. 2, № 4 (41). – С. 36–46.

2. Ермаков А.Е. Автоматическое извлечение фактов из текстов досье. Опыт установления анафорических связей // Труды международной конференции по компьютерной лингвистике и интеллектуальным технологиям «Диалог 2007» – Бекасово, 2007, – С. 171–177.

3. Золотарев О.В., Козеренко Е.Б., Шарнин М.М. Принципы построения моделей бизнес-процессов предметной области на основе обработки текстов естественного языка // Вестник РосНОУ. – 2014. – № 4. – С. 82–88.

Исследования показывают, что совокупный объем данных в 2016 году составил 16 Збайт, а к 2025–му эта цифра увеличится до 163 Збайт. На более чем 80 % такая информация является неструктурированной, то есть представляет собой тексты на естественном языке (ЕЯ). Человеку становится с каждым годом труднее ориентироваться в таких огромных потоках поступающей информации.

Многие пользователи имеют определенные служебные обязанности, при выполнении которых не обойтись без постоянного поиска информации в сети Интернет. Обычно необходима вполне конкретная информация, которая называется информационными объектами. Эти объекты различны по своим типам, которые интересуют определённые категории пользователей. Поиск этих объектов в потоке текстов на ЕЯ во многих областях отнимает много времени, что тормозит решение конкретных прикладных задач. Может возникнуть и необходимость в переводе текстов с одного ЕЯ на другой, в конвертации/деконвертации различных языков, создании компьютерных учебников, размеченных корпусов текстов, программ анализа, синтеза, аннотирования и реферирования текстов.

Ключевым элементом информационных систем, ориентированных на ЕЯ, является лингвистический процессор. Он облегчает обмен информацией между экспертной системой и пользователем-человеком.

Лингвистическим процессором называется формальная лингвистическая модель, реализованная на ЭВМ, которая способна понимать и производить тексты на ЕЯ. Основной задачей для лингвистического процессора является извлечение требуемого смысла из предложения или же текста и его интерпретация при помощи набора формальных средств, понятных машине. Система включает в себя три уровня преобразования информации: морфологический, синтаксический и семантический, каждый из них определяется набором правил. Эти компоненты обеспечивают преобразование текста в набор морфологических, синтаксических и семантических структур и обратно. Обработка текста при помощи лингвистического процессора всегда происходит от простого, легко формализуемого уровня к сложному. В первую очередь осуществляется морфологический анализ, то есть анализ строения слов с подробным описанием их морфологических характеристик. Затем следует синтаксический анализ, который формально описывает порядок слов в предложении и синтаксические связи между ними, указывая слова с описанием частей речи и их набора грамматических характеристик, особое внимание уделяя отношениям синтаксического подчинения. Зачастую синтаксический анализ заканчивается построением синтаксического древа каждого анализируемого предложения. Третьим и самым сложным этапом в процессе анализа информации является построение семантической структуры предложения или текста. Чаще всего она представляется так же древом зависимостей, в котором указываются предметные имена с дугами семантического подчинения (атрибутивные, конъюнкция, дизъюнкция, равенство, неравенство и т.д.).

Для морфологического анализа и морфологического синтеза служит один из компонентов лингвистического процессора – морфологический анализатор. Он позволяет преобразовать морфологические структуры исходной информации в последовательность входящих в текст словоформ с указанием их грамматических характеристик, в том наборе, который характерен для данной части речи. Морфологический синтез же выполняет обратный процесс, то есть преобразует лексемы с указанием их грамматических характеристик в выходной текст, определяя все возможные словоформы по заданной морфологической структуре.

Промежуточным звеном между морфологическим и семантическим анализаторами является синтаксический анализатор. С одной стороны, он отвечает за переход морфологических структур ряда исследуемых словоформ в синтаксическую структуру, с другой – является способом дальнейшего смыслового представления текста. Синтаксический анализатор – программа, осуществляющая сопоставление линейной последовательности лексем с их грамматическими характеристиками. Важнейшей задачей любого синтаксического анализатора является построение синтаксической структуры входного предложения на естественном языке, используя при этом морфологическую информацию о лексемах, полученную при морфологическом анализе, и сведений из словаря. Так же, как и морфологический, синтаксический анализатор включает в себя синтаксический анализ и синтаксический синтез. Синтаксический анализ представляет собой процедуру преобразования морфологической структуры входного предложения на естественном языке в синтаксическую структуру или синтаксическое древо, а синтаксический синтез – это обратное преобразование синтаксической структуры в морфологическую.

Для одновременного морфологического и синтаксического анализа текстов на ЕЯ могут использоваться парсеры, которые позволяют разбить текст на слова и предложения, определить части речи, падеж, род, числа и других грамматические признаки, учитывая контекст слова, привести слово к его начальной форме, определить синтаксические связи слов в предложении, найти подлежащее, сказуемое и т.д. Кроме того, можно включить режим опечаток, чтобы морфологический анализатор исправлял допущенные в тексте орфографические ошибки [1–3].

Семантический анализатор – это программа переработки синтаксической структуры запроса в семантическую при помощи концептуальных графов. Концептуальным графом является способ семантической или, иначе, понятийной репрезентации ситуаций и знаний в моделях понимания естественного языка. Узлами графа становятся те лексические единицы, которые выражают категории и понятия, и соединяются между собой формальными и ассоциативными связями. Ориентация связей в графе всегда направлена сверху вниз – от концептов более высокого уровня обобщения к тем концептам, которые их характеризуют. Элементарный смысл определяется как пара соединенных соседних узлов графа. Подобные связи не всегда именуются, иногда они только фиксируют факт некоторого взаимодействия двух слов (студент-институт, берёза – дерево). Граф состоит из множества связанных между собой элементарных смыслов, которые вступают в дозволенные им комбинации, выявляя лексически активные и пассивные валентности того или иного слова. Связная часть графа, соединяющая два узла, образует подграф. Процесс создания смысловой категории начинается с того, что из ядерной конструкции предложения выделяется так называемое «ключевое слово». Семантический анализатор является итоговым этапом процесса обработки материала. По завершению работы лингвистического процессора проанализированная информация передается на этап индексирования.

Таким образом, можно составить следующие два алгоритма обработки текста на ЕЯ: алгоритм анализа текста (рис. 1) и алгоритм синтеза текста (рис. 2).

Рис. 1. Алгоритм анализа

Рис. 2. Алгоритм синтеза

Как видно, синтез текста на естественном языке является обратным алгоритмом анализа текста на естественном языке.

Качество лингвистического процессора в настоящее время определяется рядом важных факторов. А именно, возможностью выделения информационных объектов и связей между ними, избирательностью правил и процедур идентификации, возможностью и трудоемкостью настройки на нужный корпус текстов естественного языка, а также настройки на новые информационные объекты, скоростью, с которой работает лингвистический процессор, временем, которое потребуется для анализа текста.

Разработка лингвистических процессоров является ещё одним шагом к созданию искусственного интеллекта, ведь создание идеального алгоритма точного анализа текста на естественном, человеческом языке станет ключом к пониманию того, как устроен наш язык, а значит и наше мышление.

Указанные функции реализуются с помощью трех основных процессоров: лингвистического, структурного и целеполагающего. Лингвистический процессор предназначен для перевода ситуаций с естественного языка на семантический и обратно. Основными функциями процессора являются: морфологический, синтаксический и семантический анализ ситуаций. Анализ проблемы машинного перевода, проведенный в [3], показывает, что создание универсального лингвистического процессора является делом далекого будущего. Практически наиболее перспективным путем является разработка проблемно-ориентированных процессоров, задаваемых на множестве структурно-ограниченных ситуаций. [32]

Лингвистический процессор позволяет ввести в словарь синонимы. Это дает возможность, с одной стороны, сократить размер запросов, а с другой - сделать язык общения с системой более гибким. Например, синонимом характеристики Наименование АСУТП может служить ее обозначение АСУ1 2, где АСУ 1-наименование соответствующей ОХТ, а 2-порядковый номер характеристики в ОХТ. В качестве синонима операции Сколько в словарь могут быть введены формы Какое количество или Общее число. Таким образом, одни абоненты, редко вступающие в контакт с системой, могут пользоваться пространными формулировками, а часто обращающиеся к ней-удобными для себя сокращениями. [33]

Системы с использованием естественного языка в качестве входного языка предполагают общение с пользователем на естественном языке без каких-либо ограничений. Создание таких систем предполагает наличие универсального лингвистического процессора с эффективным синтаксическим и семантическим анализатором и является исключительно сложной задачей. Аналоги таких систем в настоящее время находятся на начальных стадиях разработки. [37]

Такие ДС обычно строятся на языках, близких к естественным. К ним относятся дескрипторные системы, использующие лингвистический процессор , который осуществляет морфологический анализ формируемого запроса; тезаурусные системы с априори заданным графом связи дескрипторов, осуществляющие морфологический и синтаксический анализ сформированного запроса. [38]

При сомнениях в правильности сгенерированной АССУ на основе переработки ЗН и данных о ситуациях на ГТС управляющего решения ЛПР имеет возможность с помощью блока объяснения - Н получить описание хода рассуждений при выводе, а также после внесения дополнительных данных или знаний повторить вывод. Общение ЛПР и АССУ осуществляется с помощью лингвистического процессора , обеспечивающего общение ЛПР и ЭВМ на ОЕЯ. [39]

В то же время, многие наработки, апробированные при проектировании АСНТИ, являются весьма актуальными для АБИС. Это относится, в частности, к методам проектирования информационного и организационно-технологического обеспечения, лингвистических процессоров и других компонентов АБИС. [40]

МИВОС реализация ее программного обеспечения предполагает программную реализацию систем представления знании, используемых в данной системе. Как указывалось выше, одной из них является ATNL-система представления, ориентированная на реализацию лингвистических процессоров языков общения конкретных прикладных систем . [41]

Параметр ALL вводит все известные системе режимы прокрутки во всех указанных состояниях. Если последовательность состояний не задана, производится сплошная прокрутка ATNL-программы во всех состояниях сети отлаживаемого лингвистического процессора . Отсутствие параметра ALL указывает на выборочную отладку, режимы которой конкретизируются в последующих директивах. [42]

Таким образом, процесс общения человека с компьютером одновременно и очень сложный, и простой. Его сложность связана с необходимостью создания и функционирования больших и громоздких программ трансляторов, меню, лингвистических процессоров и планировщиков. А простота должна быть внешней, когда удается упрятать провода вовнутрь, чтобы пользователь видел в компьютере не автомат, а добросовестного и заботливого помощника. [43]

В автоматизированных системах АСП выполняется, как правило, человеком с учетом правил формализации данных, установленных в соответствующих системах, с привлечением технических средств для выполнения рутинных процессов и отдельных операций. К процессам указанного класса могут быть отнесены авто индексирование, построение частотных словарей [34] и некоторые др., выполняемые так называемыми лингвистическими процессорами . [44]

В работе [11] высказаны некоторые соображения, оказавшие влияние на авторскую интерпретацию термина понимание. В работах 13 обсуждаются те трудности, которые возникают при попытках выявить семантическую структуру текстов на естественных языках, а в работах 16 перечисляется еще ряд трудностей, оказывающих существенное влияние на сложность процедур универсального лингвистического процессора . Им, в частности, показано, что для фразы Щербы: Глокая куздра штеко бодланула бокра и курдячит бокренка приписываемая этой фразе семантика, по-видимому, кроется в аналогии слова бодланула со словом боднула. Именно это заставляет людей видеть в этой абстрактной фразе синтаксическую конструкцию типа: Злая корова сильно боднула быка и гонит теленка, а, скажем, не конструкцию типа: Слушая брата, крепко психанула сестра и молчит девчонка. Системы, в основе которых лежит идея опецификационных списков, весьма многочисленны. Некоторые другие интересные аспекты, связанные с материалом гл. [45]

Языковые процессоры , осуществляющие трансляцию, компиляцию, конвертирование, ассемблирование, интерпретацию, называются соответственно трансляторами, компиляторами, конверторами, ассемблерами, интерпретаторами. [1]

Языковые процессоры предназначены для преобразования информации, выраженной на входном языке, в рабочую программу. Они могут генерировать рабочую программу способами компиляции или интерпретации, их соответственно называют компиляторами и интерпретаторами. [2]

Иногда языковые процессоры выделяют в самостоятельную часть ППП, называемую языковой подсистемой. [3]

Описана необходимость создания языкового процессора при использовании языка представления фактографических данных контекстного типа. Определены задачи, решаемые языковым процессором. Указаны принципы построения программного обеспечения языкового процессора. Дана краткая характеристика разработанного программного обеспечения. Программный комплекс написан с использованием Ш1 / 1 под управлением ОС ЕС ЭВМ. [4]

В случае построения специализированного языкового процессора время ответа для задач, не связанных с компиляцией, может измениться лишь из-за снижения нагрузки на основной процессор. Поэтому изменение пропускной способности более точно отражает изменение производительности системы. [5]

Одной из основных функций языкового процессора является анализ входного текста программ, представляющего собой последовательность символов. [6]

Если в системе есть семейство языковых процессоров , то библиотека сортировки может поддерживаться на любом языке этого семейства. [7]

Операторы языка выполняются с помощью языкового процессора или мониторной системы, В качестве языка, на котором программируется этот процессор, удобно применять макроязык большой ЭВМ, который используется для реализации САПР. В состав указанных языков входят команды операционной системы. Таким образом, языковый процессор как бы погружен в операционную систему используемой ЭВМ. Языковый процессор активизируется ( вводится в оперативную память с дисковых носителей) после вызова САПР. И в дальнейшем все общение с оператором осуществляется через нее. [8]

В состав РАФОС входит набор языковых процессоров . [9]

В состав РАФОС входит набор языковых процессоров - систем программирования. [10]

Формальным определением семантики языка программирования является языковой процессор . Языковой процессор - это программа или техническое устройство, выполняющие трансляцию или интерпретацию. [11]

Данная иерархическая система не заканчивается виртуальной машиной языкового процессора . Прикладные системы образуют следующий уровень и представляют математическое обеспечение виртуальных машин. [12]

В состав ОС ДВК входит широкий набор языковых процессоров - систем программирования, в частности язык макроассемблер. Язык макроассемблер является машинно-ориентированным языком, программы на котором имеют доступ ко всем средствам, предоставляемым системой ОС ДВК. [13]

В случае реализации языка программирования в режиме интерпретации выделение языкового процессора означает, что ему передается целиком исходная программа на выполнение. Языковый процессор производит синтаксический анализ программы и выполняет предписываемые ею действия. Выполнение программы он производит либо собственными силами, либо с использованием запросов к другим компонентам вычислительной системы. Первый случай, по существу, совпадает с реализацией в режиме компиляции. [15]

ЛИНГВИСТИЧЕСКИЕ ПРОЦЕССОРЫ И ОБРАБОТКА ТЕКСТОВ НА ЕСТЕСТВЕННЫХ ЯЗЫКАХ

Текст работы размещён без изображений и формул.
Полная версия работы доступна во вкладке "Файлы работы" в формате PDF

Исследования показывают, что совокупный объем данных в 2016 году составил 16 Збайт, а к 2025-му эта цифра увеличится до 163 Збайт. На более чем 80% такая информация является неструктурированной, то есть представляет собой тексты на естественном языке (ЕЯ). Человеку становится с каждым годом труднее ориентироваться в таких огромных потоках поступающей информации.

Семантический анализатор – это программа переработки синтаксической структуры запроса в семантическую при помощи концептуальных графов.Концептуальным графомявляетсяспособ семантической или, иначе, понятийнойрепрезентации ситуаций и знаний в моделях понимания естественного языка. Узлами графа становятся те лексические единицы, которые выражают категории и понятия, и соединяются между собой формальными и ассоциативными связями. Ориентация связей в графе всегда направлена сверху вниз – от концептов более высокого уровня обобщения к тем концептам, которые их характеризуют. Элементарный смысл определяется как пара соединенных соседних узлов графа. Подобные связи не всегда именуются, иногда они только фиксируют факт некоторого взаимодействия двух слов (студент-институт,берёза–дерево). Граф состоит из множества связанных между собой элементарных смыслов, которые вступают в дозволенные им комбинации, выявляя лексически активные и пассивные валентности того или иного слова. Связная часть графа, соединяющая два узла, образует подграф. Процесс создания смысловой категории начинается с того, что из ядерной конструкции предложения выделяется так называемое «ключевое слово». Семантический анализатор является итоговым этапом процесса обработки материала. По завершению работы лингвистического процессора проанализированная информация передается на этап индексирования.

Таким образом, можно составить следующие два алгоритма обработки текста на ЕЯ: алгоритм анализа текста (рисунок 1) и алгоритм синтеза текста (рисунок 2.).

Рисунок 1 – Алгоритм анализа Рисунок 2 – Алгоритм синтеза

Волкова И.А., Головин И.Г. Лингвистический процессор русского языка: анализ устойчивых словосочетаний // Научные труды SWorld. – 2015. – Т. 2, № 4 (41). – С. 36-46

Ермаков А.Е. Автоматическое извлечение фактов из текстов досье. Опыт установления анафорических связей // Труды международной конференции по компьютерной лингвистике и интеллектуальным технологиям «Диалог 2007» – Бекасово, 2007, – С. 171-177.

Золотарев О.В., Козеренко Е.Б., Шарнин М.М. Принципы построения моделей бизнес-процессов предметной области на основе обработки текстов естественного языка//Вестник РосНОУ. – 2014. – № 4. – С. 82-88.

Читайте также: