Что такое компьютерная лингвистика
занимается вопросами комплексного решения таких научно-технических проблем, как автоматический информационный поиск, аннотирование и реферирование деловых, научно-технических и общественно-политических текстов и их машинный перевод, создание автоматизированных обучающих систем и обучающих лингвистических автоматов. Наука сравнительно молодая. Зародилась в середине 40-х гг. XX века вместе с первыми идеями по машинному переводу и оформилась как наука в середине 50-х гг. вместе с первыми результатами опытов по машинному переводу (1954—1955) В настоящее время она уже накопила достаточный арсенал знаний, взаимодействуя с такими науками, как кибернетика, статистика, математика, теория перевода, психология, педагогика, методика и др. По своей функционально-коммуникативной направленности объединяет три основных тесно взаимосвязанных и интегрирующих направления: статистическую (вычислительную) лингвистику, инженерную лингвистику и алгоритмическую (программирующую) лингвистику (компьютерную лингводидактику).
Толковый переводоведческий словарь. - 3-е издание, переработанное. — М.: Флинта: Наука . Л.Л. Нелюбин . 2003 .
Содержание
Смотреть что такое "компьютерная лингвистика" в других словарях:
Компьютерная лингвистика — Лингвистика … Википедия
Лингвистика — Лингвистика … Википедия
лингвистика когнитивная — ЛИНГВИСТИКА КОГНИТИВНАЯ направление в языкознании, сложившееся в 70 х гг. 20 в и приобретшее широкую популярность в США и в Европе. У многих авторов (преимущественно в США) принято также название «когнитивная грамматика», обусловленное… … Энциклопедия эпистемологии и философии науки
компьютерная лингводидактика — то же, что алгоритмическая лингвистика … Толковый переводоведческий словарь
Прикладная лингвистика — Лингвистика … Википедия
Математическая лингвистика — (также вычислительная лингвистика или компьютерная лингвистика) направление искусственного интеллекта, которое ставит своей целью использование математических моделей для описания естественных языков. Компьютерная лингвистика частично… … Википедия
Контрастивная лингвистика — Лингвистика … Википедия
Генеративная лингвистика — Лингвистика … Википедия
Когнитивная лингвистика — Лингвистика … Википедия
Прескриптивизм (лингвистика) — У этого термина существуют и другие значения, см. Прескриптивизм. … Википедия
На Хабре уже был пост о Технопарке, и даже рассказы о курсах (1, 2), которые в нем проходят. Сегодня мы публикуем первую часть мастер-класса, который для студентов Технопарка провел Андрей Андрианов из ABBYY.
Для начала не лишним будет вспомнить, что такое морфология, а также какое отношение она имеет к лингвистике. За этим предлагаю пройти под кат к содержимому первого поста серии.
Многим из вас со школы знакомо предложение «Глокая куздра штеко будланула бокра и курдячит бокрёнка». Хотя мы не знаем, что скрывается за всеми словами этого предложения (за исключением союза «и»), мы можем предположить, что главное действующее лицо здесь куздра. Причем это не какая-то обычная куздра, а глокая. Что она сделала? Будланула. Как она это сделала? Штеко. Кого она будланула? Бокра. Кроме того, она совершает какие-то действия над бокрёнком.
Эту фразу придумал академик Лев Щерба, а академик Александр Потебня на примере этой фразы демонстрировал своим студентам, как определенную часть семантики мы можем извлечь из морфологии слова, из его словоизменения, из окончаний. Мы не знаем лексического значения слов — не понимаем, какие объекты названы — но мы можем уловить их грамматическое значение. Именно о грамматических значениях я бы хотел рассказать в этой статье.
Морфология – это раздел лингвистики, который изучает 4 вещи
Части речи
Как только вы прочитали предложение: «Глокая куздра штеко будланула бокра и курдячит бокрёнка», вы сразу выловили подлежащее и два сказуемых — «будланула» и «курдячит». Разные части речи в разных языках могут по-разному образовывать предложения.
Словоизменение
Увидев слово «будланула», даже не зная, что оно означает, вы уже можете его просклонять, проспрягать. Вам понятно, что инфинитив этого слова — «будлануть». Можно изменить род (будланул, будлануло), а можно поменять время (будланёт, будланёшь). То, как слова изменяются, в каких формах определяют то или иное грамматическое значение, изучает второй подраздел морфологии — словоизменение.
Словообразование
Встретив бокра и бокрёнка в одном предложении, вы сразу же себе представили, что бокрёнок – это детеныш бокра, как слонёнок и слон. Может быть, это просто мелкая копия большого бокра — ну, не выдался персонаж, например, ростом.
Мы часто образуем новые слова с помощью суффиксов (например, уменьшительно-ласкательных), для того чтобы поменять какие-то свойства объекта; можно даже изменить часть речи. Например, есть слово «лопата». От этого слова при желании можно образовать глагол: – лопатить. Носители языка быстро поймут его значение, а вот те, кто изучает русский язык как иностранный, будут долго разгадывать, что же это за слово, и почему его нет в словаре. Довольно часто мы образуем глаголы от свойств разных животных и наделяем эти глаголы какими-то свойствами.
Грамматическое значение
Я уже упоминал, что у слова есть два значения – лексическое (что слово означает по словарю), и грамматическое (что слово означает в предложении). Какую-то семантику можно вынести и из грамматического значения. Например, слово «будланула». Очевидно, что это глагол. Из этого следует, что слово «будланула» означает действие. Кроме того, мы можем сказать, что это глагол в прошедшем времени, единственном числе, женского рода, совершенного вида. Все это дает вам дополнительную информацию. Например, в русском языке часто женский род ассоциируется с женским полом. Мы не можем объяснить, почему вилка женского рода, а стакан мужского, но почему девушка поднялась, а мальчик поднялся, нам понятно. И нам будет резать слух, если кто-то ошибется в выборе рода.
Ещё со школьной парты мы представляем грамматическое значение в виде набора граммем. Родительный падеж, прошедшее время, единственное число – все это разные граммемы. Граммемы можно сгруппировать по категориям. Именительный, родительный, дательный, винительный и предложный – это категория падежа. Одна и та же форма не может иметь две граммемы одной категории. Если мы говорим «будланула», то мы имеем в виду только граммему единственное число. В одной и той же форме «будланула» мы не можем зашифровать одновременно две формы глагола. Не может быть существительного одновременно и в именительном и в дательном падеже. Формы могут совпадать, как они часто совпадают у именительного и винительного падежа, однако их нужно различать. Это еще одна из задач морфологии.
Прикладные задачи лингвистики
Компьютерная лингвистика – это часть искусственного интеллекта. Цель компьютерной лингвистики – создание алгоритмов, с помощью которых машина будет понимать смысл текста или слов, которые поступают ей из различных источников ввода – звук, изображение, текстовая информация.
- Обработка естественного языка
- Словари и автоматический перевод
- Извлечение фактов из текста и автореферирование
- Системы управления знаниями, экспертные системы
- Вопросно-ответные системы
- Распознавание текста (OCR)
- Распознавание речи (ASR)
- Синтез речи
Обработка естественного языка
Наиболее широко компьютерная лингвистика применяется при обработке естественного языка. Обработка решает самые разные задачи, в числе которых составление словарей и автоматический перевод.
Другие технологии, связанные с обработкой естественного языка, также интересны как с теоретической, так и с практической точки зрения. Извлечение фактов из текста и автореферирование позволяют автоматически категоризировать большие объемы текста с большей точностью, чем методы машинного обучения. Системы управления знаниями, экспертные и вопросно-ответные системы в основе своей также имеют извлечение знаний из текста.
Распознавание текста (OCR)
При распознавании текста применяются другие технологии. А в данном случае нас интересует, является слово словарным или нет. Когда распознается текст, мы часто имеем дело с нечеткостью изображения, и алгоритмы бинаризации, которая происходит перед распознаванием текста, не могут дать результат 100%. В связи с этим генерируется масса гипотез о том, что же там все-таки написано. Иногда невозможно отличить букву «н» от «м» или «н» от «к», и тогда в дело вступает компьютерная лингвистика, а если точнее – морфология. Морфология подсказывает, есть такое слово в языке или нет.
Распознавание речи (ASR)
Распознавание речи работает схожим образом. Из набора звуков строятся гипотезы относительно конкретных букв, которые произносит человек. Возьмем слово «корова». Мы говорим «карова», а пишем «корова». Здесь важно понять, есть ли в русском языке слово «карова» или нет.
Синтез речи
Синтез речи – еще одна интересная технология, которая может использоваться как самостоятельно, так и в рамках автоматического перевода. Это уже синтетическая задача: нам необходимо проанализировать текст на одном естественном языке, определить его смысл, и, исходя из полученного результата, сгенерировать текст на другом естественном языке.
На этом вводная часть закончена. В следующем посте поговорим о роли морфологии в компьютерной лингвистике.
Компью́терная лингви́стика (также: математи́ческая или вычисли́тельная лингви́стика, англ. computational linguistics ) — направление искусственного интеллекта, которое ставит своей целью использование математических моделей для описания естественных языков. Компьютерная лингвистика также пересекается с исследованием «искусственного интеллекта».
Компьютерная лингвистика частично пересекается с обработкой естественных языков. Однако в последней акцент делается не на абстрактные модели, а на прикладные методы описания и обработки языка для компьютерных систем.
Полем деятельности компьютерных лингвистов является разработка алгоритмов и прикладных программ для обработки языковой информации.
Синтез речи и генерирование текста — ключевые задачи компьютерной лингвистики
Перед компьютерной лингвистикой стоят задачи лингвистического обеспечения процессов сбора, накопления, обработки и поиска информации. Самые важные из них:
- Распознавание и синтез речи.
- Генерирование текста.
- Автоматический перевод текстов.
- Создание и использование электронных корпусов текстов.
- Извлечение информации из текста.
- Автореферирование.
- Автоматическое обнаружение и исправление ошибок при вводе текста на компьютере.
- Создание вопросно-ответных систем.
- Создание электронных словарей, тезаурусов, онтологий.
Какие задачи решает компьютерный лингвист
Компьютерный, или цифровой лингвист — это специалист, который разрабатывает алгоритмы и программы, способные воспроизводить когнитивную языковую деятельность человека: умение читать, понимать на слух, говорить, участвовать в диалоге и переводить с одного языка на другой.
Что делает компьютерный лингвист:
- разрабатывает алгоритмы и методы машинного перевода;
- программирует системы извлечения и поиска информации, распознавания речи и других продуктов;
- работает с генераторами текстов;
- объединяет похожие тексты в группы;
- разрабатывает вопросно-ответные системы;
- создаёт программы, которые облегчают коммуникацию людям с ограниченными возможностями.
Помимо этого, цифровой лингвист анализирует, насколько хорошо работают программы по автоматической обработке текста: системы проверки правописания, машинные переводчики или измерители сходства текстов.
Компьютерные лингвисты пользуются спросом среди крупных ИТ-компаний, связанных с обработкой больших объёмов текстовых и речевых данных. Эти специалисты могут работать везде, где требуется применение современных технологий к лингвистическим данным: в финансах, торговле, науке, медиа и здравоохранении.
Адаптивные технологии расширяют возможности людей с инвалидностью
Компьютерная лингвистика — основа адаптивных технологий, которые создаются для помощи людям с ограниченными возможностями здоровья.
По данным Всемирной организации здравоохранения, проблема инвалидности затрагивает более 1 млрд человек — примерно 15% населения мира. Количество жителей нашей планеты с ограниченными возможностями неуклонно растёт из-за хронических заболеваний и демографического старения населения.
Согласно конвенции ООН, к людям с инвалидностью относятся лица с устойчивыми физическими, психическими, интеллектуальными или сенсорными нарушениями, которые при взаимодействии человека с различными барьерами мешают его полному и эффективному участию в жизни общества наравне с другими.
Разработки в области компьютерного анализа и обработки естественного языка призваны облегчить жизнь этой категории населения. Особенно это касается тех, у кого имеются физические, когнитивные и сенсорные нарушения. Новые адаптивные технологии значительно расширяют возможности людей с инвалидностью и предоставляют им большую автономию — на работе, на улице и дома.
Eyegaze Edge
По прогнозам компании MarketsandMarkets, мировой рынок обработки естественного языка (NLP) к 2026 году увеличится до 35,1 млрд долларов с ожидаемым среднегодовым темпом роста в 20,3%.
О том, что такое компьютерная лингвистика и NLP, мы рассказывали здесь. В этой статье поговорим о компьютерном лингвисте — специалисте, который разрабатывает программы по обработке языков и текстов. Чем занимается, какими навыками и знаниями должен обладать, как им стать.
Благодарим Елену Герасимову, руководителя отдела дополнительного профессионального образования в Нетологии, ранее руководившую направлением «Аналитика и Data Science», за помощь в подготовке материала.
Елена Герасимова
Руководитель отдела дополнительного профессионального образования в Нетологии
Валерия КОрниенко
Редактор Медиа Нетологии
Какими качествами и навыками должен обладать компьютерный лингвист
Специалист по компьютерной лингвистике сочетает в себе знания языковеда и программиста, поэтому в нём объединяются профессиональные качества, характерные для этих двух, казалось бы, несовместимых специальностей.
Для работы с компьютером и базами данных цифровой лингвист должен обладать математическими и аналитическими способностями, а также уметь обрабатывать большие потоки информации.
Чтобы алгоритмы и нейросети запоминали корректные сведения, от специалиста требуется знание достоверных источников информации для анализа и высокий уровень грамотности для их верной разметки и трактовки.
Компьютерные и естественные языки относятся к знаковым системам. Поэтому компьютерному лингвисту важно уметь одинаково хорошо обращаться с обеими системами и находить в них точки соприкосновения. Желательно знать иностранные языки, а также языки программирования и технологии машинного обучения и ИИ, необходимые для работы: Python и его многочисленные библиотеки и фреймворки, R, специализированные языки Lisp и Prolog, эмбеддинги, нейросети, разметка данных и многое другое.
Цифровые лингвисты часто находятся в связке с разработчиками и дата-сайентистами, которые работают с размеченными данными. Поэтому важно не просто обрабатывать данные, но и формировать методологию, объяснять её принципы коллегам. Для этого пригодятся навыки межотраслевой коммуникации.
Лингвистический аспект профессии компьютерного лингвиста требует наличие таких качеств, как образное мышление, хорошая память, внимательность, усидчивость и терпение. Кроме того, специалист должен уметь ясно формулировать мысли и долго концентрироваться на одной задаче.
Профессия
Очки для незрячих и гайд по цифровой доступности: разработки, которые уже помогают людям с ограниченными возможностями
Смотреть что такое "компьютерная лингвистика" в других словарях:
Компьютерная лингвистика — Лингвистика … Википедия
Лингвистика — Лингвистика … Википедия
лингвистика когнитивная — ЛИНГВИСТИКА КОГНИТИВНАЯ направление в языкознании, сложившееся в 70 х гг. 20 в и приобретшее широкую популярность в США и в Европе. У многих авторов (преимущественно в США) принято также название «когнитивная грамматика», обусловленное… … Энциклопедия эпистемологии и философии науки
компьютерная лингводидактика — то же, что алгоритмическая лингвистика … Толковый переводоведческий словарь
Прикладная лингвистика — Лингвистика … Википедия
Математическая лингвистика — (также вычислительная лингвистика или компьютерная лингвистика) направление искусственного интеллекта, которое ставит своей целью использование математических моделей для описания естественных языков. Компьютерная лингвистика частично… … Википедия
Контрастивная лингвистика — Лингвистика … Википедия
Генеративная лингвистика — Лингвистика … Википедия
Когнитивная лингвистика — Лингвистика … Википедия
Прескриптивизм (лингвистика) — У этого термина существуют и другие значения, см. Прескриптивизм. … Википедия
На Хабре уже был пост о Технопарке, и даже рассказы о курсах (1, 2), которые в нем проходят. Сегодня мы публикуем первую часть мастер-класса, который для студентов Технопарка провел Андрей Андрианов из ABBYY.
Для начала не лишним будет вспомнить, что такое морфология, а также какое отношение она имеет к лингвистике. За этим предлагаю пройти под кат к содержимому первого поста серии.
Многим из вас со школы знакомо предложение «Глокая куздра штеко будланула бокра и курдячит бокрёнка». Хотя мы не знаем, что скрывается за всеми словами этого предложения (за исключением союза «и»), мы можем предположить, что главное действующее лицо здесь куздра. Причем это не какая-то обычная куздра, а глокая. Что она сделала? Будланула. Как она это сделала? Штеко. Кого она будланула? Бокра. Кроме того, она совершает какие-то действия над бокрёнком.
Эту фразу придумал академик Лев Щерба, а академик Александр Потебня на примере этой фразы демонстрировал своим студентам, как определенную часть семантики мы можем извлечь из морфологии слова, из его словоизменения, из окончаний. Мы не знаем лексического значения слов — не понимаем, какие объекты названы — но мы можем уловить их грамматическое значение. Именно о грамматических значениях я бы хотел рассказать в этой статье.
Морфология – это раздел лингвистики, который изучает 4 вещи
Части речи
Как только вы прочитали предложение: «Глокая куздра штеко будланула бокра и курдячит бокрёнка», вы сразу выловили подлежащее и два сказуемых — «будланула» и «курдячит». Разные части речи в разных языках могут по-разному образовывать предложения.
Словоизменение
Увидев слово «будланула», даже не зная, что оно означает, вы уже можете его просклонять, проспрягать. Вам понятно, что инфинитив этого слова — «будлануть». Можно изменить род (будланул, будлануло), а можно поменять время (будланёт, будланёшь). То, как слова изменяются, в каких формах определяют то или иное грамматическое значение, изучает второй подраздел морфологии — словоизменение.
Словообразование
Встретив бокра и бокрёнка в одном предложении, вы сразу же себе представили, что бокрёнок – это детеныш бокра, как слонёнок и слон. Может быть, это просто мелкая копия большого бокра — ну, не выдался персонаж, например, ростом.
Мы часто образуем новые слова с помощью суффиксов (например, уменьшительно-ласкательных), для того чтобы поменять какие-то свойства объекта; можно даже изменить часть речи. Например, есть слово «лопата». От этого слова при желании можно образовать глагол: – лопатить. Носители языка быстро поймут его значение, а вот те, кто изучает русский язык как иностранный, будут долго разгадывать, что же это за слово, и почему его нет в словаре. Довольно часто мы образуем глаголы от свойств разных животных и наделяем эти глаголы какими-то свойствами.
Грамматическое значение
Я уже упоминал, что у слова есть два значения – лексическое (что слово означает по словарю), и грамматическое (что слово означает в предложении). Какую-то семантику можно вынести и из грамматического значения. Например, слово «будланула». Очевидно, что это глагол. Из этого следует, что слово «будланула» означает действие. Кроме того, мы можем сказать, что это глагол в прошедшем времени, единственном числе, женского рода, совершенного вида. Все это дает вам дополнительную информацию. Например, в русском языке часто женский род ассоциируется с женским полом. Мы не можем объяснить, почему вилка женского рода, а стакан мужского, но почему девушка поднялась, а мальчик поднялся, нам понятно. И нам будет резать слух, если кто-то ошибется в выборе рода.
Ещё со школьной парты мы представляем грамматическое значение в виде набора граммем. Родительный падеж, прошедшее время, единственное число – все это разные граммемы. Граммемы можно сгруппировать по категориям. Именительный, родительный, дательный, винительный и предложный – это категория падежа. Одна и та же форма не может иметь две граммемы одной категории. Если мы говорим «будланула», то мы имеем в виду только граммему единственное число. В одной и той же форме «будланула» мы не можем зашифровать одновременно две формы глагола. Не может быть существительного одновременно и в именительном и в дательном падеже. Формы могут совпадать, как они часто совпадают у именительного и винительного падежа, однако их нужно различать. Это еще одна из задач морфологии.
Прикладные задачи лингвистики
Компьютерная лингвистика – это часть искусственного интеллекта. Цель компьютерной лингвистики – создание алгоритмов, с помощью которых машина будет понимать смысл текста или слов, которые поступают ей из различных источников ввода – звук, изображение, текстовая информация.
- Обработка естественного языка
- Словари и автоматический перевод
- Извлечение фактов из текста и автореферирование
- Системы управления знаниями, экспертные системы
- Вопросно-ответные системы
- Распознавание текста (OCR)
- Распознавание речи (ASR)
- Синтез речи
Обработка естественного языка
Наиболее широко компьютерная лингвистика применяется при обработке естественного языка. Обработка решает самые разные задачи, в числе которых составление словарей и автоматический перевод.
Другие технологии, связанные с обработкой естественного языка, также интересны как с теоретической, так и с практической точки зрения. Извлечение фактов из текста и автореферирование позволяют автоматически категоризировать большие объемы текста с большей точностью, чем методы машинного обучения. Системы управления знаниями, экспертные и вопросно-ответные системы в основе своей также имеют извлечение знаний из текста.
Распознавание текста (OCR)
При распознавании текста применяются другие технологии. А в данном случае нас интересует, является слово словарным или нет. Когда распознается текст, мы часто имеем дело с нечеткостью изображения, и алгоритмы бинаризации, которая происходит перед распознаванием текста, не могут дать результат 100%. В связи с этим генерируется масса гипотез о том, что же там все-таки написано. Иногда невозможно отличить букву «н» от «м» или «н» от «к», и тогда в дело вступает компьютерная лингвистика, а если точнее – морфология. Морфология подсказывает, есть такое слово в языке или нет.
Распознавание речи (ASR)
Распознавание речи работает схожим образом. Из набора звуков строятся гипотезы относительно конкретных букв, которые произносит человек. Возьмем слово «корова». Мы говорим «карова», а пишем «корова». Здесь важно понять, есть ли в русском языке слово «карова» или нет.
Синтез речи
Синтез речи – еще одна интересная технология, которая может использоваться как самостоятельно, так и в рамках автоматического перевода. Это уже синтетическая задача: нам необходимо проанализировать текст на одном естественном языке, определить его смысл, и, исходя из полученного результата, сгенерировать текст на другом естественном языке.
На этом вводная часть закончена. В следующем посте поговорим о роли морфологии в компьютерной лингвистике.
Компью́терная лингви́стика (также: математи́ческая или вычисли́тельная лингви́стика, англ. computational linguistics ) — направление искусственного интеллекта, которое ставит своей целью использование математических моделей для описания естественных языков. Компьютерная лингвистика также пересекается с исследованием «искусственного интеллекта».
Компьютерная лингвистика частично пересекается с обработкой естественных языков. Однако в последней акцент делается не на абстрактные модели, а на прикладные методы описания и обработки языка для компьютерных систем.
Полем деятельности компьютерных лингвистов является разработка алгоритмов и прикладных программ для обработки языковой информации.
Лингвистика — наука о естественном человеческом языке, его структуре и функционировании
В составе лингвистики выделяют несколько разделов:
- Фонология и графика изучают воспринимаемую слухом или зрением сторону языковых знаков, а семантика — напротив, их смысловую, понимаемую и переводимую часть.
- Морфология занимается внутренней структурой и внешней формой слов речи, включая части речи и их категории.
- Синтаксис изучает структуру предложений, правила сочетаемости и порядка следования слов в предложении, а также общие его свойства как единицы языка.
- Прагматика изучает отношения знаков к субъектам, которые их производят и интерпретируют.
Эти разделы соответствуют этапам автоматического анализа текста, который заключается в извлечении грамматической и семантической информации из заданного текста на естественном языке.
К шести годам ребёнок достигает того уровня развития в познании языка, который полностью охватывает первые три ступени и частично — четвёртую и пятую. ИИ и машинное обучение пока наиболее предсказуемо продуктивны на четвёртом, синтаксическом уровне, в то время как ожидания пользователей находятся на уровне прагматики
Компьютерная лингвистика образовалась на стыке лингвистики, математики, информатики и искусственного интеллекта.
Здесь видно, как на пересечении различных дисциплин образуются новые направления. Например, психолингвистика возникла на стыке психологии и лингвистики
Однако наиболее тесно наука связана с областью ИИ, в рамках которой разрабатываются программные модели отдельных интеллектуальных функций.
Компьютерная лингвистика облегчает коммуникацию людям с ограничениями слуха, зрения и речи
Глухота и нарушение слуха — самая распространённая в мире форма так называемой сенсорной инвалидности. Сегодня потерей слуха страдает более 5% населения планеты, или 430 млн человек, и к 2050 году, согласно прогнозу ВОЗ, это число увеличится вдвое.
Проблемы со слухом могут быть вызваны генетическими причинами, осложнениями при рождении, некоторыми инфекционными заболеваниями, хроническими ушными инфекциями, применением определённых лекарств, чрезмерным шумом и старением.
Если говорить о других нарушениях сенсорных функций, таких как слепота и потеря речи, то они также довольно широко распространены среди населения. В связи с этим появляется всё больше технологий, призванных облегчить коммуникацию людям, страдающим дисфункцией сенсорных систем. Среди них самые распространённые – сервисы распознавания и синтеза речи, при создании которых используются методы компьютерной лингвистики.
Какие задачи решает компьютерная лингвистика для помощи людям с ограниченными способностями
- Синтез и распознавание речи при физических или когнитивных нарушениях.
- Преобразование речи для улучшения разборчивости.
- Речевые и языковые технологии для повседневного проживания с уходом и создания среды ограниченно зависимого проживания.
- Новые подходы к моделированию и машинному обучению для ассистивной альтернативной коммуникации.
- Персонализированные голоса для ассистивной коммуникации и синтеза речи на основе ограниченных данных.
- Мультимодальные пользовательские интерфейсы и диалоговые системы, адаптированные к вспомогательным технологиям.
- NLP для приложений когнитивной помощи.
- Представление графической информации для людей с нарушениями зрения.
- Речь и NLP применительно к интерфейсным приложениям.
- Интерфейсы мозг-компьютер для приложений обработки языков.
- Речевые, естественные и мультимодальные интерфейсы для вспомогательных технологий.
- Веб-доступность, упрощение текста, адаптированные режимы представления, такие как речь или спецсимволы.
- Развёртывание инструментов речи и NLP в клиниках.
- Лингвистические ресурсы, схемы корпусов и аннотаций.
Рост рынка NLP сдерживается несколькими факторами, среди которых:
- наличие разрыва в части восприятия, понимания и распознавания текстовой информации между человеком и машиной;
- дефицит кадров и программ подготовки исследователей в области обработки естественных языков;
- сложность машинной обработки и понимания контекста и смысла текстов.
Одним из вызовов в сегменте NLP также остаётся создание универсальных языковых моделей и архитектур, которые будут решать различные задачи работы с текстом при помощи одной системы. Другими словами, эта система будет понимать текстовую информацию и сможет взаимодействовать с человеком так, как это делал бы другой человек.
Data Scientist
Узнать больше
- Научитесь обрабатывать текстовые данные, чтобы передавать их в алгоритмы машинного обучения
- Освоите необходимый математический аппарат для продуктивной работы с моделями данных и нейронными сетями
- Узнаете, как структурировать результаты, формулировать гипотезы и находить области применения машинного обучения
Компьютерная лингвистика решает задачи, связанные с обработкой естественного языка
Компьютерная лингвистика — это область знаний, которая занимается компьютерным моделированием владения естественным языком и решением прикладных задач автоматической обработки текстов и речи.
История компьютерной лингвистики начинается в 1950-х годах с исследований известного американского лингвиста, публициста и философа Ноама Хомского по формализации структуры естественного языка, а также с пробных экспериментов по машинному переводу и первых ИИ-программ понимания естественного языка.
Можно сказать, что компьютерная лингвистика зародилась в январе 1954 года, когда в Джорджтаунском университете (США) был проведён первый в мире публичный эксперимент по машинному переводу. Инженерам удалось перевести более 60 предложений с русского языка на английский в полностью автоматическом режиме.
В конце 1980-х годов с развитием интернета объём доступных в электронном виде текстов резко увеличился, что привело к качественному скачку в технологиях информационного поиска. Возникли совершенно новые задачи для обработки текстов на естественном языке. Тогда же были созданы первые алгоритмы машинного обучения и системы статистического машинного перевода.
Прорыв в области обработки языка пришёлся на 2010-е годы, когда стали развиваться алгоритмы глубокого обучения. С тех пор появилось и продолжает появляться множество разработок для решения задач компьютерной лингвистики.
Сегодня компьютерные лингвисты разрабатывают программы для обработки естественного языка, инструменты распознавания текста и устной речи, системы перевода, текстовые редакторы, учебные материалы по языку, голосовых помощников, умных чатботов и многое другое.
Истоки
Математическая лингвистика является ветвью науки искусственного интеллекта. Всё началось в Соединённых Штатах Америки, в 1950-х годах. С изобретением транзистора и появлением нового поколения компьютеров, а также первых языков программирования, начались эксперименты с машинным переводом, особенно русских научных журналов. В 1960-х годах подобные исследования проводились и в СССР (например, статья о переводе с русского на армянский в сб. «Проблемы кибернетики» за 1964 год). Однако качество машинного перевода до сих пор сильно уступает качеству перевода, произведённого человеком. Были созданы первые системы искусственного интеллекта, такие как SHGSL. Они, правда, устарели, но пользуются популярностью у студентов и научных сотрудников Академий Наук, занимающихся компьютерной лингвистикой.
С 15 по 21 мая 1958 г. в I МГПИИЯ состоялась первая Всесоюзная конференция по машинному переводу. Оргкомитет возглавляли В. Ю. Розенцвейг и ответственный секретарь Оргкомитета Г. В. Чернов. Полностью программа конференции опубликована в сборнике «Машинный перевод и прикладная лингвистика», вып. 1, 1959 г. (он же «Бюллетень Объединения по машинному переводу № 8»). Как вспоминает В. Ю. Розенцвейг, опубликованный сборник тезисов конференции попал в США и произвел там большое впечатление.
В апреле 1959 года в Ленинграде состоялось I Всесоюзное совещание по математической лингвистике, созванное Ленинградским университетом и комитетом прикладной лингвистики. Главным организатором Совещания был Н. Д. Андреев. В Совещании приняли участие ряд видных математиков, в частности, С. Л. Соболев, Л. В. Канторович (впоследствии — Нобелевский лауреат) и А. А. Марков (последние двое выступали в прениях). В. Ю. Розенцвейг выступил в день открытия Совещания с программным докладом «Общая лингвистическая теория перевода и математическая лингвистика».
Многие из нас ежедневно пользуются поисковыми системами, голосовыми помощниками и переводчиками текстов. Появление этих технологий стало возможным благодаря компьютерной лингвистике — области искусственного интеллекта, которая занимается описанием естественных языков при помощи математических моделей.
Рассказываем, что такое компьютерная лингвистика и обработка естественного языка, какие задачи они решают и как помогают расширять возможности людей с инвалидностью.
Благодарим Елену Герасимову, руководителя отдела дополнительного профессионального образования в Нетологии, ранее руководившую направлением «Аналитика и Data Science», за помощь в подготовке материала.
Елена Герасимова
Руководитель отдела дополнительного профессионального образования в Нетологии
Валерия Корниенко
Редактор Медиа Нетологии
В материале:
Наши предки изобрели естественный язык много тысяч лет назад для нужд эволюционирующего общества. Современные естественные языки развиваются по своим законам: в каждую эпоху они служат адекватным средством человеческого общения, выражения чувств, мыслей и действий.
Структура и использование естественного языка основаны на предположении, что участники разговора имеют схожий опыт и знания, а также мировоззрение и манеру поведения. Большим вызовом оказалось применение неограниченного языка для обмена информацией с существом совершенно другой природы ― компьютером.
За последние 200 лет человечество успешно автоматизировало многие задачи с помощью механических и электрических устройств, которые продолжают служить обществу в повседневной жизни. Во второй половине XX века внимание людей переключилось на автоматизацию обработки естественного языка (Natural Language Processing, NLP). С тех пор устройства выполняют не только механические функции, но и интеллектуальные.
У машин появилась новая задача: прочитать текст, проверить его на правильность, выполнить прописанные инструкции или дать разумный ответ, основанный на значении этого текста. За собой люди оставили лишь принятие окончательных решений.
В стремлении заполнить пробел между человеческим общением и компьютерным пониманием NLP опирается на многие дисциплины, в том числе на компьютерную лингвистику (Computational Linguistics, CL).
Рассмотрим, что такое компьютерная лингвистика, какие задачи она решает и как помогает людям с ограниченными возможностями здоровья.
Компьютерная лингвистика как инструмент извлечения нужной информации из огромного объёма текста
Необходимость интеллектуальной автоматической обработки текста возникает в основном по двум причинам, обе из которых связаны с количеством производимых текстов.
Миллионы людей, которые работают с текстами во всём мире, не имеют достаточно знаний и образования для соответствия современным стандартам обработки документов. Например, секретарь в офисе не может каждый раз принимать во внимание сотни различных правил, необходимых для написания хорошего делового письма в другую компанию, особенно когда он пишет не на своём родном языке. Поэтому дешевле один раз научить машину делать эту работу, чем многократно учить каждое новое поколение пользователей компьютеров делать это самостоятельно.
Во многих случаях, чтобы принять обоснованное решение или найти информацию, нужно прочитать, понять и взять в расчёт огромное количество текстов. Чтобы найти в интернете информацию об ожидаемом спросе на конкретный продукт в следующем месяце, специалистам пришлось бы читать тексты по этой теме в течение ста лет. В таких ситуациях использование компьютера — единственный возможный способ выполнить задачу.
Поскольку объектом обработки компьютерной лингвистики выступают тексты на естественном языке, её развитие невозможно представить без базовых знаний в области общей лингвистики.
Речевые приложения и системы обмена изображениями: как Data Science помогает людям с вербальными и когнитивными нарушениями
Устройства, которые доступны на рынке
Более узкое применение технологий
- Создание корпусов для малоизученных и узко представленных малых языков. Технология преобразования текста в речь и API хорошо работают для популярных языков. Продукты с голосовой функцией могут создаваться без необходимости преобразования текста в речь — в этом случае используются коммуникационные планшеты.
- Корпуса малых языков должны быть доступны в формате TEI в соответствии со стандартом ISO для разговорной речи.
- Возрождение или обучение исчезающим языкам — помощь людям, которые не говорят на языке: исследователям, историкам, медицинскому персоналу и путешественникам.
TEI (Text Encoding Initiative) — формат кодирования текстов, который используется во многих проектах по созданию цифровых ресурсов.
Международные стандарты ISO — это свод критериев оценки бизнеса и технологий, который используется всеми игроками мирового рынка в качестве эталонной основы стандартизации.
Профессия
Сколько зарабатывают компьютерные лингвисты
Размер зарплаты цифрового лингвиста зависит от его опыта и компетенций, а также стремления к постоянному развитию и статуса компании, в которой он работает.
Некоторые работодатели готовы взять новичка без опыта, но с хорошей теоретической подготовкой. В среднем компании ищут специалистов с опытом работы от года.
NLU и NLG: подходы для решения задач компьютерной лингвистики
Перед NLP стоит две крупные задачи — генерация естественного языка (Natural Language Generation, NLG) и его понимание (Natural Language Understanding, NLU).
Генерация языка — функция, которая помогает создавать, например, короткие фрагменты текста для чатботов или настраиваемое содержимое для приложений. NLG можно сравнить с процессом, который используют люди, когда они превращают идеи в письмо или речь.
Понимание естественного языка позволяет получать команды и запросы от человека в удобной для него форме, а также сортировать информацию, выделять главное, проводить анализ содержания текста и его эмоциональной окраски.
Python-разработчик с нуля
Узнать больше
- Освоите один из самых универсальных языков программирования
- Добавите в портфолио три полностью работоспособных проекта
- Получите опыт работы в команде — выполните совместный проект с одногруппниками
Читайте также: