Чем занимается компьютерная лингвистика
По прогнозам компании MarketsandMarkets, мировой рынок обработки естественного языка (NLP) к 2026 году увеличится до 35,1 млрд долларов с ожидаемым среднегодовым темпом роста в 20,3%.
О том, что такое компьютерная лингвистика и NLP, мы рассказывали здесь. В этой статье поговорим о компьютерном лингвисте — специалисте, который разрабатывает программы по обработке языков и текстов. Чем занимается, какими навыками и знаниями должен обладать, как им стать.
Благодарим Елену Герасимову, руководителя отдела дополнительного профессионального образования в Нетологии, ранее руководившую направлением «Аналитика и Data Science», за помощь в подготовке материала.
Елена Герасимова
Руководитель отдела дополнительного профессионального образования в Нетологии
Валерия КОрниенко
Редактор Медиа Нетологии
Какими качествами и навыками должен обладать компьютерный лингвист
Специалист по компьютерной лингвистике сочетает в себе знания языковеда и программиста, поэтому в нём объединяются профессиональные качества, характерные для этих двух, казалось бы, несовместимых специальностей.
Для работы с компьютером и базами данных цифровой лингвист должен обладать математическими и аналитическими способностями, а также уметь обрабатывать большие потоки информации.
Чтобы алгоритмы и нейросети запоминали корректные сведения, от специалиста требуется знание достоверных источников информации для анализа и высокий уровень грамотности для их верной разметки и трактовки.
Компьютерные и естественные языки относятся к знаковым системам. Поэтому компьютерному лингвисту важно уметь одинаково хорошо обращаться с обеими системами и находить в них точки соприкосновения. Желательно знать иностранные языки, а также языки программирования и технологии машинного обучения и ИИ, необходимые для работы: Python и его многочисленные библиотеки и фреймворки, R, специализированные языки Lisp и Prolog, эмбеддинги, нейросети, разметка данных и многое другое.
Цифровые лингвисты часто находятся в связке с разработчиками и дата-сайентистами, которые работают с размеченными данными. Поэтому важно не просто обрабатывать данные, но и формировать методологию, объяснять её принципы коллегам. Для этого пригодятся навыки межотраслевой коммуникации.
Лингвистический аспект профессии компьютерного лингвиста требует наличие таких качеств, как образное мышление, хорошая память, внимательность, усидчивость и терпение. Кроме того, специалист должен уметь ясно формулировать мысли и долго концентрироваться на одной задаче.
Профессия
Компьютерная лингвистика решает задачи, связанные с обработкой естественного языка
Компьютерная лингвистика — это область знаний, которая занимается компьютерным моделированием владения естественным языком и решением прикладных задач автоматической обработки текстов и речи.
История компьютерной лингвистики начинается в 1950-х годах с исследований известного американского лингвиста, публициста и философа Ноама Хомского по формализации структуры естественного языка, а также с пробных экспериментов по машинному переводу и первых ИИ-программ понимания естественного языка.
Можно сказать, что компьютерная лингвистика зародилась в январе 1954 года, когда в Джорджтаунском университете (США) был проведён первый в мире публичный эксперимент по машинному переводу. Инженерам удалось перевести более 60 предложений с русского языка на английский в полностью автоматическом режиме.
В конце 1980-х годов с развитием интернета объём доступных в электронном виде текстов резко увеличился, что привело к качественному скачку в технологиях информационного поиска. Возникли совершенно новые задачи для обработки текстов на естественном языке. Тогда же были созданы первые алгоритмы машинного обучения и системы статистического машинного перевода.
Прорыв в области обработки языка пришёлся на 2010-е годы, когда стали развиваться алгоритмы глубокого обучения. С тех пор появилось и продолжает появляться множество разработок для решения задач компьютерной лингвистики.
Сегодня компьютерные лингвисты разрабатывают программы для обработки естественного языка, инструменты распознавания текста и устной речи, системы перевода, текстовые редакторы, учебные материалы по языку, голосовых помощников, умных чатботов и многое другое.
Карьера
Важные личные качества
Компьютерные лингвисты – это гуманитарии и технари в одном лице. Они педантичны, к работе относятся скрупулезно и с программистской системностью. Обладают логическим мышлением, умением концертировать внимание, усидчивостью, склонностью к активной командной работе. Еще надо уметь выживать в условиях вечной многозадачности.
Краткое описание
Компьютерная лингвистика – это наука с множеством прикладных направлений. Самое крупное связано с обработкой больших данных – Big Data. В Интернете есть терабайты текстов в новостных лентах, соцсетях. Из них надо буквально выуживать определенную информацию, например, отслеживать тематические инфоповоды, чтобы предлагать в рекомендациях публикации, соответствующие вкусам пользователя.
Компьютерная лингвистика помогает решить огромное количество других, не менее важных задач. Компьютерные лингвисты принимают участие в создании алгоритмов и программ, которые используются:
- для извлечения разного рода данных (определенная лексика, формы слов и др.) из огромного массива текстовой информации;
- разработки онлайн-словарей, переводчиков;
- создания голосовых помощников;
- проектирования QA-систем;
- обеспечения безопасности в Интернете и т. д.
Например, алгоритмы распознавания естественно звучащей речи используются в системах умных домов, современных гаджетах. Такие технологии облегчают жизнь обычных пользователей и людей с ограниченными возможностями. К созданию всем известных онлайн-переводчиков и редакторов текста (Word) тоже приложили руку компьютерные лингвисты. В том, что реклама в Интернете выдает вам объявления, исходя из истории вашего поиска, тоже есть их «заслуга».
Курсы
Школа практического китаеведения
Личные качества
- хороший слух и память;
- терпение и усидчивость;
- внимательность;
- хорошая эрудиция;
- аналитические способности;
- организованность, самодисциплина;
- педантичность;
- стремление к профессиональному совершенству;
- внимание к деталям;
- концентрированность внимания;
- способность к образному представлению предметов, процессов и явлений;
- ассоциативность мышления;
- дедуктивное мышление;
- способность запоминать на длительный срок большие объемы информации;
- хорошая зрительная память;
- память на семантику (смысл) текста;
- память на слова и фразы;
- умение грамотно выражать свои мысли;
- упорство;
- усидчивость;
- склонность к исследовательской деятельности.
Компьютерная лингвистика облегчает коммуникацию людям с ограничениями слуха, зрения и речи
Глухота и нарушение слуха — самая распространённая в мире форма так называемой сенсорной инвалидности. Сегодня потерей слуха страдает более 5% населения планеты, или 430 млн человек, и к 2050 году, согласно прогнозу ВОЗ, это число увеличится вдвое.
Проблемы со слухом могут быть вызваны генетическими причинами, осложнениями при рождении, некоторыми инфекционными заболеваниями, хроническими ушными инфекциями, применением определённых лекарств, чрезмерным шумом и старением.
Если говорить о других нарушениях сенсорных функций, таких как слепота и потеря речи, то они также довольно широко распространены среди населения. В связи с этим появляется всё больше технологий, призванных облегчить коммуникацию людям, страдающим дисфункцией сенсорных систем. Среди них самые распространённые – сервисы распознавания и синтеза речи, при создании которых используются методы компьютерной лингвистики.
Какие задачи решает компьютерная лингвистика для помощи людям с ограниченными способностями
- Синтез и распознавание речи при физических или когнитивных нарушениях.
- Преобразование речи для улучшения разборчивости.
- Речевые и языковые технологии для повседневного проживания с уходом и создания среды ограниченно зависимого проживания.
- Новые подходы к моделированию и машинному обучению для ассистивной альтернативной коммуникации.
- Персонализированные голоса для ассистивной коммуникации и синтеза речи на основе ограниченных данных.
- Мультимодальные пользовательские интерфейсы и диалоговые системы, адаптированные к вспомогательным технологиям.
- NLP для приложений когнитивной помощи.
- Представление графической информации для людей с нарушениями зрения.
- Речь и NLP применительно к интерфейсным приложениям.
- Интерфейсы мозг-компьютер для приложений обработки языков.
- Речевые, естественные и мультимодальные интерфейсы для вспомогательных технологий.
- Веб-доступность, упрощение текста, адаптированные режимы представления, такие как речь или спецсимволы.
- Развёртывание инструментов речи и NLP в клиниках.
- Лингвистические ресурсы, схемы корпусов и аннотаций.
Рост рынка NLP сдерживается несколькими факторами, среди которых:
- наличие разрыва в части восприятия, понимания и распознавания текстовой информации между человеком и машиной;
- дефицит кадров и программ подготовки исследователей в области обработки естественных языков;
- сложность машинной обработки и понимания контекста и смысла текстов.
Одним из вызовов в сегменте NLP также остаётся создание универсальных языковых моделей и архитектур, которые будут решать различные задачи работы с текстом при помощи одной системы. Другими словами, эта система будет понимать текстовую информацию и сможет взаимодействовать с человеком так, как это делал бы другой человек.
Что делает компьютерный лингвист
В зависимости от места работы компьютерный лингвист может:
- участвовать в создании QA-систем и алгоритмов развития искусственного интеллекта;
- разрабатывать программы, которые имитируют познавательную языковую деятельность человека: умение читать, воспринимать на слух, говорить, поддерживать диалог, переводить с разных языков;
- создавать алгоритмы систематизации текстов по разным признакам;
- разрабатывать программы для поиска в текстах определенной информации;
- программировать генераторы текстов;
- создавать электронные словари, библиотеки и другие базы хранения лексических и языковых единиц;
- разрабатывать алгоритмы оценки качества машинного перевода, проверки орфографии, сравнения текстов для поиска плагиата и т. д.
Компьютерные лингвисты могут быть аналитиками. Например, применяя алгоритмы обработки текста, они собирают информацию о разных объектах и на основании тональности реакций пользователей в отзывах, постах определяют, нравится новый фильм или нет, за кого на выборах проголосуют пользователи «Твиттера».
Плюсы и минусы профессии
Плюсы:
- Высокая востребованность на рынке труда: возможность самореализации в любых областях - письменный перевод, переводчик-синхронист, устный или последовательный перевод, перевод фильмов, книг, журналов. Человек, владеющий иностранным языком, будет востребован в любой сфере деятельности: в журналистике, туризме, PR-компаниях, менеджменте.
- Владение иностранным языком – залог высокой зарплаты и быстрого карьерного роста.
- Возможность фрилансерской работы.
- Возможность свободного общения с людьми в путешествиях и изучения культуры других стран.
Минусы:
- Некоторые люди могут счесть работу лингвиста-языковеда скучной, так как научные труды по языковедению являются просто систематизацией и переписыванием чужих идей.
- Не все лингвисты склонны к преподавательской деятельности, требующей максимального терпения.
- Работа синхронного переводчика является очень ответственной и напряженной.
- Знание иностранных языков лучше совмещать с другой профессией (юрист, экономист, политолог, журналист).
- Нестабильная загрузка: в разные месяцы объем переводов может отличаться в несколько раз.
- Задержка гонораров, которые поступают не сразу после сдачи материала, а когда приходит оплата от заказчика.
- Иногда к переводчикам предъявляются дополнительные требования: сопровождать делегации по магазинам и барам, выполнять курьерские поручения.
Какие задачи решает компьютерный лингвист
Компьютерный, или цифровой лингвист — это специалист, который разрабатывает алгоритмы и программы, способные воспроизводить когнитивную языковую деятельность человека: умение читать, понимать на слух, говорить, участвовать в диалоге и переводить с одного языка на другой.
Что делает компьютерный лингвист:
- разрабатывает алгоритмы и методы машинного перевода;
- программирует системы извлечения и поиска информации, распознавания речи и других продуктов;
- работает с генераторами текстов;
- объединяет похожие тексты в группы;
- разрабатывает вопросно-ответные системы;
- создаёт программы, которые облегчают коммуникацию людям с ограниченными возможностями.
Помимо этого, цифровой лингвист анализирует, насколько хорошо работают программы по автоматической обработке текста: системы проверки правописания, машинные переводчики или измерители сходства текстов.
Компьютерные лингвисты пользуются спросом среди крупных ИТ-компаний, связанных с обработкой больших объёмов текстовых и речевых данных. Эти специалисты могут работать везде, где требуется применение современных технологий к лингвистическим данным: в финансах, торговле, науке, медиа и здравоохранении.
Сколько зарабатывают компьютерные лингвисты
Размер зарплаты цифрового лингвиста зависит от его опыта и компетенций, а также стремления к постоянному развитию и статуса компании, в которой он работает.
Некоторые работодатели готовы взять новичка без опыта, но с хорошей теоретической подготовкой. В среднем компании ищут специалистов с опытом работы от года.
Многие из нас ежедневно пользуются поисковыми системами, голосовыми помощниками и переводчиками текстов. Появление этих технологий стало возможным благодаря компьютерной лингвистике — области искусственного интеллекта, которая занимается описанием естественных языков при помощи математических моделей.
Рассказываем, что такое компьютерная лингвистика и обработка естественного языка, какие задачи они решают и как помогают расширять возможности людей с инвалидностью.
Благодарим Елену Герасимову, руководителя отдела дополнительного профессионального образования в Нетологии, ранее руководившую направлением «Аналитика и Data Science», за помощь в подготовке материала.
Елена Герасимова
Руководитель отдела дополнительного профессионального образования в Нетологии
Валерия Корниенко
Редактор Медиа Нетологии
В материале:
Наши предки изобрели естественный язык много тысяч лет назад для нужд эволюционирующего общества. Современные естественные языки развиваются по своим законам: в каждую эпоху они служат адекватным средством человеческого общения, выражения чувств, мыслей и действий.
Структура и использование естественного языка основаны на предположении, что участники разговора имеют схожий опыт и знания, а также мировоззрение и манеру поведения. Большим вызовом оказалось применение неограниченного языка для обмена информацией с существом совершенно другой природы ― компьютером.
За последние 200 лет человечество успешно автоматизировало многие задачи с помощью механических и электрических устройств, которые продолжают служить обществу в повседневной жизни. Во второй половине XX века внимание людей переключилось на автоматизацию обработки естественного языка (Natural Language Processing, NLP). С тех пор устройства выполняют не только механические функции, но и интеллектуальные.
У машин появилась новая задача: прочитать текст, проверить его на правильность, выполнить прописанные инструкции или дать разумный ответ, основанный на значении этого текста. За собой люди оставили лишь принятие окончательных решений.
В стремлении заполнить пробел между человеческим общением и компьютерным пониманием NLP опирается на многие дисциплины, в том числе на компьютерную лингвистику (Computational Linguistics, CL).
Рассмотрим, что такое компьютерная лингвистика, какие задачи она решает и как помогает людям с ограниченными возможностями здоровья.
Обучение на компьютерного лингвиста
Для входа в профессию надо пройти подготовку в вузе по направлению «Фундаментальная и прикладная лингвистика» (код: 45.03.03). Профильные ЕГЭ для этой специальности: русский и иностранный язык. Еще на выбор нужно сдавать экзамены по математике, литературе, обществознанию или информатике. Обучение можно продолжить, в магистратуре. Например, в НИУ «ВШЭ» открыта магистерская программа «Компьютерная лингвистика». «Чистые» лингвисты могут пройти дополнительную подготовку на курсах, связанных с AI, ML (машинное обучение, искусственный интеллект) и другими смежными ИТ-областями.
Лингвист (языковед) — это специалист по лингвистике (языкознанию, языковедению), предметом исследования которого являются история образования и развития языков, их структура и характерные особенности. Кстати, в 2021 году центр профориентации ПрофГид разработал точный тест на профориентацию. Он сам расскажет вам, какие профессии вам подходят, даст заключение о вашем типе личности и интеллекте.
Обучение на Лингвиста
Образование в сфере лингвистики состоит из трех направлений:
- преподавательская подготовка;
- теория и практика перевода;
- общественные коммуникации.
Профессиональных лингвистов готовят на филологических (либо специализированных лингвистических) факультетах вузов.
Речевые приложения и системы обмена изображениями: как Data Science помогает людям с вербальными и когнитивными нарушениями
Устройства, которые доступны на рынке
Более узкое применение технологий
- Создание корпусов для малоизученных и узко представленных малых языков. Технология преобразования текста в речь и API хорошо работают для популярных языков. Продукты с голосовой функцией могут создаваться без необходимости преобразования текста в речь — в этом случае используются коммуникационные планшеты.
- Корпуса малых языков должны быть доступны в формате TEI в соответствии со стандартом ISO для разговорной речи.
- Возрождение или обучение исчезающим языкам — помощь людям, которые не говорят на языке: исследователям, историкам, медицинскому персоналу и путешественникам.
TEI (Text Encoding Initiative) — формат кодирования текстов, который используется во многих проектах по созданию цифровых ресурсов.
Международные стандарты ISO — это свод критериев оценки бизнеса и технологий, который используется всеми игроками мирового рынка в качестве эталонной основы стандартизации.
Профессия
Откуда придет профессия
Первый машинный перевод был сделан в ходе «Джорджтаунского эксперимента» 1954 года. Тогда компьютер IBM 701 перевел с русского языка на английский более 60 предложений. Так что можно говорить о том, что цифровая лингвистика де-факто существует почти 70 лет. В 1960-х годах этот раздел лингвистики появился в качестве составной части специальности «Теоретическая и прикладная лингвистика» в МГУ имени М.В. Ломоносова. Хотя инструменты и технологии за эти годы изменились, суть работы специалистов осталась прежней.
Место работы
- институты, факультеты и университеты лингвистического образования, средние и высшие учебные заведения, курсы лингвистов;
- учебные заведения;
- научно-исследовательские институты;
- бюро переводов;
- редакции журналов и газет;
- приемные в различных компаниях (секретарь-референт);
- работа на дому по свободному графику (переводы) или индивидуальная работа с учениками;
- литературные союзы;
- фирмы, разрабатывающие лингвистический софт;
- отделы, управления внешних связей фирм, компаний, высших учебных заведений, краевых, областных и городских администраций;
- отделы информации, информационно-аналитические службы предприятий, компаний, банков, институтов академии наук, исследовательских центров;
- библиотеки и отделы иностранной литературы;
- музеи, музейные объединения;
- дирекция и управление в международных конгресс-центрах (конференц-центрах);
- дирекция постоянно действующих региональных, федеральных и международных выставок и ярмарок;
- гостиницы и гостиничные комплексы;
- отечественные и зарубежные туристические фирмы, агентства, бюро;
- пресс-центры, радио- и телецентры;
- международные ассоциации и объединения;
- международные фонды;
- издательства.
Зарплата лингвиста на май 2022
Как правило, у лингвистов не возникает проблем с трудоустройством. В настоящее время лингвисты востребованы в сфере информационных технологий, средствах массовых коммуникаций, связях с общественностью и рекламе. Лингвист может сделать успешную карьеру и в научной области, добившись успеха в исследовательских разработках или повышения по административной линии. Например, став заведующим кафедры или деканом факультета. Зарплата лингвиста зависит от рода его деятельности и квалификации.
В науке заработки невысокие. Лингвистам выгоднее использовать свои навыки в бизнесе, устроившись представителями в международные компании, референтами и переводчиками. Для перевода иностранных статей, составления PR-презентации или проведения рекламных акций для иностранных инвесторов. Такая работа оплачивается высоко — до 70 тысяч рублей.
Лингвистика — наука о естественном человеческом языке, его структуре и функционировании
В составе лингвистики выделяют несколько разделов:
- Фонология и графика изучают воспринимаемую слухом или зрением сторону языковых знаков, а семантика — напротив, их смысловую, понимаемую и переводимую часть.
- Морфология занимается внутренней структурой и внешней формой слов речи, включая части речи и их категории.
- Синтаксис изучает структуру предложений, правила сочетаемости и порядка следования слов в предложении, а также общие его свойства как единицы языка.
- Прагматика изучает отношения знаков к субъектам, которые их производят и интерпретируют.
Эти разделы соответствуют этапам автоматического анализа текста, который заключается в извлечении грамматической и семантической информации из заданного текста на естественном языке.
К шести годам ребёнок достигает того уровня развития в познании языка, который полностью охватывает первые три ступени и частично — четвёртую и пятую. ИИ и машинное обучение пока наиболее предсказуемо продуктивны на четвёртом, синтаксическом уровне, в то время как ожидания пользователей находятся на уровне прагматики
Компьютерная лингвистика образовалась на стыке лингвистики, математики, информатики и искусственного интеллекта.
Здесь видно, как на пересечении различных дисциплин образуются новые направления. Например, психолингвистика возникла на стыке психологии и лингвистики
Однако наиболее тесно наука связана с областью ИИ, в рамках которой разрабатываются программные модели отдельных интеллектуальных функций.
Ключевые навыки цифрового лингвиста
Естественные и компьютерные языки роднит то, что они все относятся к знаковым системам. Поэтому хороший цифровой лингвист — это человек, который умеет работать с обеими системами и находить в них точки соприкосновения. Желательно, чтобы он владел не только английским, но и другими иностранными языками.
Для такого специалиста крайне важно обладать системным мышлением, хорошей памятью и способностью долго концентрироваться на монотонных задачах, поскольку ему предстоит обрабатывать большие массивы данных. Чтобы алгоритмы и нейросети запоминали верную информацию, от цифрового лингвиста требуется знание достоверных источников данных для анализа и безупречная грамотность для их верной разметки и трактовки.
Кроме того, цифровому лингвисту предстоит много общаться с разработчиками и дата-сайентистами, которые будут работать с размеченными данными. Поэтому ему важно не просто работать с данными, но и создавать методологию, объяснять ее принципы коллегам. Хорошие навыки межотраслевой коммуникации в этом плане будут не лишними.
Плюсы и минусы профессии
Плюсы:
Минусы:
- Компьютерная лингвистика – непростая прикладная наука, для работы нужна длительная подготовка.
- Немногие могут быть сразу и гуманитариями до мозга костей, и продвинутыми программистами. Работа компьютерного лингвиста предполагает именно такой трудно достижимый симбиоз.
- Деятельность связана с работой за компьютером, поэтому лингвисты подвержены риску ряда профессиональных заболеваний: проблемы со зрением, опорно-двигательным аппаратом.
Компьютерная лингвистика как инструмент извлечения нужной информации из огромного объёма текста
Необходимость интеллектуальной автоматической обработки текста возникает в основном по двум причинам, обе из которых связаны с количеством производимых текстов.
Миллионы людей, которые работают с текстами во всём мире, не имеют достаточно знаний и образования для соответствия современным стандартам обработки документов. Например, секретарь в офисе не может каждый раз принимать во внимание сотни различных правил, необходимых для написания хорошего делового письма в другую компанию, особенно когда он пишет не на своём родном языке. Поэтому дешевле один раз научить машину делать эту работу, чем многократно учить каждое новое поколение пользователей компьютеров делать это самостоятельно.
Во многих случаях, чтобы принять обоснованное решение или найти информацию, нужно прочитать, понять и взять в расчёт огромное количество текстов. Чтобы найти в интернете информацию об ожидаемом спросе на конкретный продукт в следующем месяце, специалистам пришлось бы читать тексты по этой теме в течение ста лет. В таких ситуациях использование компьютера — единственный возможный способ выполнить задачу.
Поскольку объектом обработки компьютерной лингвистики выступают тексты на естественном языке, её развитие невозможно представить без базовых знаний в области общей лингвистики.
Адаптивные технологии расширяют возможности людей с инвалидностью
Компьютерная лингвистика — основа адаптивных технологий, которые создаются для помощи людям с ограниченными возможностями здоровья.
По данным Всемирной организации здравоохранения, проблема инвалидности затрагивает более 1 млрд человек — примерно 15% населения мира. Количество жителей нашей планеты с ограниченными возможностями неуклонно растёт из-за хронических заболеваний и демографического старения населения.
Согласно конвенции ООН, к людям с инвалидностью относятся лица с устойчивыми физическими, психическими, интеллектуальными или сенсорными нарушениями, которые при взаимодействии человека с различными барьерами мешают его полному и эффективному участию в жизни общества наравне с другими.
Разработки в области компьютерного анализа и обработки естественного языка призваны облегчить жизнь этой категории населения. Особенно это касается тех, у кого имеются физические, когнитивные и сенсорные нарушения. Новые адаптивные технологии значительно расширяют возможности людей с инвалидностью и предоставляют им большую автономию — на работе, на улице и дома.
Кто такой цифровой лингвист
Цифровой (или компьютерный) лингвист — это специалист, который обрабатывает данные на естественных для алгоритмов машинного обучения языках, в том числе нейросетей. Благодаря такой обработке и последующей работе дата-сайентистов машины «учатся» распознавать человеческий язык и делать автоматические переводы с одного человеческого языка на другой, выявлять ошибки в текстах, превращать устную речь в письменную, правильно реагировать на голосовые команды, отвечать на вопросы в чат-ботах.
Например, чтобы научить алгоритмы находить ошибки, цифровой лингвист обрабатывает огромный массив текстовых данных, в котором размечает правильные, и неправильные варианты использования слов. Он работает над созданием электронных словарей и тезаурусов, оптическим распознаванием символом — когда машина считывает текстовые данные с изображений и делает их доступными для редактирования.
Благодаря работе цифровых лингвистов существует и пополняется Национальный корпус русского языка — открытая база русскоязычных текстов с более чем 900 млн слов, которую используют для языковых исследований.
Известные русские лингвисты
Сергей Иванович Ожегов – автор Словаря русского языка, Лев Щерба, Василий Бондалетов, Виктор Виноградов, Филипп Фортунатов, Дмитрий Ушаков, Олег Трубачев, Вячеслав Иванов (знающий более 100 языков).
Eyegaze Edge
До 2030 года в России действует Национальная стратегия развития ИИ. Чтобы ее выполнить, требуются не только разработчики, но и цифровые лингвисты. Рассказываем, кто это такие, почему они важны и как освоить эту профессию
Python-разработчик с нуля
Узнать больше
- Освоите один из самых универсальных языков программирования
- Добавите в портфолио три полностью работоспособных проекта
- Получите опыт работы в команде — выполните совместный проект с одногруппниками
Тренды и направления профессии
Если говорить о задачах синтеза речи, машинного перевода и развитии диалоговых систем, то в них устойчивый тренд — достижение максимальной естественности языка при минимальных затратах.
Например, переводчики используют CAT-программы, которые сокращают время работы с помощью машинных переводов или технологии Translation Memory ™. Благодаря последней алгоритмы запоминают исходный и переведенный тексты и при загрузке следующих ищет совпадения, чтобы автоматически их перевести.
Уже есть языковые модели вроде GPT-3 и YaLM, которые пишут полные предложения, подсчитывая из терабайтов данных их наиболее вероятный ответ на введенные в специальное поле слова. Они используются для поисковиков, чат-ботов и создания простых текстов.
Сейчас такой настройкой машин в основном занимается человек, но в будущем и алгоритмы будут обучать друг друга естественным языкам. Ведь искусственный интеллект «Google Переводчика» уже научился самостоятельно искать перевод слов.
Также цифровая лингвистика — основа технологий для людей с ограниченными возможностями. Перевод устной речи в текст и автоматическое чтение готовых материалов, распознавание голосовых команд компьютерами, смартфонами и других «умных» устройств — направления, востребованные в здравоохранении.
По мнению продуктового аналитика 65apps и прикладного лингвиста Анны Куликовой, главная задача цифровой лингвистики сегодня — подготовка оцифрованных лингвистических данных высокого качества, особенно для языков, отличных от английского, и внедрение лингвистических технологий в производственные процессы.
«На мой взгляд, современные алгоритмы обработки естественного языка дают более чем хороший результат, в том числе в смысле «естественности». Тест Тьюринга, когда человек не может отличить, с кем он разговаривает — с человеком или компьютерной программой, уже давно и не раз был пройден. Когда-то именно он был сформулирован в качестве основного критерия способности машины мыслить, однако восстания машин мы до сих пор не наблюдаем. Новые разработки при прочих равных условиях дают прирост в сотые доли процентов точности, в то время как хорошо подобранные и грамотно размеченные лингвистические данные являются определяющим фактором эффективности работы компьютерных программ. Думаю, что общество сначала должно суметь «переварить» то, что предложила ему наука, прежде чем наука сможет совершить новый качественный скачок».
Если говорить об экономической составляющей, то по прогнозам мировой рынок обработки естественного языка (Natural Language Processing, NLP) увеличится к 2026 году до $35 млрд с ожидаемым среднегодовым темпом роста в 20,3%.
Компьютерный лингвист разрабатывает алгоритмы распознавания звучащей и письменной речи, QA-систем, систем машинного перевода, создает инструменты для разработки чат-ботов, голосовых ассистентов и т. д. Профессия подходит тем, кому одновременно нравится изучать и языки – иностранные и русский, литературу, и математику с информатикой. Для входа в профессию нужно получить высшее образование. Кстати, в 2021 году центр профориентации ПрофГид разработал точный тест на профориентацию. Он сам расскажет вам, какие профессии вам подходят, даст заключение о вашем типе личности и интеллекте.
Очки для незрячих и гайд по цифровой доступности: разработки, которые уже помогают людям с ограниченными возможностями
Синтез речи и генерирование текста — ключевые задачи компьютерной лингвистики
Перед компьютерной лингвистикой стоят задачи лингвистического обеспечения процессов сбора, накопления, обработки и поиска информации. Самые важные из них:
- Распознавание и синтез речи.
- Генерирование текста.
- Автоматический перевод текстов.
- Создание и использование электронных корпусов текстов.
- Извлечение информации из текста.
- Автореферирование.
- Автоматическое обнаружение и исправление ошибок при вводе текста на компьютере.
- Создание вопросно-ответных систем.
- Создание электронных словарей, тезаурусов, онтологий.
Особенности профессии
Компьютерный лингвист обрабатывает данные на языках алгоритмов машинного обучения – чаще всего это Python, R, Java, JavaScript, C++. Например, отмечает в больших массивах текстов верные и ошибочные варианты употребления слов, создает тезаурусы для поисковых систем и электронные словари. После этого за дело берутся датасайентисты и разработчики, чтобы машины научились распознавать человеческие языки и автоматически переводить с одного на другой, находить ошибки в текстах, преобразовывать устную речь в письменную, вести диалоги в чат-ботах, откликаться на голосовые команды.
Общее у компьютерных и естественных языков то, что это знаковые системы. Компьютерному лингвисту надо уметь одинаково хорошо работать сразу с двумя и видеть точки их пересечения.
Компьютерные лингвисты работают в связке с датасайентистами и девелоперами, которые пользуются данными, размеченными лингвистами. Поэтому им надо не просто обрабатывать текстовые данные – им нужно формировать методологию, разъяснять коллегам ее принципы. Для этого пригодятся навыки межпрофессиональной коммуникации.
Деятельность компьютерных лингвистов имеет важное социальное значение, ее результаты применяются в сфере Artificial Intelligence, машинного обучения, Big Data.
Data Scientist
Узнать больше
- Научитесь обрабатывать текстовые данные, чтобы передавать их в алгоритмы машинного обучения
- Освоите необходимый математический аппарат для продуктивной работы с моделями данных и нейронными сетями
- Узнаете, как структурировать результаты, формулировать гипотезы и находить области применения машинного обучения
Краткое описание
Современный мир стремится к глобализации, и в условиях усиливающихся международных контактов профессия лингвиста приобретает основополагающее значение. Работа лингвиста включает в себя самые разнообразные функции и зависит от места работы:
- в научно-исследовательском институте он занимается составлением словарей, справочников, разработкой научно-технической и специальной терминологии, совершенствованием алфавита и орфографии, научными исследованиями в области фонетики, морфологии, синтаксиса, изучением диалектов и разговорного языка и т.д.
- на преподавательской работе лингвист обучает языку учеников;
- лингвисты-переводчики занимаются непосредственно переводами – устными, синхронными, письменными.
Существует несколько классификаций лингвистов:
по изучаемому языку:
- специалисты по конкретному языку — например, русисты, англисты, татароведы, японисты, арабисты и т. д.;
- специалисты по группе языков — германисты, романисты, тюркологи, монголоведы и т. д.;
- специалисты по языкам региона — американисты, африканисты и т. д.
по теме или разделу лингвистики:
- фонетисты;
- морфологи;
- синтаксисты;
- семантисты и т. д.
по теоретическому направлению:
- формалисты;
- функционалисты;
- когнитивисты;
- структуралисты и др.
Специфика профессии
Работа лингвиста может заключаться в следующих видах деятельности:
- преподавательская деятельность;
- консультации на правах эксперта;
- научно-исследовательская деятельность;
- подготовка специализированных статей, учебников, альманахов и т.д.;
- содействие в создании компьютерного софта.
NLU и NLG: подходы для решения задач компьютерной лингвистики
Перед NLP стоит две крупные задачи — генерация естественного языка (Natural Language Generation, NLG) и его понимание (Natural Language Understanding, NLU).
Генерация языка — функция, которая помогает создавать, например, короткие фрагменты текста для чатботов или настраиваемое содержимое для приложений. NLG можно сравнить с процессом, который используют люди, когда они превращают идеи в письмо или речь.
Понимание естественного языка позволяет получать команды и запросы от человека в удобной для него форме, а также сортировать информацию, выделять главное, проводить анализ содержания текста и его эмоциональной окраски.
Читайте также: