Цифровой лингвист что это за профессия

Опубликовано: 26.09.2024

Компьютерный лингвист – относительно новая профессия. Она находится на стыке математики и лингвистики, требует знаний в сфере машинного обучения и иностранных языков. Подойдет для юношей и девушек, склонных к самообучению, точным наукам.

Компьютерный лингвист – специалист, разрабатывающий алгоритмы распознавания звучащей речи, QA-систем, систем машинного перевода и т. д. Профессия подходит для людей, которые из всех школьных предметов выделяют иностранный и русский язык, литературу, математику и информатику. Кстати, в 2021 году центр профориентации ПрофГид разработал точный тест на профориентацию. Он сам расскажет вам, какие профессии вам подходят, даст заключение о вашем типе личности и интеллекте.

Краткое описание

Компьютерная лингвистика – это наука, которая имеет множество направлений и позволяет решить огромное количество важных задач. Компьютерные лингвисты принимают участие в создании алгоритмов и программ, используемых для извлечения данных, разработки онлайн-словарей, переводчиков, QA-систем и т. д. Например, алгоритмы распознавания естественно звучащей речи используются в системах умных домов, современных гаджетах. Такие технологии облегчают жизнь обычных пользователей и людей с ограниченными возможностями.

Особенности профессии

Компьютерная лингвистика – прикладная наука, зародившаяся в США во второй половине XX века. Сегодня эта сфера активно развивается, ведь огромное количество пользователей из разных точек мира используют интернет, ПО, компьютеры, девайсы для поиска и обработки информации, аналитики, обучения – решения любых задач. Компьютерные лингвисты выполняют большой блок работ, направленных на создание:

  • QA-систем;
  • алгоритмов машинного перевода;
  • генераторов текста;
  • электронных словарей и баз данных;
  • систем извлечения и поиска информации, распознавания речи и других продуктов, алгоритмов.

Деятельность компьютерных лингвистов имеет важное социальное значение, ее результаты применяются в сфере artificial intelligence, машинного обучения, Big Data. Специалисты свободно работают с SQL, технологиями обработки естественного языка, разнообразными библиотеками, программированием. В это же время они безупречно знают русский язык – от семантики до диалектов.


Плюсы и минусы профессии

Плюсы

  1. Профессия интересная и новая, поэтому кадровый рынок пока испытывает дефицит компьютерных лингвистов.
  2. Специалисты, обладающие хорошей базой знаний, могут найти работу в крупнейших компаниях. В них заинтересованы Google, «Яндекс», Mail.ru Group и другие технологические холдинги.
  3. Компьютерные лингвисты – многозадачные специалисты, разбирающиеся в двух совершенно разных областях. При желании они могут сменить сферу деятельности: программирование, перевод и другие.
  4. Работа очень хорошо оплачивается.
  5. В ближайшие несколько десятков лет компьютерная лингвистика будет динамично развиваться.
  6. Работодатели оказывают компьютерным лингвистам содействие во всех вопросах, связанных с повышением квалификации, обучением.

Минусы

  1. Компьютерная лингвистика – непростая прикладная наука, для работы в рассматриваемой сфере необходима длительная подготовка.
  2. Деятельность связана с работой за компьютером, поэтому лингвисты могут страдать от ряда профессиональных заболеваний: проблемы со зрением, опорно-двигательным аппаратом и другие.

Важные личные качества

Компьютерные лингвисты объединяют в себе черты, характерные и для гуманитария, и для «технаря». Они педантичные, к работе относятся скрупулезно. Обладают логическим мышлением, многозадачностью, умением концертировать внимание, усидчивостью, склонностью к активной командной работе.

Обучение на компьютерного лингвиста

Необходимо пройти подготовку в вузе, приоритетное направление – «Фундаментальная и прикладная лингвистика» (код: 45.03.03). Профильным ЕГЭ для указанной специальности является иностранный язык, дополнительно абитуриенту нужно сдавать экзамены по математике, литературе, обществознанию или информатике. Обучение можно продолжить, например, в НИУ «ВШЭ», ведь в вузе открыта магистерская программа «Компьютерная лингвистика». Нередко студенты и выпускники профильных вузов проходят дополнительную подготовку, посещая курсы, связанные с AI, ML и другими смежными областями.

Профессия «компьютерный лингвист»: подробное описание

Компьютеры и информационные технологии не только стали неотъемлемой частью повседневной жизни и работы современного человека. Благодаря им начали появляться новые профессии. Об одной из таких специальностей я расскажу в статье.

Компьютерный лингвист: кто это и чем занимается

Специалист по компьютерной лингвистике — это человек, который сочетает в себе знания программиста и лингвиста. Он разрабатывает системы распознавания речи, текстов, а также алгоритмы семантического перевода. Эти навыки используются для извлечения определённой информации из большого объема данных. Например, в электронных словарях, системах «умный дом», в разных гаджетах, голосовых помощниках. Лингвист выполняет следующий функционал:

  • разрабатывает алгоритмы машинного перевода;
  • создаёт морфологическую и синтаксическую разметку, языковые модели;
  • обрабатывает строки при помощи регулярных выражений;
  • объединяет похожие тексты в группы;
  • программирует системы извлечения и поиска информации, распознавания речи и других продуктов;
  • работает с генераторами текстов;
  • разрабатывает электронные словари и формирует базы данных;
  • оценивает качество работы компьютерно-лингвистических приложений.

Помимо этого, специалист анализирует, насколько хорошо работает система проверки орфографии, машинный переводчик, измеритель сходства текстов и пр.

Возможные направления работы: IT-агентства, компании, связанные с созданием инновационных приложений.

Компьютерный лингвист

Что должен знать и уметь компьютерный лингвист

Профессионал обладает следующими навыками:

  • применяет технологии машинного обучения;
  • отлично знает грамматику и пунктуацию русского языка;
  • способен работать с SQL;
  • математические модели в лингвистике;
  • хорошо разбирается в семантике;
  • знаком с Big Data;
  • владеет несколькими языками программирования;
  • способен понять искусственный интеллект и может работать с нейросетями.

-50% на все курсы Skillbox


Уникальное предложение — -50% на ВСЕ курсы Skillbox. Получите современную онлайн-профессию, раскройте свой потенциал.

Активировать скидку →

Личные качества

Специалист по компьютерной лингвистике обладает такими характеристиками, как:

  • усидчивость;
  • внимательность;
  • хорошая память;
  • высокий интеллект;
  • аналитический склад ума;
  • умение долго концентрироваться на одной задаче.

Плюсы и минусы профессии

  • высокая оплата труда;
  • востребованность;
  • возможность работать сразу в нескольких сферах (программирование, работа с текстами, обработка данных).
  • сидячая работа;
  • сложно изучить направление самостоятельно.

Зарплата в Москве и по России

Чтобы узнать, сколько составляет зарплата компьютерного лингвиста по Москве, ниже ознакомьтесь со скриншотом с сайта trud.com.

Зарплата компьютерного лингвиста по Москве

Зарплата компьютерного лингвиста по регионам

Доход специалиста зависит от его желания развиваться и профессиональных навыков. Некоторые компании берут новичков без опыта, но с хорошей теоретической подготовкой. В среднем, работодатели ищут сотрудников с опытом работы от года. Пример вакансии с сайта hh.ru:

Пример вакансии с сайта hh.ru компьютерного лингвиста

Как стать компьютерным лингвистом - курсы-онлайн

Как стать компьютерным лингвистом

Направление достаточно сложное для самостоятельного изучения, поэтому рекомендую пройти проверенные качественные курсы, где можно помимо знаний теории получить ценный практический опыт. Можно обучиться в вузе, но такие учебные заведения обычно не делают упор на реальных кейсах и не дают возможность подготовить портфолио для работодателя во время обучения. Студенту самому придется решать эту задачу.

Есть лёгкий способ начать обучение по этому перспективному направлению.

Предлагаю пройти → онлайн-курсы SQL для анализа данных. Отличный вариант для новичков без опыта в отрасли.

Преимущества таких программ:

  • быстрое освоение профессии
  • чётко структурированная информация
  • наработанное портфолио во время обучения
  • удобный онлайн — формат занятий

Если вас заинтересовала профессия — ставьте плюс в комментариях, расскажем, как в ней легко стартануть 🙂

Есть несколько основных профессий, использующихся для компьютерной лингвистики. Одна профессия – это программист. Другое дело, что обычно все программисты приходят работать недоученными, и их нужно доучивать. Но нужны и лингвисты, потому что они носители знаний о естественном языке. Лингвисты, попадая в зону компьютерной лингвистики, тоже должны получить новые знания, стать более структурными и формальными для работы в Computer science.

«Компьютерная лингвистика предполагает сотрудничество лингвистов и программистов. И они идут друг другу навстречу. Программисты, которые занимаются компьютерной лингвистикой, поскольку они описывают объект, должны в нем разобраться. Любой программист, например, у нас (в ABBYY), понимает, что такое синтаксическое дерево, понимает, как слова связываются друг с другом, много знает о лингвистике, понимает, что такое род, число, падеж. И у нас в ABBYY в чистом виде делают специальные уровни абстракции. То есть, для лингвистов создают какие-то формальные языки, среды, внутри которых они работают, и которые приближены к их взгляду на мир.

Они приближены к языку, естественно. И лингвисты варятся в этих средах. Но при этом все равно они хорошо знают, что здесь они сейчас напишут такое-то правило. И это правило будет подхвачено таким-то алгоритмом и так-то использовано. Такие представления у лингвистов есть. Без этого они не смогли бы работать. Подготовка лингвистов с оглядкой на компьютерную лингвистику существенно влияет и на самих лингвистов. Более или менее современные лингвисты сегодня (если говорить о людях, которые занимаются естественным языком, пишут теоретические работы об этом), давно перешли на представления о компьютерных методах».

История

Компьютерная лингвистика как направление возникла в середине XX века. И первой задачей стразу стало сильно амбициозное по тем временам желание создать программу по автоматического перевода текста. При этом надо помнить, что компьютеры не отличались мощностью. И со временем люди пришли к осознанию того, насколько сложна эта задача.

Одновременно с этим было популярно направление, которое называется искусственный интеллект. Люди хотели, чтобы компьютер решал интеллектуальные задачи. Хотя искусственный интеллект – это более широкая область, чем компьютерная лингвистика, обработка естественного языка рассматривалась как его часть.

«В какой-то момент был бум методов машинного обучения. Он случился, когда люди поняли, что с помощью методов математической статистики и специальных алгоритмов можно делать так, чтобы компьютер достаточно точно воспроизводил какое-то интеллектуальное поведение человека. Могу привести пример задачи, которая по сей день очень актуальна. Это задача нахождения в текстах именованных сущностей, когда нужно найти в тексте все упоминания персон или все упоминания организаций. Оказывается, что эту задачу можно решать аналитически (писать правила, сложные алгоритмы). А можно решать эту задачу другим образом, взяв пачку текстов, разметить в ней руками, где персоны, а где организации. После этого дать ее компьютеру, сказать: «Посмотри, в этих текстах персоны здесь, а организации – здесь».

И с помощью методов научного обучения компьютер может впитать в себя это знание. И на других текстах, которые он до этого еще не видел, это повторить с довольно высокой точностью. То есть, он возьмет другой текст, которого он еще раньше не читал, и по аналогии с теми текстами угадает, где там упоминание персон, где – организаций. В этот момент он, естественно, воспользуется некоторыми признаками, которые он сам выучил. Эти признаки: большие буквы, какие-то морфологические формы. Есть разные зацепки и крючки, которые в тексте на самом деле есть. Мы читаем, понимаем, что это персона. А на самом деле персона обычно употребляется в таких-то контекстах.

Мы даже этого не знаем. А компьютер с помощью метода машинного обучения может в себя впитать эти контексты и воспроизвести. Когда люди это поняли, возникло очень много приложений на базе машинного обучения. Методы машинного обучения сегодня очень существенная часть компьютерной лингвистики применительно к задачам анализа текстов с разных сторон. С помощью машинного обучения решается очень много разных задач».

О профессии Компьютерного лингвиста

Компьютерные лингвисты – это специалисты, занимающиеся разработкой алгоритмов распознавания текста и звучащей речи, синтезом искусственной речи, созданием систем семантического перевода и самим развитием искусственного интеллекта.

Компьютерная лингвистика предполагает создание программ, связанных с анализом языковых данных и моделированием той или иной лингвистической деятельности. Одновременно это направление требует специализированного знания о структуре языка и методах исследования

Компьютерные лингвисты – это специалисты, занимающиеся разработкой алгоритмов распознавания текста и звучащей речи, синтезом искусственной речи, созданием систем семантического перевода и самим развитием искусственного интеллекта.

Компьютерная лингвистика предполагает создание программ, связанных с анализом языковых данных и моделированием той или иной лингвистической деятельности. Одновременно это направление требует специализированного знания о структуре языка и методах исследования языкового материала.

Поскольку сегодня теоретическая лингвистика очень часто опирается на компьютерные инструменты, лингвисты, сочетающие знания в области теории языка и компьютерной лингвистики, пользуются большим спросом. Кроме того, компьютерные лингвисты востребованы как в научных учреждениях, так и в коммерческих компаниях — в том числе в компаниях Яндекс, Mail.Ru, ABBYY, Авикомп и др.

Самое большое направление в компьютерной лингвистике связано с Big Data. Ведь существуют огромные корпуса текстов типа новостных лент, из которых нужно вычленять определенную информацию — например, выделять инфоповоды или затачивать RSS под вкусы определенного пользователя.

Такие технологии есть уже cейчас и будет развиваться дальше, потому что вычислительные мощности стремительно растут. Лингвистический анализ текстов используется и при обеспечении безопасности в интернете, поиске необходимой информации для спецслужб.

Профессия «Компьютерный лингвист» на рынке труда России

По статистике популярных сайтов работы за последние 30 дней в России открыты 5 вакансий по 1 должности профессии «Компьютерный лингвист» с указанием заработной платы.

Минимальная – 17 000

Максимальная – 53 300

Максимальное количество вакансий по должностям

Лингвист – 5 вакансий.

Краткое описание

Компьютерная лингвистика – это наука, которая имеет множество направлений и позволяет решить огромное количество важных задач. Компьютерные лингвисты принимают участие в создании алгоритмов и программ, используемых для извлечения данных, разработки онлайн-словарей, переводчиков, QA-систем и т. д. Например, алгоритмы распознавания естественно звучащей речи используются в системах умных домов, современных гаджетах. Такие технологии облегчают жизнь обычных пользователей и людей с ограниченными возможностями.

Драйверы профессии

  • усиление конкуренции и потребность ком­паний в детальном изучении поведения по­требителей
  • развитие семантического веба, машинного обучения, интеллектуальных систем и т. п.
  • роботизация различных видов деятельно­сти и использование «умных» устройств
  • развитие межмашинных технологий (machine-to-machine technology).

Какие задачи будет решать специалист

  • разработка алгоритмов и методов машин­ного перевода
  • решение задач извлечения информации из неструктурированных или слабоструктурированных документов
  • разработка систем человеко-машинного и межмашинного взаимодействия
  • создание систем генерации однотипных текстов по заданным параметрам (прогноза погоды, биржевых сводок и др.)
  • распознавание речи и выделение имено­ванных сущностей
  • разработка алгоритмов классификации до­кументов по заданным параметрам
  • создание вопросно-ответных систем
  • разработка систем, облегчающих коммуникацию людям с ограниченными возможно­стями.

Чем занимается компьютерный лингвист?

Может ли группа лингвистов создать новый язык?

Или, например, Марк Окранд, создавший и весьма детально сконструировавший клингонский язык (весьма развитый и довольно популярный и широко используемый, имеющий даже свою википедию, отдельный институт и ежеквартальный журнал).

Дальше вопрос в том, насколько новый язык приживется и распространится.

Чем отличается айтишник от программиста?

Айтишник от программиста отличается не только написанием, но и описанием! IT-шник обобщенное название, а программист сфокусированное.

Ну остальное зависит от вашего восприятия, как и многое другое.

Ответить на данный вопрос можно как угодно, поскольку опровергнуть это никто не сможет. У науки нет такого критерия, как серьёзность. Следовательно, ни одна наука не может быть серьёзной или несерьёзной.

Какие знания и навыки у него будут

  • знание лингвистических технологий и умение выбирать данные, необходимые для решения поставленных задач
  • знание баз данных и других источников, откуда можно получать данные
  • умение программировать прототипы и модели решений, готовить необходимые лингвистические ресурсы, проектировать процесс обработки данных и интерпретировать результаты обработки
  • умение оценивать трудоемкость разных решений, пороги допустимых ошибок и выбирать оптимальную методологию тестирования лингвистических систем.

Плюсы и минусы профессии

Плюсы

  1. Профессия интересная и новая, поэтому кадровый рынок пока испытывает дефицит компьютерных лингвистов.
  2. Специалисты, обладающие хорошей базой знаний, могут найти работу в крупнейших компаниях. В них заинтересованы Google, «Яндекс», Mail.ru Group и другие технологические холдинги.
  3. Компьютерные лингвисты – многозадачные специалисты, разбирающиеся в двух совершенно разных областях. При желании они могут сменить сферу деятельности: программирование, перевод и другие.
  4. Работа очень хорошо оплачивается.
  5. В ближайшие несколько десятков лет компьютерная лингвистика будет динамично развиваться.
  6. Работодатели оказывают компьютерным лингвистам содействие во всех вопросах, связанных с повышением квалификации, обучением.

Минусы

  1. Компьютерная лингвистика – непростая прикладная наука, для работы в рассматриваемой сфере необходима длительная подготовка.
  2. Деятельность связана с работой за компьютером, поэтому лингвисты могут страдать от ряда профессиональных заболеваний: проблемы со зрением, опорно-двигательным аппаратом и другие.

Важные личные качества

Компьютерные лингвисты объединяют в себе черты, характерные и для гуманитария, и для «технаря». Они педантичные, к работе относятся скрупулезно. Обладают логическим мышлением, многозадачностью, умением концертировать внимание, усидчивостью, склонностью к активной командной работе.

Для обеспечения потребности в обучении ИИ планируется введение новой профессии – цифровой лингвист, которая по данным «Атласа новых профессий» должна появиться в начале третьего десятилетия 21 века. Сегодня мы предлагаем вам узнать, чем именно будут заниматься эти специалисты и какие перспективы развития их ожидают.

Цифровой лингвист

В эпоху цифровизации особо актуальным вопросом является «налаживание отношений» между человеком и искусственным интеллектом. Ранее считалось, что эффективная работа с компьютерами подвластна только людям с техническим складом ума. Но теперь, когда компьютер можно найти практически в каждом доме, а техника научилась разговаривать и понимать человеческую речь, значительно увеличился спрос на специалистов, которые смогут сделать работу с искусственным интеллектом еще проще, еще понятнее.


Кто такой цифровой лингвист?

Цифровой лингвист – эксперт в области разработки лингвистических систем для семантического перевода текстов, обработки текстовой информации и создания новых способов общения между человеком и компьютером.

История развития лингвистики, как науки, длится уже не одно столетие. За все это время множество известных личностей посвящали жизнь изучению проблематики различных языков. Но изменившиеся условия жизни требуют от лингвистов, как и от специалистов других рыночных сегментов, освоения новых навыков межотраслевой коммуникации. Цифровой лингвист – очередной этап профессионального развития, на котором специалисту потребуется преодолеть множество подводных камней, которые, конечно же, принесут свои плоды.

Для освоения профессии цифрового лингвиста потребуется:

  • знание баз данных и источников получения информации;
  • умение оценивать сложность различных решений и пределы допустимых ошибок;
  • умение программировать модели и прототипы решений, определять наиболее подходящие методы тестирования лингвистических систем;
  • знание существующих технологий в области лингвистики;
  • способность выбирать оптимальные для достижения поставленных целей данные;
  • знание особенностей проектирования процесса обработки данных и способность к интерпретации результатов.

В компетенцию специалиста по цифровой лингвистике входит:

  • разработка систем для создания типовых текстов, основанных на заданных параметрах (прогноз погоды, сводки с биржевых площадок и пр.);
  • обнаружение методов и построение алгоритмов для семантического машинного перевода;
  • создание систем для повышения качества взаимодействия между человеком и машиной;
  • поиск решений, направленных на получение данных из неструктурированных документов;
  • разработка вопросно-ответных систем;
  • построение алгоритмов для группирования документов в соответствии с требованиями;
  • поиск решений по более глубокому обучению искусственного интеллекта особенностям человеческой речи с целью повышения качества распознавания;
  • создание систем для содействия людям с ограниченными возможностями в вопросах коммуникации.


Какими личностными качествами должен обладать цифровой лингвист?

По сути, цифровой лингвист – это сочетание языковеда и специалиста в области компьютерных наук. Поэтому в этом специалисте объединяются качества, характерные для этих двух, казалось бы, несовместимых профессий.

Работа с компьютером и базами данных предполагает наличие математических и аналитических способностей, а также умения работать с большими потоками информации. Лингвистический же аспект дополняет профессию такими качествами, как:

  • хорошая память,
  • внимательность к деталям,
  • образное мышление,
  • грамотно выражать мысли,
  • способность обучать особенностям языка.

Кроме того, обучение искусственного интеллекта потребует от специалиста усидчивости и терпения. А поскольку деятельность цифрового лингвиста связана с обнаружением ошибок, которые так или иначе возникают при работе с машинами, и поиском решений по их устранению, для него свойственно стремление к совершенствованию, упорство, способность длительное время концентрироваться на одной задаче, выполнять монотонную работу и структурировать большие потоки данных.

Преимущества профессии цифровой лингвист

В 2019 году вопрос о совершенствовании и распространении искусственного интеллекта был включен в национальную стратегию развития. Данное решение, а также тот факт, что цифровая лингвистика включена в перечень профессий будущего, открывает большие перспективы перед специалистами, работающими в этой области. Увеличение спроса на цифровых лингвистов, способных эффективно обучать речи машину, отмечается уже сейчас, а в дальнейшем он будет только возрастать.

Нельзя не сказать о том, что появление этой новой профессии открывает большие возможности для профессионального роста гуманитариев, чьи компетенции длительное время были ограничены. По данным аналитиков, многие лингвистические специальности постепенно устаревают, поэтому освоение нового направления позволит им сохранить конкурентоспособность на рынке труда.

Поскольку данная профессия находится на этапе становления, компании испытывают существенный дефицит кадров. Другими словами, сегодня, и в ближайшие годы, молодому специалисту будет очень просто найти место в крупнейших компаниях, работающих в сфере информационных технологий, которые смогут сделать выгодное предложение не только по дальнейшему обучению своего сотрудника, но и по заработной плате.


Недостатки профессии цифровой лингвист

Для цифровых лингвистов, как и для других профессий, связанных с компьютерными технологиями, характерен сидячий образ жизни и постоянное зрительное напряжение. Это увеличивает риск возникновения заболеваний опорно-двигательного аппарата, ухудшения зрения, дисфункции сосудистой системы.

Хотя получение образования по этому направлению не займет много времени, профессиональная деятельность подразумевает непрерывное обучение и развитие новых навыков, что потребует от цифрового лингвиста дополнительных усилий, готовности к совмещению работы с учебой и отказом от многих увлечений, ради карьерного роста.

Где можно получить профессию цифровой лингвист?

Специальность подойдет для людей, склонных к изучению информатики, иностранных языков и математики. По окончанию школы можно поступить в высшее учебное заведение, выбрав направление «Фундаментальная и прикладная лингвистика». Сразу скажем, что в некоторых ВУЗах страны уже сегодня действуют магистерские программы по обучению компьютерной и когнитивной лингвистике, которые позволяют работать в области автоматического анализа естественного языка. Поэтому выпускники этого года могут без проблем получить перспективную новую профессию, которая откроет перед ними большие возможности.

Для освоения профессии абитуриентам стоит обратить внимание на следующие образовательные организации:

Стоит отметить, что профессия цифрового лингвиста доступна не только выпускникам школ. Опытные программисты, переводчики и другие специалисты из смежных направлений могут пройти профессиональную переподготовку и дополнить свою базу знаний. Да и выпускникам ВУЗов, обучавшимся на факультетах иностранных языков или компьютерных технологий, можно будет увеличить уровень профессиональной компетенции на специальных курсах.

Искусственный интеллект (ИИ) получил статус национального проекта. В октябре президент РФ утвердил национальную стратегию развития ИИ. Это станет сильнейшим стимулом для вузов, готовящих специалистов для «цифровой экономики», и мотивацией для студентов, которым предстоит работать в новой цифровой индустрии

Кто обучит искусственный интеллект

Спрос на профессии, связанные с ИИ, отмечается во многих университетах. И если еще несколько лет назад казалось, что «цифра» только для «технарей», то сейчас этот миф развеян полностью — будущее искусственного интеллекта, в том числе, за гуманитариями. В частности, лидирующую позицию заняли лингвисты.

Цифровой лингвист

Два года назад Томский государственный университет (ТГУ) открыл магистерскую программу «Компьютерная и когнитивная лингвистика». В этом году состоялся первый выпуск, работать будут молодые специалисты в сфере автоматического анализа естественного языка.

«Если сложить формальную когнитивную лингвистику и компьютерные технологии, мы получим компьютерную лингвистику. Она родилась из романтической идеи, что компьютер будет работать как человеческий мозг, — рассказывает руководитель программы Зоя Резанова. — В середине XX века общество осознало, что не знает, как на самом деле функционирует мозг. В этот момент начала развиваться наука о нем — когнитивистика. Создание программы, объединяющей лингвистов, когнитивистов и компьютерщиков — это наше стремление понять устройство человеческого мозга через язык и на основе этих знаний выстроить отношения в диалоге «человек — компьютер».

В течение двух лет студенты ТГУ «прокачивают» когнитивную лингвистику наравне с программированием. Причем быть программистом «на входе» в магистратуру не обязательно — необходимый уровень будущие цифровые лингвисты получают в процессе обучения. Программирование в данном случае направлено на обработку текстов, а это значительный объем от всей информации в компьютерных процессах.

«О'кей, Google»

Нейронные сети и машинное обучение — «зона комфорта» цифрового лингвиста. Можно сказать, что он — связующее звено между конечным потребителем компьютерных технологий и ИИ. Если перевести это в плоскость наших ежедневных ритуалов взаимодействия с искусственным интеллектом, то нужно вспомнить о голосовых помощниках, онлайн-переводчиках и так далее. Цифровой лингвист задает этим сервисам нужный ритм для обучения.

Нейронная сеть работает на основных принципах машинного обучения (deep learning): чем больше она получает информации, тем больше выделяет закономерных отношений между языковыми единицами. Для корректной работы ей нужны законы построения текста. Именно их и формулируют магистранты ТГУ: они владеют правилами формализации человеческого языка и моделируют их для обучения искусственного интеллекта.

Компьютерный лингвист является свое­образным учителем машины с искусственным интеллектом. Процесс обучения, как правило, выстроен циклично. Как это работает, хорошо видно на примере обучения автоматического переводчика. Первый шаг: лингвист анализирует определенную информацию и дает машине первичный лингвистический анализ. Второй шаг: машина считывает полученные данные, запоминает — то есть, как школьник, заучивает «таблицу умножения» — и выдает результат. Шаг номер три: лингвист проверяет работу автоматического переводчика, совершенствует исходные данные с учетом найденных ошибок и дает машине обновленное задание.

Таких циклов может быть великое множество. Цифровой лингвист работает с машиной до получения идеального результата. «Идеальный» в данном случае — синоним слова «недостижимый»: получить его стремятся все исследователи, но предела совершенству, как известно, нет.

Лингвист обучает машину не только грамматике, но и особенностям говорения. Говорим и пишем мы по-разному, кто-то при этом картавит, кто-то тянет гласные — особенностей масса.

«Мы обучаем машину фонетическим и фонологическим правилам и законам, — говорит профессор Резанова. — Но преж­де чем научить, надо описать все комбинации звуков. Знаете, некоторые помощники говорят «деревянными» голосами — это значит, что-то еще недоработано лингвистами, не до конца прописаны правила, которые нужны машине для тонких модификаций. Кроме того, бывают ситуации, когда ты задаешь голосовому помощнику вопрос, а он просит повторить. Значит, вы не попали в ключевые слова. И опять вопрос к лингвистам — недостаточно широко прописаны возможные варианты использования слов».

Впрочем, пока машина не может заменить реальных журналистов, отмечает Резанова. Это задача ближайшего времени. Чтобы научить роботов писать новости, лингвистам необходимо решить задачи автоматического синтеза текста.

«На вход в машину подается большой объем неструктурированной информации: ИИ должен сгенерировать заголовок и краткое «тело» новости. Для этого ему нужно дать правила когнитивных моделей развертывания текста и правила грамматики русского языка. Лингвист прописывает их для машины, она синтезирует новый текст. Уже сейчас это активно используется во многих общественных пространствах, где вы видите «бегущие» новостные строки», — рассказывает профессор.

Однако уже сейчас искусственный интеллект способен «писать под диктовку». Речь о сервисах, переводящих человеческий голос в текст. Банальный пример — голосовой набор сообщений в телефоне.

Преобразование речи в текст открывает большие возможности многим специалистам и социальным группам. С помощью таких программ журналисты, блогеры и другие профессионалы, которые работают с большими объемами текстов, могут сэкономить несколько часов. Студенты и школьники получают профит в виде расшифрованных лекций. Люди с ограниченными возможностями, для которых печать на компьютере невозможна, используют голосовой набор для обучения, работы и решения бытовых задач.

«Компьютерные лингвисты научили искусственный интеллект понимать нашу речь — достигли больших успехов в решении задачи формализации «правильного языка», правильной письменной речи. Но надо учитывать, что в разговорной речи мы многое упускаем, при этом понимая смысл сказанного по контексту. Поэтому новая задача — сформулировать правила игры на поле распознавания естественного языка по контексту. Машину нужно обучить и этому», — рассуждает Зоя Резанова.

Другое востребованное направление в цифровой лингвистике — сантимент-анализ (sentiment analysis), то есть анализ эмоциональной нагрузки текста. Это направление особенно востребовано коммерческими компаниями, которые хотят анализировать отношение клиентов к их работе для моделирования стратегии развития бизнеса. Машина выполняет эту задачу, изучая отзывы клиентов, рабочую переписку и так далее.

Позитивное или негативное отношение может быть выражено как в оценочных высказываниях, так и неявным способом. Со вторым как раз возникает сложность. Не все люди, и уж тем более машины, способны распознавать неявную оценку в тексте. Научить искусственный интеллект этому — еще одна зона ответственности цифровой лингвистики. Шаг за шагом специалисты развивают и совершенствуют сантимент-анализ. Особенно продвинутые соревнуются между собой: в некоторых странах мира, в том числе в России, проводятся чемпионаты, на которых сравниваются системы и программы для определения отношения автора текста к тому, о чем он, собственно, пишет.

Лингвистика для всех

Зоя Резанова отмечает, что магистерская программа является междисциплинарной, поэтому ею интересуются студенты из самых разных направлений бакалавриата. Выпускники-лингвисты добирают знания в области компьютерных технологий и математического анализа. Выпускники факультета информатики доучиваются в вопросах применения компьютерных технологий для анализа естественного языка. Кандидаты исторических наук осваивают автоматическую обработку больших данных для написания диссертаций. Психологи приходят, чтобы эффективно анализировать социальные типы личности: им необходим анализ социальных сетей и других способов коммуникации. Компьютерная лингвистика востребована криминалистами — им она помогает устанавливать авторство текстов и решать другие задачи.

В числе магистрантов программы также социологи. Зачастую они работают с анализом текста, но в их распоряжении только традиционные методы, например, ручная обработка — в буквальном смысле приходится листать анкеты и выписывать данные вручную.

«Представьте, сколько времени это занимает — когда ты должен эффективно проанализировать большие данные, сотни текстов, и извлечь оттуда нужную информацию. Цифровой анализ больших данных повышает эффективность социальных исследований на порядок», — говорит Резанова.

Интерфейсы нового поколения

Профессия «компьютерный лингвист», по оценкам экспертов, в ближайшее время войдет в число наиболее востребованных в сфере развития искусственного интеллекта. По мнению проректора ТГУ Константина Белякова, это ожидаемый эффект от развития отношений в системе «человек — машина».

«Мы с вами живем в эпоху активного общения человека с компьютерными системами, робототехникой. Если раньше это были машинные коды, а потом язык программирования высокого уровня, то теперь — голосовые и видео интерфейсы и многие другие сервисы, ставшие стандартными средствами коммуникациями», — говорит он.

По мнению проректора, подготовка специалистов, которые усовершенствуют существующие интерфейсы и создадут новые — вызовы для Томского государственного университета. Теория, построенная на передовом опыте, и практика в ведущих IT-компаниях научат студентов развивать способность машин понимать не только четкий человеческий голос на разных языках, но и речь с патологиями, с домысливанием.

Читайте также: