Статья:

Пополнение словаря оценочной лексики с помощью дистрибутивно-семантической модели русского языка

Конференция: VIII Международная научно-практическая конференция "Научный форум: технические и физико-математические науки"

Секция: Информатика, вычислительная техника и управление

Выходные данные
Пескишева Т.А. Пополнение словаря оценочной лексики с помощью дистрибутивно-семантической модели русского языка // Научный форум: Технические и физико-математические науки: сб. ст. по материалам VIII междунар. науч.-практ. конф. — № 7(8). — М., Изд. «МЦНО», 2017. — С. 28-32.
Конференция завершена
Мне нравится
на печатьскачать .pdfподелиться

Пополнение словаря оценочной лексики с помощью дистрибутивно-семантической модели русского языка

Пескишева Татьяна Анатольевна
канд. техн. наук, доцент, Вятский государственный университет, РФ, г. Киров

 

Sentiment lexicon extension using Russian distributional semantic model

 

Tatyana Peskisheva

candidate of engineering sciences, associate professor, Vyatka state University,

Russia, Kirov

 

Аннотация. В данной работе предлагается подход к пополнению словаря оценочной лексики. Данный подход позволяет дополнить универсальный словарь оценочной лексики семантически близкими словами и получить более высокое качество решения задачи анализа тональности текста.

Abstract. In this paper we propose an approach for sentiment lexicon extension. This approach allows us to add semantically similar words to universal sentiment lexicon and to improve the quality of solving text sentiment analysis problem.

 

Ключевые слова: анализ тональности; словарь оценочной лексики; дистрибутивно-семанитическая модель; word2vec.

Keywords: sentiment analysis; sentiment lexicon; distributional semantic model; word2vec.

 

Анализ тональности (sentiment analysis) – это область автоматической обработки текстов на естественном языке, предназначенная для определения, является ли данный текст (отзыв о книге или фильме) положительным, или отрицательным по отношению к объекту, о котором идет речь в тексте.

При этом тональность выражается в числовом виде и интерпретируется в соответствии с выбранной шкалой. Например, в случае с трехбалльной шкалой результатом анализа будет положительная, отрицательная или нейтральная оценка.

Для решения задачи определения тональности текста широко используются методы на основе словарей (lexicon-based methods). Данные методы подразумевают то, что слова в словаре соотносятся с определенной шкалой эмоциональности и являются маркерами, от тональности которых зависит тональность текста в целом.

В ходе анализа тональности для представления текста наиболее часто используются модель «мешка слов». В соответствии с моделью «мешка слов (bag of words)» учитывается только частота встречаемости слов в тексте, а документ представляется в виде вектора фиксированного размера. Недостаток такой модели в том, что в ней не учитываются связи между словами текста, а это может существенно повлиять на результаты обработки текста. Для решения данной проблемы можно использовать распределенное векторное представление слов.

В данной статье применяется дистрибутивно-семантическая модель русского языка для пополнения словаря оценочной лексики семантически близкими словами. Для построения модели текста использован инструмент Word2Vec [1].

Word2Vec – программный инструмент анализа семантики естественных языков, разработанный группой исследователей Google.

Word2Vec включает в себя набор алгоритмов для расчета векторных представлений слов. На вход алгоритма Word2Vec подается большой корпус текстовых документов. На выходе каждому слову сопоставляется вектор, состоящий из координат слов. Расстояние между векторами измеряется при помощи меры косинусного сходства. Мерой близости слов выступает их контекстная близость: семантически близкие слова встречаются в похожих контекстах и их векторы располагаются рядом друг с другом [2].

В Word2Vec можно использовать две различные архитектуры нейронной сети, с помощью которой осуществляется перевод слова в вектор: CBOW и Skip-gram.

CBOW (Continuous Bag of Words, «непрерывный мешок со словами») –модельная архитектура, предназначенная для предугадывания слова по окружающему его контексту (словам, расположенным близко в тексте). Архитектура типа Skip-gram использует слово, чтобы предсказать окружающие его слова.

Алгоритм Word2Vec составляет словарь слов, входящих в обрабатываемые текстовые документы и рассчитывает встречаемость каждого слова в корпусе. Затем сортирует слова по частоте и удаляет редкие слова.  Строится дерево Хаффмана, применение которого снижает вычислительную и временную сложность алгоритма. Из корпуса текст считывается заданными базовыми элементами (например, предложениями, абзацами), после чего из анализа удаляются наиболее часто встречающиеся слова корпуса. 

По базовому элементу выполняется проход окном, размер которого соответствует максимальной дистанции между текущим и предсказываемым словом. 

К полученным данным применяется нейронная сеть прямого распространения (feedforward neural network) с функцией активации иерархический софтмакс (hierarchical softmax)  и/или негативное семплирование (negative sampling). В результате работы алгоритмы возвращают координаты векторов слов исходного корпуса текстов.

Целью данного исследования является выяснение возможностей использования  предварительно обученных на значительных массивах текстов моделей Word2Vec для русского языка на примере модели Russian Distributional Thesaurus (RDT)  [3].

Russian Distributional Thesaurus – проект создания открытого дистрибутивного тезауруса русского языка. Модель русского языка была построена автоматически на основании корпуса текстов книг на русском языке (12.9 млрд словоупотреблений). Для тестирования использовалась модель размерности векторного пространства 100 на основе подхода skip-gram с размером контекстного окна в 10 слов [4].

Общая идея заключается в том, чтобы для каждого слова из тонального словаря найти множество потенциально близких к нему понятий. Для оценки сходства между словами  используется модель Word2Vec.

В качестве базовых тональных словарей были взяты словари из статьи [5] Universal (n=4) и Universal (n=3). Перечисленные словари были составлены с учетом экспертных знаний четырех аннотаторов, выявлявших оценочные слова из текстов отзывов 5 предметных областей: рестораны, автомобили, фильмы, книги и камеры.

Для каждого из базовых тональных словарей с помощью модели RDT осуществлялся поиск наиболее близких 5, 7 и 10 слов. В итоге был получены словари univ3_5, univ3_7, univ3_10, univ4_5, univ4_7, univ4_10. Далее каждый из этих словарей использовался для анализа тональности 1000 текстов отзывов из  предметной области «туризм». Отзывы содержат впечатления людей от отдыха в разных отелях по всему миру. Анализ тональности выполнялся на основе метода опорных векторов. Для сравнения результатов анализа тональности используется F1-мера.

В ходе экспериментов были получены следующие результаты.

Таблица 1.

Результаты использования полученных словарей

Словарь

Количество слов словаря

Количество оценочных слов в отзывах

Среднее значение F1-меры

Время анализа тональности, с

Universal (n=4)

1110

608

66,6

102

Universal (n=3)

3245

1505

73,4

242

univ4_5

3520

1385

74

278

univ4_7

4340

1629

74,9

291

univ4_10

5560

1958

77,7

414

univ3_5

9006

2912

78,4

455

univ3_7

10939

3330

78,7

520

univ3_10

13541

3899

80,5

599

 

По итогам анализа полученных результатов можно сделать следующие выводы. В отсутствии специализированного словаря для конкретной области могут использоваться универсальные словари, что приводит к получению относительно хороших результатов. Такие словари могут быть дополнены и уточнены в дальнейшем.

Большее количество семантически близких слов повышает качество анализа тональности текста. Однако учет слишком большого количества близких слов требует больших временных затрат для пополнения тонального словаря, существенно увеличивает время анализа тональности текста, а также приводит к появлению большого количества случайных слов в словаре.

 

Работа выполнена при финансовой поддержке Министерства образования и науки РФ, государственное задание ВятГУ № 34.2092.2017/4.6, проект «Разработка и исследование словарей оценочной лексики для анализа тональности текстов» (2017-2019 гг.).

 

Список литературы:
1. Word2Vec Project [Электронный ресурс]. –  URL: https://code.google.com/p/word2vec/
2. Mikolov T. [et al.]. Distributed representations of words and phrases and their compositionality. Advances in neural information processing systems. 2013.
3. Panchenko A., Ustalov D., Arefyev N., Paperno D., Konstantinova N., Loukachevitch N. and Biemann C. (2016): Human and Machine Judgements about Russian Semantic Relatedness. In Proceedings of the 5th Conference on Analysis of Images, Social Networks, and Texts (AIST'2016). Communications in Computer and Information Science (CCIS). Springer-Verlag Berlin Heidelberg
4. Russian Distributional Thesaurus [Электронный ресурс]. – URL: https://nlpub.ru/Russian_Distributional_Thesaurus
5. Kotelnikov E.V., Bushmeleva N.A., Razova E.V., Peskisheva T.A., Pletneva M.V. Manually Created Sentiment Lexicons: Research and Development//Computational Linguistics and Intellectual Technologies: Papers from the Annual International Conference "Dialogue", 01-04 June 2016. Issue 15 (22). - P. 281-295.