Статья:

Опыт применения инструментария корпусной лингвистики при анализе литературного произведения

Конференция: XIX Международная научно-практическая конференция «Научный форум: филология, искусствоведение и культурология»

Секция: Прикладная и математическая лингвистика

Выходные данные

Аксюхин Н.А. Опыт применения инструментария корпусной лингвистики при анализе литературного произведения // Научный форум: Филология, искусствоведение и культурология: сб. ст. по материалам XIX междунар. науч.-практ. конф. — № 8(19). — М., Изд. «МЦНО», 2018. — С. 73-79.

К условиям публикации Скачать сборник

Конференция завершена

Мне нравится

XIX Международная научно-практическая конференция «Научный форум: филология, искусствоведение и культурология»

на печатьскачать .pdf поделиться

Опыт применения инструментария корпусной лингвистики при анализе литературного произведения

Аксюхин Никита Алексеевич

магистрант, НИУ ВШЭ, РФ, г. Москва

Experience of using corpus tools in analyzing a literary work

Nikita Aksyukhin

master student, National Research University Higher School of Economics, Russia Moscow

Аннотация. В данной статье речь идет о попытке построения корпуса на основе литературного произведения, об анализе данного корпуса с помощью инструментария корпусной лингвистики и о дальнейшей интерпретации полученных данных. При проведении исследования были использованы такие методы, как количественный и качественный, описательный и сравнительный, а также методы корпусного исследования. Практическая ценность работы определяется возможностью использования полученных результатов при описании других ограниченных или неограниченных массивов данных.

Abstract. The paper tackles an attempt of building a corpus based on a literary work and describes its analysis with the help of corpus tools and a further interpretation of the findings. While conducting the research such scientific methods were used as qualitative and quantitative methods, methods of corpus investigation and comparative and descriptive methods. The practical value of the results shows a possibility of applying the findings to further descriptions of other limited or unlimited data arrays.

Ключевые слова: прикладная лингвистика; корпусная лингвистика; корпус; корпусный менеджер; лемма; семантический анализ.

Keywords: applied linguistics; corpus linguistics; corpus; corpus manager; Sketch Engine; lemma; semantic analysis.

Корпусная лингвистика относительно новая, бурно развивающаяся, языковедческая дисциплины, результаты применения которой уже давно продемонстрированы в таких направлениях, как лексикография, переводоведение, социолингвистика, лингводидактика, методика и др. [1].

Тем не менее, вдохновившись работами зарубежных лингвистов Моники Беднарек «Wh-questions and communicative context in television dialogue» [4] и Беттины Штарке «The phraseology of Jane Austen’s Persuasion: Phraseological units as carriers of meaning» [2], мы решили провести свое исследование, проанализировав специфику лексики в романе Дэвида Митчелла «Black Swan Green».

Исследуемый текст был выбран из-за уникального языка юного рассказчика, выделяющегося британского, молодежного сленга 80-х годов и наших намерений сравнить лексику произведения с американским национальным корпусом.

В качестве корпусного менеджера мы остановились на платформе Sketch Engine [5]. Sketch Engine не отдельное ПО, которое скачивается и устанавливается, – это веб-сайт, который работает в качестве корпусного менеджера. В качестве системы референтых корпусов, т. е. в качестве образца, с которым можно сравнивать, было выбрано «семейство» корпусов Brigham Young University (BYU) [3], которое включает в себя 17 разных корпусов. В нашем исследовании были использованы следующие корпусы: NOW Corpus (News on the Web), GloWbE (Global Web-Based English), COCA (Corpus of Contemporary American English), COHA (Corpus of Historical American English), BYU BNC (British National Corpus).

Для начала следует дать краткую характеристику скомпилированному корпусу на основе произведения: относительно крупных национальных корпусов или авторских корпусов, наш массив данных содержит всего 112 000 слов, 146 словоупотреблений (токенов) и 10 806 лемм. Следует сразу указать на то, что если бы наш корпус был больше, то, соответственно, он был бы и репрезентативнее, следовательно, мы имели бы больше закономерностей и оснований их выделения.

Итак, первое, что мы получили из нашего массива данных, – это списки частотности по частям речи (что вполне логично), и сравнили эти списки с общеязыковыми корпусами (в данном случае COCA). В списках частотности мы выделили пятьдесят самых употребляемых глаголов и имен существительных в нашем тексте. Выбор именно этих частей речи обосновывается тем, что глаголы в нашем случае отражают обычные действия обычных людей (субъектов, или героев романа). Существительные – это, прежде всего, названия предметов реальности, сущностей, субъектов, представленных в тексте языком рассказчика.

Следует сразу заметить, что корпус всего лишь предоставляет статистические данные, но семантический анализ проводился на основе нашего лингвистического опыты и интуиции.

Для сравнения списков частотности нашего корпуса и COCA мы постарались уйти от «сырой» частотности и посчитать частоту на миллион словоупотреблений. Тем не менее, в силу того, что наш корпус слишком мал по объему, относительно того же COCA, частота на миллион в большинстве случаев выше, чем в американском корпусе.

Очевидно, что список существительных в нашем корпусе будет разниться с общего списка в COCA, тем не менее, обнаружены и одинаковые леммы: year, people, way, day, man, thing, school. Однако проанализировав полный список лемм имен существительных (около 1000 словоупотреблений), можно заметить список кардинально отличается от общеязыкового списка. Следующие наблюдения были сделаны в ходе работы с 50 самыми частотными словоупотреблениями в корпусе, т. к. из-за малой репрезентативности нашего корпуса изучение остальных токенов становится бессмысленным.

Кроме того, мы попытались выделить из этого списка ключевые слова и провести тематическую группировку слов. На наш взгляд ключевые слова следующие: mum, dad, kid, school, boy, girl, hangman. Можно сделать вывод, что это члены семьи главного героя и основные субъекты в романе, кроме игры под названием «Hangman». Список тематических групп:

· Семья: mum, dad, uncle, home;

· Детство и школа: kid, boy, girl, school, hangman, game, secret;

· Время: time, year, week, day, minute;

· Human body related nouns: eye, face, hand, head, foot, finger, voice;

· Дом или помещение: house, room, door, shop.

Следующее, что мы сделали, – это извлекли списки коллокаций с наиболее употребляемыми существительными.

Коллокации с именами существительными мы разделили на три группы: модификаторы существительного, существительные с глаголом в качестве дополнения и существительные с глаголом в качестве подлежащего.

Самое часто употребляемое рассказчиком существительное после dad и mum – это kid. Самая частотная коллокация с леммой kid – hard kid, затем other kid, old kid, little kid. То есть главная характеристика ребенка для рассказчика – это hard kid. Затем идет некая иерархия по возрасту – old и little kid. Удивляет коллокация gypsy kid, которая встречается три раза, и ноль раз в COCA и Glowbe. Стоит заметить, что понятие «gypsy» больше характерно для Великобритании, чем для США. Об этом говорит Glowbe – 530 употреблений в США и 1111 в Великобритании (возможно, культурное разнообразие США не дает стране выделить отдельно «gypsy» как слой населения, если такая группа людей вообще присутствуют в стране). Такую же ситуацию мы можем пронаблюдать с коллокацией village kid, которая встретилась два раза в тексте, и ноль раз в общеязыковом корпусе. США – 10 302 употребления слова village, Соединенное Королевство – 19 417 словоупотреблений, т. е. в американском варианте английского это слово встречается в два раза реже вообще (на миллион 5 употреблений – США, 10 – Соединенное Королевство).

Более того, стоит заметить, что рассказчик чаще употребляет слово kid по отношению к своим сверстникам и детей немного старше и младше его. Слово child встречается в романе 13 раз, и рассказчик использует его для характеристики детей младшего возраста.

Кроме того, мы также обратили внимание на действия, которые выполняют дети в романе: sit, see, run, play, come, call, complain or shriek. Два уникальных случая – kid jostle и kid plough. Следовательно, мы можем сделать вывод о том, что характерно для детей в данном произведении. Они занимаются обычными детскими делами (играют, жалуются, кричат, бегают, толкаются и т. д.), никаких необычных глаголов рядом с ними не обнаружено.

Рассмотрев коллокации с леммой man, а в частности модификаторы man, мы заметили, что самые частотные словосочетания old man и young man. Очевидно, что главное деление людей для 13-летнего рассказчика происходит по возрасту. Уникальны сочетания fairground man (этому посвящена целая глава на ярмарке), bee man (используется рассказчиком для описания пасечника), pinky man, pruney man (цвета чернослива, напоминающий чернослив), January man (название глав), tubby man.

Далее, мы проанализировали коллокации с леммой thing. Модификаторы слова thing: bad thing, big thing, weird thing, crucial thing, funny thing, right thing, ironic thing – самые обычные коллокации с данным словом. Уникальны два случая – zippy thing и turrety thing. Zippy thing – описание рассказчиком женского кошелька, а turrety thing – характеристика особняка, когда рассказчик не знает, как назвать данный объект, и придумывает собственное словосочетание. В этих случаях thing теряет свою специфику, приближается по смыслу к местоимению (one). Thing используется для описания понятий, вещей (предметов реальности) и т. д.

Следующая лемма, которую мы рассмотрели, – school. Модификаторы слова school: comprehensive, primary, cathedral (уникальный случай), whole, independent, brand-new, grammar (уникальный случай), Sunday (уникальный случай), new, old. Мы наблюдаем обычное деление школ на разные типы. Уникальны три случая в нашем корпусе, которые не встретились в COCA, но встретились в BNC – cathedral school (3 раза), grammar school (567 раз), Sunday school (255 раз). Данные типы школ больше характерны для Соединенного Королевства, чем для США, особенно понятие grammar school, которого нет в США.

Далее, мы выделили словосочетания с леммой school на первом месте – bus, bag, uniform, week, premise, library, corridor, hero, joke. То есть данные коллокации представляют собой предметы и явления школьной жизни. Ничего особенного выявлено не было, кроме коллокации school stutterer, которая уникальна в нашем корпусе и которой нет в общеязыковом корпусе. Употребление данной коллокации в романе объясняется тем, что рассказчик заикался, из-за чего его сверстники дразнили его в школе и прозвали school stutterer.

Мы также посчитали нужным рассмотреть и сравнить коллокации с леммами boy и girl.

Чаще всего рассказчик использует такие типы характеристик мальчиков, как возрастная (что очевидно), по социальному статусу, описание внутренних качеств, деятельности и т. д. Единственная характеристика внешности – коллокация bust-nosed boy, которая не встречается в общеязыковом корпусе.

Среди модификаторов слова girl преобладает характеристика внешности, отношения к девочкам (silly, goosey-goosey, ordinary). Для рассказчика девочка – нечто отрицательное. Уникальной является коллокация curled girl, в данном контексте это описание пепельницы (Her ashtray was in the shape of a curled girl).

Затем мы отобрали глаголы-предикаты с леммой boy и сравнили их с леммой girl (опуская глаголы be, do, have). Что же говорит рассказчик о действиях мальчиков? Характерны для нашего корпуса коллокации с глаголами think, cork, snigger, snog, fancy, glare, laugh. Действия девочек ограничиваются глаголами weep, trawl, tear off, topple, scream и laugh. Единственный общий глагол – laugh. Можно сделать выводы, что рассказчик тщательно выбирает слова для описания двух противоположных полов. Более того, в книге он замечает, что мальчики не должны употреблять в речи слово beautiful, так как «it’s the gayest word going». Из-за того, что мы не наблюдаем глаголов snigger, fancy, glare, think рядом со словом girl, а глаголов weep, topple и scream рядом со словом boy, можно заключить что, рассказчик с детства имеет немного сексистские взгляды.

Кроме этого, мы сравнили списки частотности глаголов в нашем корпусе с корпусами COCA и GloWbE, а также разделом fiction в COCA и BNC.

Мы взяли 50 самых частотных глаголов в нашем корпусе и 50 самых употребляемых в общеязыковых корпусах.

Без сомнения можно было предугадать, что в первой десятке будут самые частотные глаголы такие, как be, have, do, say, go и т. д. Далее, заметим, что и вторая десятка не кардинально отличается. Третий и четвертый десяток глаголов в нашем корпусе разнится с общеязыковыми корпусами. Здесь появляются такие глаголы, как fall, die, watch, которые не представлены в списке в общеязыковых корпусов. Глаголы fall, watch, walk, stand, show, start, read, catch, buy, pick и miss – обычные действия обычных людей, это характеристика деятельности субъектов. Тем не менее, 35 позицию занимает глагол die, который более существенен в нашей книге, чем в общеязыковом употреблении. Удивительно, что в списке этих 50 глаголов нет глагола love (76 место, 39 употреблений в нашем корпусе), а главное, глагола become (почти 170 место из 500, всего 15 словоупотреблений в исследуемом корпусе).

Сравнив наш список частотности глаголов с самыми употребительными глаголами в разделе «художественная литература», мы увидели, что картина меняется незначительно. Уникальными глаголами для нашего корпуса все еще остаются: fall, die, show, read, catch, buy, pick, cause, miss. Кроме того, к этому списку добавляется глагол play, который имел место в предыдущем списке в общеязыковых корпусах. Что отличает наш список от списка из раздела fiction? В нашем списке 50 глаголов нет глаголов work, remember, hold, happen, open, begin, которые есть в двух других. То есть для рассказчика они не так существенны, как для другой литературы.

Итак, построенный корпус на основе произведения Дэвида Митчелла «Black Swan Green» дал ценную информацию о лексической специфике романа. Даже, несмотря на малый объем нашего корпуса и его нерепрезентативный характер, мы попытались найти закономерности употребления лексики, характерные для данного произведения.

Список литературы:

1. Рыков В.В. Корпус текстов как новый тип словесного единства [Электронный ресурс] / Рыков В.В.; Москва, 2008. URL: http://www.dialog-21.ru/Archive/2003/Rykov.pdf (Дата обращения: 11.10.18).

2. Bettina Starcke. The phraseology of Jane Austen’s Persuasion: phraseological units as carriers of meaning / Bettina Starcke // ICAME Journal. - 2006. - 30. - P. 87–104.

3. Brigham Young University [Электронный ресурс]. - Режим доступа: https://corpus.byu.edu, свободный. - Загл. с экрана. (Дата обращения: 11.10.2018).

4. John Flowerdew. Discourse in Context. Contemporary Applied Linguistics 3 / John Flowerdew. - London/New York.: Bloomsbury, 2014. – P. 360.

5. Sketch Engine [Электронный ресурс]. Режим доступа: https://www.sketchengine.eu, свободный. - Загл. с экрана. (Дата обращения: 11.10.2018).

Опыт применения инструментария корпусной лингвистики при анализе литературного произведения

Похожие статьи