Статья:

ТЕХНОЛОГИИ TEXT MINING И WEB MINING

Конференция: XXXIII Студенческая международная заочная научно-практическая конференция «Молодежный научный форум: технические и математические науки»

Секция: 3. Информационные технологии

Выходные данные
Гершевич Е.К. ТЕХНОЛОГИИ TEXT MINING И WEB MINING // Молодежный научный форум: Технические и математические науки: электр. сб. ст. по мат. XXXIII междунар. студ. науч.-практ. конф. № 4(33). URL: https://nauchforum.ru/archive/MNF_tech/4(33).pdf (дата обращения: 15.11.2024)
Лауреаты определены. Конференция завершена
Эта статья набрала 0 голосов
Мне нравится
Дипломы
лауреатов
Сертификаты
участников
Дипломы
лауреатов
Сертификаты
участников
на печатьскачать .pdfподелиться

ТЕХНОЛОГИИ TEXT MINING И WEB MINING

Гершевич Екатерина Константиновна
студент Сибирского государственного аэрокосмического университета им. ак. М.Ф. Решетнева, РФ, г. Красноярск
Кукарцев Владислав Викторович
научный руководитель, канд. техн. наук, доц., инженерно-экономический факультет, Сибирский государственный аэрокосмический университет им. ак. М.Ф. Решетнева, РФ, г. Красноярск

На сегодняшний день все большую популярность приобретает термин “Big Data”, объединяющий в большинстве случаев информацию, которая находится как в структурированном, так и неструктурированном виде. И если структурированные данные поддаются автоматической обработке, то данные, которые относятся к неструктурированному виду, лишены такой возможности [1, с. 211].

В большинстве случаев, около 80% корпоративной, управляющей и регулирующей информации хранится в неструктурированном виде. Данное обстоятельство в значительной мере затрудняет поиск необходимых сведений, что и обуславливает спрос на различные специализированные программные решения для обработки такого рода данных.

В настоящее время существует множество программных продуктов, целью которых является автоматизация информационно-аналитической деятельности. Все они различаются между собой по количеству и качеству выполняемых функций, производительности и другим показателям эффективности. Принимая за основу функциональные возможности данных программных решений, их можно разделить на следующие классы [2, с. 83]:

·     Информационно-поисковые системы;

·     Системы анализа текстовой информации;

·     Лингвистические процессоры;

·     Системы визуализации структурированной информации;

·     Системы анализа структурированной информации.

Несмотря на все разнообразие проектных решений, наибольшая эффективность в обработке неструктурированных данных достигается за счет интегрированного применения аналитических систем различных классов и технологий Text Mining и Web Mining.

Суть технологии Text Mining лежит на пересечении таких областей, как поиск информации, Data Mining, машинное самообучение, статистика и компьютерная лингвистика. Данная технология глубинного анализа текстов дает возможность обрабатывать большие объемы неструктурированной информации и извлекать знания и высококачественную информацию из текстовых массивов. Данное обстоятельство в значительной степени сокращает время- и трудозатраты человека на поиск необходимых данных [4].

Результаты, полученные благодаря использованию технологии Text Mining, могут быть использованы для математического прогнозирования, анализа уровня напряженности социальной обстановки и анализа рынков. Широкие функциональные возможности данной технологии открывают целый спектр отраслей, в которых она может быть применена, начиная от корпоративной бизнес-аналитики и мониторинга социальных медиа до национальной безопасности и разведки [3, с. 3-4].

Основными стадиями и задачами технологии Text Mining являются:

1.  Поиск информации и определение исходных данных.

Этот этап является подготовительным, суть которого сводится к сбору текстовых материалов для анализа. Такие материалы могут содержаться в базах данных, файловых системах и различных Web-ресурсах.

2.  Использование четко формализованных статистических и лингвистических методов анализа.

3.  Выявление смыслов.

На данном этапе выявляются именованные сущности (наименования организаций, мест, имена людей и т.д.) с помощью различных техник статистического анализа. Использование контекста позволяет определить обозначение того или иного слова в конкретном вхождении.

4.  Выявление шаблонов.

5.  Выявление перекрестных ссылок.

6.  Выявление взаимосвязей, фактов и событий.

7.  Смысловой анализ.

Данный этап предназначен для выявления различных форм оценочной информации, таких как мнения, настроения и эмоции.

8.  Количественный анализ.

Этот этап является заключительным и предназначен для извлечения семантических или грамматических связей между отдельными словами для понимания смысла стилистических шаблонов, проведения психологического профилирования и т.д. Это достигается за счет использования комплекса техник, заимствованных из социальных наук.

Современный Интернет изобилует различного рода знаниями и информацией, что осложняет процесс поиска необходимых данных. Именно поэтому возникает такая острая необходимость в использовании специализированных программных решений для извлечения полезных знаний и высококачественной информации из сети Интернет. Технология Web Mining может успешно служить данным целям и окончательно решить эту проблему [6].

Как уже было сказано, технология Web Mining предназначена для поиска и извлечения знаний и зависимостей в материалах, размещенных на различных ресурсах web-среды [5].

Данная технология базируется на извлечении знаний из баз данных, эффективном поиске информации, искусственном интеллекте, машинном обучении и обработке естественных языков.

В зависимости от выполняемых задач, можно выделить следующие разновидности технологии Web Mining:

·     Анализ использования web-ресурсов (получение данных для определения предпочтений пользователей различных ресурсов);

·     Извлечение web-структур (анализ взаимосвязей между web-страницами);

·     Извлечение web-контента (анализ содержания документов, хранящихся в электронном виде).

В общем и целом, технология Web Mining предназначена для поиска необходимой информации и выявления знаний из web-ресурсов, невзирая на несовершенства поисковых систем, а также для анализа структур сегментов сети.

Обобщая все вышесказанное, хочется признать факт того, что на сегодняшний день действительно существует проблема с процессом обработки неструктурированных данных и многие компании уже столкнулись с ней на личном примере. Несмотря на это, информационные технологии развиваются и появляются все более современные программные решения, которые позволят решить данную проблему раз и навсегда.

 

Список литературы:

1. Баргесян А.А., Куприянов М.С, Холод И.И., Тесс М.Д. Анализ данных и процессов: учеб.пособие. – 3-е изд., перераб. и доп. СПб: БХВ – Петербург, 2009. 589 с.

2. Краюшкин Д.В. Методы и средства аналитической обработки информации. Обзор // Информационные технологии и вычислительные системы. – 2008. - №1. – С.83.

3. Кутукова Е.С. Технология Text Mining // - М: Государственный университет управления. - 2012.- С.1-9.

4. Smart Education – Режим доступа: http://www.smart-edu.com/text-mining-v-sisteme-upravleniya-znaniyami.html (Дата обращения – 19.12.2015).

5. Web Mining в системе управления знаниями. – [Электронный ресурс]. – Smart Education – Режим доступа: http://www.smart-edu.com/web-mining-v-sisteme-upravleniya-znaniyami.html. (Дата обращения – 19.12.2015).

6. Web Mining: интеллектуальный анализ данных в сети Internet. – [Электронный ресурс]. – Управление знаниями – Режим доступа: https://sites.google.com/site/upravlenieznaniami/tehnologii-upravlenia-znaniami/text-mining-web-mining/web-mining. (Дата обращения – 20.12.2015).