ТЕХНОЛОГИИ TEXT MINING И WEB MINING
Секция: 3. Информационные технологии
лауреатов
участников
лауреатов
участников
XXXIII Студенческая международная заочная научно-практическая конференция «Молодежный научный форум: технические и математические науки»
ТЕХНОЛОГИИ TEXT MINING И WEB MINING
На сегодняшний день все большую популярность приобретает термин “Big Data”, объединяющий в большинстве случаев информацию, которая находится как в структурированном, так и неструктурированном виде. И если структурированные данные поддаются автоматической обработке, то данные, которые относятся к неструктурированному виду, лишены такой возможности [1, с. 211].
В большинстве случаев, около 80% корпоративной, управляющей и регулирующей информации хранится в неструктурированном виде. Данное обстоятельство в значительной мере затрудняет поиск необходимых сведений, что и обуславливает спрос на различные специализированные программные решения для обработки такого рода данных.
В настоящее время существует множество программных продуктов, целью которых является автоматизация информационно-аналитической деятельности. Все они различаются между собой по количеству и качеству выполняемых функций, производительности и другим показателям эффективности. Принимая за основу функциональные возможности данных программных решений, их можно разделить на следующие классы [2, с. 83]:
· Информационно-поисковые системы;
· Системы анализа текстовой информации;
· Лингвистические процессоры;
· Системы визуализации структурированной информации;
· Системы анализа структурированной информации.
Несмотря на все разнообразие проектных решений, наибольшая эффективность в обработке неструктурированных данных достигается за счет интегрированного применения аналитических систем различных классов и технологий Text Mining и Web Mining.
Суть технологии Text Mining лежит на пересечении таких областей, как поиск информации, Data Mining, машинное самообучение, статистика и компьютерная лингвистика. Данная технология глубинного анализа текстов дает возможность обрабатывать большие объемы неструктурированной информации и извлекать знания и высококачественную информацию из текстовых массивов. Данное обстоятельство в значительной степени сокращает время- и трудозатраты человека на поиск необходимых данных [4].
Результаты, полученные благодаря использованию технологии Text Mining, могут быть использованы для математического прогнозирования, анализа уровня напряженности социальной обстановки и анализа рынков. Широкие функциональные возможности данной технологии открывают целый спектр отраслей, в которых она может быть применена, начиная от корпоративной бизнес-аналитики и мониторинга социальных медиа до национальной безопасности и разведки [3, с. 3-4].
Основными стадиями и задачами технологии Text Mining являются:
1. Поиск информации и определение исходных данных.
Этот этап является подготовительным, суть которого сводится к сбору текстовых материалов для анализа. Такие материалы могут содержаться в базах данных, файловых системах и различных Web-ресурсах.
2. Использование четко формализованных статистических и лингвистических методов анализа.
3. Выявление смыслов.
На данном этапе выявляются именованные сущности (наименования организаций, мест, имена людей и т.д.) с помощью различных техник статистического анализа. Использование контекста позволяет определить обозначение того или иного слова в конкретном вхождении.
4. Выявление шаблонов.
5. Выявление перекрестных ссылок.
6. Выявление взаимосвязей, фактов и событий.
7. Смысловой анализ.
Данный этап предназначен для выявления различных форм оценочной информации, таких как мнения, настроения и эмоции.
8. Количественный анализ.
Этот этап является заключительным и предназначен для извлечения семантических или грамматических связей между отдельными словами для понимания смысла стилистических шаблонов, проведения психологического профилирования и т.д. Это достигается за счет использования комплекса техник, заимствованных из социальных наук.
Современный Интернет изобилует различного рода знаниями и информацией, что осложняет процесс поиска необходимых данных. Именно поэтому возникает такая острая необходимость в использовании специализированных программных решений для извлечения полезных знаний и высококачественной информации из сети Интернет. Технология Web Mining может успешно служить данным целям и окончательно решить эту проблему [6].
Как уже было сказано, технология Web Mining предназначена для поиска и извлечения знаний и зависимостей в материалах, размещенных на различных ресурсах web-среды [5].
Данная технология базируется на извлечении знаний из баз данных, эффективном поиске информации, искусственном интеллекте, машинном обучении и обработке естественных языков.
В зависимости от выполняемых задач, можно выделить следующие разновидности технологии Web Mining:
· Анализ использования web-ресурсов (получение данных для определения предпочтений пользователей различных ресурсов);
· Извлечение web-структур (анализ взаимосвязей между web-страницами);
· Извлечение web-контента (анализ содержания документов, хранящихся в электронном виде).
В общем и целом, технология Web Mining предназначена для поиска необходимой информации и выявления знаний из web-ресурсов, невзирая на несовершенства поисковых систем, а также для анализа структур сегментов сети.
Обобщая все вышесказанное, хочется признать факт того, что на сегодняшний день действительно существует проблема с процессом обработки неструктурированных данных и многие компании уже столкнулись с ней на личном примере. Несмотря на это, информационные технологии развиваются и появляются все более современные программные решения, которые позволят решить данную проблему раз и навсегда.
Список литературы:
1. Баргесян А.А., Куприянов М.С, Холод И.И., Тесс М.Д. Анализ данных и процессов: учеб.пособие. – 3-е изд., перераб. и доп. СПб: БХВ – Петербург, 2009. 589 с.
2. Краюшкин Д.В. Методы и средства аналитической обработки информации. Обзор // Информационные технологии и вычислительные системы. – 2008. - №1. – С.83.
3. Кутукова Е.С. Технология Text Mining // - М: Государственный университет управления. - 2012.- С.1-9.
4. Smart Education – Режим доступа: http://www.smart-edu.com/text-mining-v-sisteme-upravleniya-znaniyami.html (Дата обращения – 19.12.2015).
5. Web Mining в системе управления знаниями. – [Электронный ресурс]. – Smart Education – Режим доступа: http://www.smart-edu.com/web-mining-v-sisteme-upravleniya-znaniyami.html. (Дата обращения – 19.12.2015).
6. Web Mining: интеллектуальный анализ данных в сети Internet. – [Электронный ресурс]. – Управление знаниями – Режим доступа: https://sites.google.com/site/upravlenieznaniami/tehnologii-upravlenia-znaniami/text-mining-web-mining/web-mining. (Дата обращения – 20.12.2015).