Статья:

МЕТОДЫ СТАТИСТИЧЕСКОГО АНАЛИЗА БОЛЬШИХ ДАННЫХ: ВЫЗОВЫ И ВОЗМОЖНОСТИ

Конференция: LXXIX Международная научно-практическая конференция «Научный форум: технические и физико-математические науки»

Секция: Теория вероятностей и математическая статистика

Выходные данные
Хасан А. МЕТОДЫ СТАТИСТИЧЕСКОГО АНАЛИЗА БОЛЬШИХ ДАННЫХ: ВЫЗОВЫ И ВОЗМОЖНОСТИ // Научный форум: Технические и физико-математические науки: сб. ст. по материалам LXXIX междунар. науч.-практ. конф. — № 11(79). — М., Изд. «МЦНО», 2024.
Идет обсуждение
Мне нравится
на печатьскачать .pdfподелиться

МЕТОДЫ СТАТИСТИЧЕСКОГО АНАЛИЗА БОЛЬШИХ ДАННЫХ: ВЫЗОВЫ И ВОЗМОЖНОСТИ

Хасан Айлиза
магистр 1курс, Казахский Национальный педагогический университет имени Абая, Казахстан, г. Алматы

 

METHODS OF STATISTICAL ANALYSIS OF BIG DATA: CHALLENGES AND OPPORTUNITIES

 

Ailiza Khassan

Master’s degree, Abai Kazakh National Pedagogical University, Kazakhstan, Almaty

 

Аннотация. В статье рассматриваются методы статистического анализа для обработки больших данных, с акцентом на выявление актуальных вызовов и возможностей. Целью работы является анализ и систематизация статистических методов, применяемых к большим данным, а также оценка их эффективности и ограничений в условиях роста объема, скорости и разнообразия данных. В исследовании использованы регрессионный анализ, кластеризация, машинное обучение и вероятностные модели, демонстрирующие их адаптивность и эффективность в анализе больших массивов. Результаты показывают, что традиционные статистические методы остаются важными, но их адаптация требует параллельной обработки и распределенных вычислений.

Abstract. The article discusses statistical analysis methods for processing big data, with an emphasis on identifying current challenges and opportunities. The aim of the work is to analyze and systematize statistical methods applied to big data, as well as to assess their effectiveness and limitations in the context of an increase in the volume, speed and diversity of data. The study uses regression analysis, clustering, machine learning and probabilistic models demonstrating their adaptability and effectiveness in analyzing large arrays. The results show that traditional statistical methods remain important, but their adaptation requires parallel processing and distributed computing.

 

Ключевые слова: большие данные, BigData, статистические методы, обработка информации.

Keywords: Big Data, statistical methods, information processing.

 

С быстрым развитием интернета и цифровых технологий вопрос обработки больших объемов данных, накопленных по всему миру, приобретает все большую значимость. На современном этапе особенно актуальны задачи поиска и улучшения методов, позволяющих эффективно обрабатывать эти данные в различных сферах.

Следует отметить, что термин BigData был впервые употреблен в 2008 году редактором журнала Nature Клиффордом Линчем. Он подчеркнул значительный рост объема мировой информации, отметив важность новых инструментов и передовых технологий для их обработки. С увеличением объемов данных остро встал вопрос их систематизации и анализа, так как традиционные методы уже не справляются, и появилась потребность в использовании сложных адаптированных методов обработки данных[1;с. 16].

Большие данные делятся на несколько типов:

  • Структурированные данные: таблицы и базы данных, подходящие для традиционного анализа.
  • Неструктурированные данные: тексты, аудио, видео, для которых требуются сложные алгоритмы обработки.
  • Полуструктурированные данные: данные с определенной структурой, но не строго упорядоченные, такие как файлы JSON и XML[2;с. 56].

Для характеристики больших данных применяется модель 3V: объем (Volume), скорость (Velocity) и разнообразие (Variety). В 2001 году Meta*Group предложила эту модель, подчеркивая значимость управления данными по всем трем параметрам. Позже модель была расширена до четырех V, добавив надежность (Veracity), а затем до пяти и даже семи V, включив жизнеспособность (Viability), ценность (Value), изменчивость (Variability) и визуализацию (Visualization) [3;с. 44].

Анализ данных большого объема (BigData) включает в себя использование различных методов, таких как машинное обучение, искусственный интеллект, статистический анализ, кластеризация, граф-анализ, ассоциативный и временной анализ, визуализация и потоковый анализ. Методы анализа и сферы их применения отличаются по своим характеристикам[4;с. 71].

Статистические методы анализа данных играют ключевую роль в извлечении полезной информации из больших данных, однако из-за их сложности возникают специфические трудности и новые возможности, которые следует учитывать для успешного применения этих методов. Настоящий анализ направлен на исследование данных трудностей и их влияния на результативность анализа[5;с. 112].

Таблица 1.

Вызовы методов статистического анализа больших данных

Категория

Описание

Пример последствий

Объем данных

Традиционные методы неэффективны для анализа больших массивов данных, что может привести к высоким вычислительным затратам

Увеличение времени обработки и снижение срочности принятия решений

Скорость поступления данных

Данные часто поступают в режиме реального времени, что требует обновления аналитических моделей и методов в режиме "онлайн"

Сложность обработки данных в реальном времени и обеспечение актуальности анализа

Высокий размер данных

Наличие большого количества переменных затрудняет анализ и приводит к проблеме "размерного проклятия"

Возрастание времени и сложности расчетов, риск утраты значимости отдельных переменных

Шум и неточности

Большие данные часто содержат ошибки, шумы и неполные данные, что затрудняет их обработку и снижает точность моделей

Снижение достоверности и точности результатов анализа

Изменчивость данных

Данные могут поступать из разных источников и разных форматов, что требует больших усилий для их координации и подготовки

Повышенная сложность предварительной обработки данных и риск неправильного толкования

Этика и конфиденциальность

Сбор и анализ больших данных могут нарушить права пользователей на конфиденциальность, особенно в контексте персонализированных данных

Риски для прав на конфиденциальность и риски потери репутации для организаций

 

Таблица 2.

Возможности методов статистического анализа больших данных

Характеристика

Описание

Пример использования

Улучшенная точность прогноза

Большой объем данных позволяет делать более точные и надежные прогнозы благодаря наблюдениям

Прогнозирование покупательских преференций, повышение точности моделей в финансовом и страховом секторах

Обнаружение скрытых паттернов

Кластеризация и ассоциативный анализ помогают находить скрытые закономерности и сегменты в данных

Сегментация клиентов в маркетинге, выявление мошеннических операций в банковском секторе

Масштабируемость моделей

Такие методы, как параллельные вычисления и распределенные системы, позволяют масштабировать алгоритмы анализа для обработки больших массивов данных

Масштабируемый анализ социальных сетей, обработка данных в реальном времени

Повышение эффективности бизнеса

Анализ данных позволяет автоматизировать процессы и улучшить принятие решений на основе данных

Оптимизация логистических цепочек, персонализация предложений клиентам

Инновации и новые области исследований

BigData способствует развитию новых областей анализа и применения современных методов, таких как глубокое обучение и машинное обучение

Разработка медицинских диагностических систем, автоматизация решений в робототехнике

Обеспечение непрерывного мониторинга и аналитики в реальном времени

Возможность непрерывного анализа данных позволяет быстро выявлять проблемы и реагировать на изменения

Мониторинг состояния оборудования, анализ поведения пользователей на сайтах в реальном времени

 

Для решения описанных проблем обработки больших данных можно использовать следующие статистические методы:

  • Регрессионный анализ (Лассо, Ридж): позволяет работать с многомерными данными, снижая количество переменных в модели.
  • Анализ главных компонентов (PCA): сокращает размер данных, сохраняя при этом основную информацию.
  • Кластеризация (K-средний, DBSCAN): помогает выявлять скрытые шаблоны и сегменты в больших наборах данных.
  • Методы параллельных и распределенных вычислений: ускоряют обработку больших объемов данных, делая её более эффективной.
  • Машинное и глубокое обучение: обеспечивают автоматизацию обучения и точное прогнозирование на больших данных.

Результаты исследования подтверждают значимость статистических методов в анализе больших данных, открывая возможности для оптимизации и повышения эффективности решений в различных сферах. Однако остаются задачи, связанные с масштабированием, улучшением качества данных и защитой конфиденциальной информации. Для дальнейшего прогресса в анализе больших данных требуется сочетание статистических методов с технологиями машинного обучения и искусственного интеллекта.

 

*социальная сеть, запрещенная на территории РФ, как продукт организации Meta, признанной экстремистской – прим.ред.

 

Список литературы:
1. Otsuki A. Big Data Analysis. - М.: LAP Lambert Academic Publishing, - 2018. - P.14–17.
2. Пивоваров А.Н., Oracle для больших данных: Конференция «Oracle Big Data & BI Forum». — Москва, 2014. —С. 47-68.
3. Фаулер М., Прамодкумар Дж. Садаладж. NoSQL: новая методология разработки нереляционных баз данных. - М.: «Вильямс», 2013. — 57 с.
4. Черняк Л.В. Большие Данные - новая теория и практика/ Открытые системы. СУБД. - М.: Открытые системы, 2011. – 147 с.
5. Charya A., Jena A. K, Chatterjee, J. M., Kumar, R., Le D. N. NoSQL Database Classification: New Era of Databases for Big Data \\ International Journal of Knowledge-Based Organizations (IJKBO). – 2019 – P. 110–117.