ВЫЯВЛЕНИЕ ЛИДЕРОВ МНЕНИЙ СОЦИАЛЬНОЙ СЕТИ
Секция: 3. Информационные технологии
XXXIV Студенческая международная заочная научно-практическая конференция «Молодежный научный форум: технические и математические науки»
ВЫЯВЛЕНИЕ ЛИДЕРОВ МНЕНИЙ СОЦИАЛЬНОЙ СЕТИ
В настоящее время с развитием компьютерных технологий у людей появилась возможность общаться виртуально при помощи компьютерных социальных сетей. И все быстрее феномены, порожденные совокупностью технологий Web2.0, завоевывают не только цифровое, но и академическое пространство.
Аналитика социальных сетей – одно из наиболее интенсивно развивающихся направлений актуальной социологии, политологии, психологии и целого ряда других (как гуманитарных, так и технических) дисциплин. Анализ социальных сетей используется для исследования взаимодействий между участниками сети, прогнозирования их поведения, классификации, моделирования информационных потоков в сетях.
Формирование взглядов современного человека происходит не только за счет собственных убеждений и анализа информации, но и с учетом мнений референтной группы. Возможности социальных сетей значительно усилили эту особенность. Следовательно, если рассматривать социальную сеть как арену информационного противоборства, наиболее эффективным способом влияния на целевую аудиторию является воздействие на лидеров мнений, которые, в свою очередь, оказывают влияние на широкие массы пользователей. Один из способов выделения лидеров мнений и будет описан в данной статье.
В классической литературе [2] выделяются два взаимосвязанных определения социальной сети – как социальной структуры и ее специфической интернет реализации.
С точки зрения социальной структуры социальная сеть состоит из множества агентов и определенного на нем множества отношений (способы связи агентов, например дружбы, сотрудничества, знакомства).
В рамках современных информационных технологий, социальная сеть – это интернет-платформа, которая предназначена для построения, отражения и организации социальных взаимоотношений, визуализацией которых являются социальные графы. Таким образом, С точки зрения социального исследователя, сеть представляет собой совокупность социальных акторов и набор связей между ними.
Влияние – процесс и результат изменения индивидом (субъектом влияния) поведения другого субъекта (индивидуального или коллективного объекта влияния), его установок, намерений, представлений и оценок (а также основывающихся на них действий) в ходе взаимодействия с ним [1].
Социальное влияние реализуется в двух процессах: коммуникации (в ходе общения, обсуждения вопросов с авторитетными для агента соседями) и сравнения (в поисках социального одобрения агент принимает представления и действия, которые ожидают от него другие агентами в данной ситуации).
Наиболее сильное социальное влияние на мировоззрение человека оказывает референтная группа, т. е. социальная группа, служащая индивида источником социальных норм и ценностных ориентиров. Исходя из данных о социальных моделях [4] предположим, что лидерами мнений окажутся пользователи с большим количеством социальных связей, чьи публикации вызывают высокое одобрения окружения.
Анализ литературы [2] позволяет выделить несколько общих классов моделей влияния в социальных сетях, например оптимизационные модели, модели независимых каскадов и модели на основе цепей Маркова.
В одной из работ Д.А. Губанова [2] изучается формирование и динамика мнений в социальной сети, моделируемые при помощи цепей Маркова, где динамика влияний – марковский процесс, а мнения рассчитываются при помощи графа влияний.
Агенты социальной сети, представлены в виде множества . Степень влияния агентов друг на друга задается матрицей прямого влияния размерности , где обозначает степень доверия i-го агента j-му агенту. Модель представлена в виде взвешенного социального графа, где доверие между агентами представлено в виде ребер, степень влияния определяется весом ребра.
Предполагается, что в начальный момент времени каждый пользователь социальной сети имеет свое мнение по некоторому вопросу, при этом вещественное число является числовым выражением мнения
i-го агента. Тогда мнения всех агентов сети можно представить в виде вектора-столбца размерности .
С течением времени агенты социальной сети взаимодействуют между собой, выражают и обсуждают свои мнения. Обмен мнениями приводит к тому, что мнение каждого агента корректируется под влиянием мнений агентов, которым данный агент доверяет. Поскольку данное изменение линейно по времени, предположим, что мнение агента в следующий момент времени является взвешенной суммой мнений агентов, которым он доверяет (весами являются степени доверия ):
где: индекс обозначает момент времени.
Рассмотрим первое измененное мнение агентов в векторной записи, которое является произведением матрицы прямого влияния на вектор начальных мнений: .
Нетрудно догадаться, что при длительном взаимодействии, мнения агентов стабилизируются – сходятся к результирующему мнению
Следовательно, матрицей результирующего влияния будет называться предел
Тогда в векторной форме можно записать соотношение
(1)
где: – вектор начальных мнений, – матрица результирующего влияния, – вектор итоговых мнений.
Структуру косвенного влияния также удобно изображать в виде ориентированного графа (агенты – вершины), где стрелками обозначено доверие агентов (стрелка идет от агента к агентам, кому он доверяет; если не связаны друг с другом, то стрелка не проводится).
Исходя из данной модели в [2] выводится величина
(2)
отражающая, среднюю степень итогового доверия всех агентов j-му агенту в текущий момент времени. Эта характеристика и будет отражать влиятельность агента. Агенты с наибольшим показателем – и есть лидеры мнений.
Предложенную формулу с учетом сходимости мнений агентов (1) была приведена к итеративному виду (3):
(3.1)
(3.2)
(3.3)
где: – значение влиятельности пользователя в момент времени , – значение влиятельности пользователя на предыдущей итерации, – степень изменения значения влиятельности на очередном шаге.
Особенностью полученной модели, является то, что ее смысл сводится подсчету социальных связей и коэффициентов прямого влияния. Схожий принцип используется в алгоритмах ссылочного ранжирования, используемых в том числе, в поисковых сервисах (PageRank)[3].
Для выявления лидеров мнений сформирована выборка из пользователей социальной сети. Информация о пользователях и их связях хранится в документоориентированной СУБД MongoDB в формате (4):
(4)
Подсчет влиятельности пользователей производился итеративным алгоритмом по модели Map-Reduce, основанном на формуле (3). MapReduce [6] – программная парадигма для выполнения распределенных вычислений на больших объемах данных, разработанная в компании Google. Пользователю достаточно описать процедуру обработки данных в виде двух функций – map и reduce. В рамках MapReduce вычисления принимают на вход и производят на выходе данные, состоящие из множества пар “ключ-значение”.
Для начала информация о связях пользователей преобразуем к виду (5):
(5)
где: – текущее значение влиятельности пользователя, рассчитываемое по формуле (3.1), – таблица вида , где – степень доверия пользователя пользователю .
Затем на подготовленных данных запускается алгоритм Map-Reduce. Функция map рассматривает каждого пользователя в текущей коллекции, Для каждого пользователя (назовем его) извлекается его и передает таблицу связей и (предыдущее значение рейтинга, формула (3.2)) для использования в следующей итерации, затем функция обрабатывает каждую из связей пользователя .
Функция reduce выполняет сразу две задачи:
1. сбор информации о связях и предыдущих значениях влиятельности для каждого пользователя;
2. подсчет общей влиятельности для каждого пользователя.
Применение операций MapReduce продолжается до тех пор, пока значение влиятельности пользователей в конечном итоге не сойдется к некоторой величине. Это происходит тогда, когда степень изменения значений влиятельности для каждого пользователя (формула (3.3)) становится меньше определенного порогового значения (в нашем случае 0.1%). Выполнение реализации алгоритма заняло 64,2 секунды, для выборки размером в 100 тыс. пользователей. Время выполнения алгоритма на других объемах можно увидеть в таблице 1.
Таблица 1.
Время работы алгоритма
Кол-во пользователей |
Кол-во итераций |
Время, сек. |
100 |
8 |
5,23 |
1000 |
11 |
7,81 |
10000 |
14 |
18,8 |
100000 |
23 |
64,2 |
Таким образом, получен список пользователей и значений их влиятельности. Данные полученные в результате, являются непротиворечивыми (среди лидеров мнений фотографы, игроки в сетевые игры и др.), а также служат отличным базовым материалом для исследований в области информационного маркетинга и управления.