Интеграл 6/2020

УДК 303.732.4

DOI 10.24411/2658-3569-2020-10125

Анализ атрибутов постов сообществ ВКонтакте

Analysis of attributes of VK community posts

Исследование выполнено при финансовой поддержке гранта Президента Российской Федерации для государственной поддержки исследований молодых российских ученых – кандидатов наук (проект MK-698.2019.6)

Боровых Кристина Олеговна, аспирант, Пермский национальный исследовательский политехнический университет, 614000, РФ, г. Пермь, Комсомольский пр-т, 29

Брагина Дарья Сергеевна, Пермский национальный исследовательский политехнический университет, Пермь, Россия

Мухачева Екатерина Николаевна, Пермский национальный исследовательский политехнический университет, Пермь, Россия

Плотников Андрей Викторович, канд. экон. наук, доцент кафедры менеджмента и маркетинга, Пермский национальный исследовательский политехнический университет, Пермь, Россия, e-mail: plotnikov-av@mail.ru

Borovykh Kristina, postgraduate student, Perm National Research Polytechnic University, Perm, Russia

Bragina Daria, Perm National Research Polytechnic University, Perm, Russia

Mukhacheva Ekaterina Nikolaevna, Perm National Research Polytechnic University, Perm, Russia

Plotnikov Andrei, Candidate of econ. sci., Associate Professor of the Management and Marketing Department, Perm National Research Polytechnic University, Perm, Russia

Аннотация. В статье анализируются атрибуты постов социальной сети ВКонтакте. Посты были собраны из тематических сообществ, посвященные учебным курсам в сфере информационных технологий. Анализ данных происходил в среде Jupyter Notebook на языке Python. В работе проводился корреляционный анализ, определялась публикационная активность по дате и времени. По результатам исследования определили, что низкая публикационная активность связана с празднованием Нового года, а также с празднованием Дня Великой Победы, который приходится на начало мая. Основная публикационная активность по времени суток начинается около 10 утра и заканчивается около 20 часов вечера, что соответствует примерному рабочему времени администраторов сообществ.

Summary. The paper analyzes the attributes of posts on the VK social network. The posts were collected from thematic communities dedicated to training courses in the field of information technology. Data analysis took place in the Jupyter Notebook environment in Python. Correlation analysis was carried out in paper; publication activity was determined by date and time. According to the study results, it was determined that low publication activity is associated with the celebration of the New Year and the Great Victory Day celebration, which falls at the beginning of May. The main publishing activity by time of day starts around 10 am and ends around 8 pm, which corresponds to community administrators’ approximate working hours. 

Ключевые слова: социальная сеть, поведение потребителей, цифровая экономика.

Keywords: social network, consumer behavior, digital economy.

Введение

С ростом популярности Интернет-ресурсов появилось множество задач для решения которых необходимы данные о пользователях, регистрирующихся в социальных сетях, оставляющих комментарии в блогах, на форумах и т.д.

В.О. Чесноков в своей работе [2] отмечает, что атрибуты, включающие в себя демографические характеристики, информацию об интересах, необходимы для анализа общественного мнения, таргетированной рекламы, разработки рекомендательных систем.

Основной проблемой является недоступность этих атрибутов по разным причинам, например, из-за настроек приватности. Вследствие этого возникает задача предсказания отсутствующих или неуказанных атрибутов пользователя.

Большинство существующих методов решения данной проблемы можно разделить на четыре подхода: перенос атрибутов соседних вершин путем простого голосования или по другому правилу; методы, основанные на машинном обучении; методы, основанные на выделении сообществ; предсказание атрибутов по предпочтениям пользователя.

А.Г. Гомзин и С.Д. Кузнецов  [1] отмечают, что абсолютное большинство работ по определению пола, возраста и других атрибутов основано на методах машинного обучения. Решаются такие задачи в несколько этапов: сбор данных, построение (обучение) модели, классификация с использованием полученной модели и оценка ее качества.

Приведенные выше методы особенно актуальны при проведении исследований определенных групп пользователей, при раскрытиях личности анонимных пользователей. Полученные значения могут использоваться для таргетированной рекламы, в рекомендательных системах и других приложениях.

Методы исследования

В работе представлена выборка из 12344 текстов из постов VK-сообществ, посвященных учебным курсам в сфере информационных технологий.

Для анализа используем следующие атрибуты: polarity – тональность текста в диапазоне [-1;1], данные получены библиотекой textblob (Python 3); subjectivity – субъективность текста в диапазоне [0;1], данные получены библиотекой textblob (Python 3); likes – количество симпатий; comments – количество комментариев в посте; reposts – количество активностей с распространения поста; clicks – количество переходов; views – количество просмотров записи. В работе использован корреляционный анализ и графический метод.

Результаты исследования

Для начала посмотрим на распределение признаков (рис. 1). На нормальность распределения претендуют только polarity и subjectivity.

Умеренная корреляция (рис. 2) наблюдается у reposts и likes (0,61); likes и views (0,59). Слабая корреляция у reposts и views (0,42); polarity и subjectivity (0,39). Далее рассмотрим публикационную активность SMM-специалистов или администраторов сообществ VK.

Из графика (рис. 3) видно, что низкая публикационная активность связана с празднованием Нового года, а также с празднованием Днем Великой Победы, который приходится на начало мая.

Основная публикационная активность (рис. 4) по времени суток начинается около 10 утра и заканчивается около 20 часов вечера, что соответствует примерному рабочему времени администраторов сообществ. Важно также отметить, что администраторы возможно знают информацию о времени активности целевых аудиторий и в соответствии с этим временем настраивают размещение постов. Данное время также учитывает широту часовых поясов России.

По атрибутам постов был произведен кластерный анализ методом Kmeans, но, к сожалению, значимых результатов получено не было.

Список литературы

  1. Гомзин А.Г., Кузнецов С.Д. Методы построения социо-демографических профилей пользователей сети Интернет // Труды ИСП РАН. 2015. №4. – с. 129-144. doi:10.15514/ISPRAS-2015-27(4)-7
  2. Чесноков В.О. Предсказание атрибутов профиля пользователя социальной сети путем анализа сообществ графа его ближайшего окружения // Вестник МГТУ им. Н.Э. Баумана. Серия «Приборостроение». 2017. №2 (113). – с. 66-76.

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *