Оценка качества жизни населения регионов РФ на основе цифровых данных: методология анализа контента
Задача На сегодняшний день социальные сети являются повседневным инструментом пользователей для выражения своих мнений и предпочтений. Люди активно реагируют на интересный для них контент, делясь им с другими пользователями и проявляя различные реакции (лайки, комментарии, репосты). В режиме реального времени в социальных сетях генерируются огромные объемы информации; сейчас социальные сети являются одним из самых востребованных источников для анализа социальных процессов, происходящих в обществе. С 2018 года в Центре прикладного анализа больших данных ТГУ реализуется проект «Цифровое качество жизни населения». В рамках исследования на основе данных региональных сообществ социальной сети «ВКонтакте» выявляют, какие проблемы беспокоят людей в каждом регионе РФ, используя алгоритмы машинного обучения. Разработанная система показателей качества жизни включает в себя 8 категорий: образование, здравоохранение, безопасность, социальное обеспечение, работа органов власти, экология, доступность товаров и услуг, ЖКХ и инфраструктура. Выделенные категории охватывают основные сферы жизнедеятельности общества, представляя собой универсальный инструмент получения актуальных сведений для разных заинтересованных лиц – представителей властных структур, бизнеса, ученых-исследователей, руководителей предприятий. Каждая категория обладает специфичными характеристиками и аккумулирует в себе различные события и подтемы. Важно определить, каким образом представлена та или иная категория в контенте сообществ социальной сети, а также оценить ее актуальность для пользователей. Данный подход позволяет, с одной стороны, декомпозировать категории качества жизни; с другой – проанализировать и выявить актуальные темы внутри категории, обсуждаемые в социальной сети. Разработанные методологические принципы помогут в дальнейшем осуществлять поиск и оценку любой тематики в каждой из обозначенных категорий качества жизни. На их основе исследователь сможет проводить более глубокий и систематизированный анализ контента в социальных сетях и определять:
популярные темы (события);
целевые группы, реагирующие на эти темы;
специфику реакций пользователей на события с возможностью детализации данных во времени;
коммуникативные площадки для обсуждения тем.
Таким образом, можно выявить релевантные сообщества для размещения рекламы, наиболее актуальные среди целевой аудитории темы, проследить реакции на какое-либо событие во времени, идентифицировать лидеров мнений, а также использовать выделенные тематики при разработке собственного контент-плана.
Кейс В связи с сегодняшней эпидемиологической ситуацией для пилотного исследования была выбрана обсуждаемая в социальных сетях тематика вакцин от COVID-19 в категории «Здравоохранение». Одним из важных этапов исследования было определить генеральную и выборочную совокупности; для этого были проведены фильтрация и анализ сообществ социальной сети «ВКонтакте» по различным основаниям: характеристики аудитории, тип и объем контента, количественные показатели цифровых следов пользователей, тематика контента. Командой были определены основные коммуникативные площадки для обсуждения вакцинации от COVID-19 и выявлены характеристики сообществ, которые публикуют контент по этой теме. Из контента отобранных сообществ были выгружены тематические сообщения о вакцинации от COVID-19. С помощью тематического моделирования были выявлены топики – события, связанные с тематикой вакцинации от COVID-19, происходящие с августа 2020 года. Временная детализированность данных социальной сети позволила построить графики проявления событий, а также реакций на эти события со стороны пользователей во времени. В процессе исследования были использованы различные методы анализа и выгрузки данных: описательный, регрессионный и корреляционный анализы, тематическое моделирование, API ВКонтакте. В ходе исследования была разработана методика выделения релевантных маркерных слов.
Данные
Случайная выборка сообществ социальной сети «ВКонтакте» и их основные характеристики, выделенные в процессе анализа.
Сообщения со стен отобранных сообществ и их метаданные, размеченные по тематическим топикам.
Тематические сообщения о вакцинации от COVID-19 и их метаданные, размеченные по тематическим топикам.