Большие данные и машинное обучение в когнитивных и социальных науках
Образовательный модуль Научного центра (научной лаборатории) Университета
Лаборатория «Когнитивные и междисциплинарные исследования»

Инициатор (руководитель) образовательного модуля
Кашпур
Виталий Викторович
Об образовательном модуле
Кандидат социологических наук, заведующий кафедрой социологии философского факультета Томского государственного университета, старший научный сотрудник Лаборатории наук о больших данных и проблемах общества ТГУ. Руководитель 64 исследовательских проектов, разработчик и преподаватель экспериментальных образовательных модулей. В 2019 году являлся руководителем групповой проектной работы в рамках обучения по программе CDO (Chief Data Officer) в Томском государственном университете, реализуемой по заказу Агентства стратегических инициатив (АСИ). Эксперт АСИ, член экспертного совета по внутренней политике Администрации Томской области.
Модуль ориентирован на обучение студентов магистратуры, формирование у них комплексных знаний и компетенций, необходимых для профессиональной деятельности и проведения научно-исследовательской работы с применением технологий Big Data, машинного обучения и анализа открытых пользовательских данных социальных сетей.

Модуль включает в себя лекционный, инструментальный и проектный разделы, что позволяет, помимо формирования конкретных результатов обучения, вовлечь обучающихся в режиме пробного действия в реализацию научно-исследовательского проекта по теме «Влияние структурных и содержательных характеристик интернет-активности старшеклассников и студентов на их образовательные достижения» для решения следующих исследовательских задач:
• анализ структурных характеристик интернет активности старшеклассников и студентов (социально-демографический портрет, дружеские связи, временные и пространственные характеристики);
• анализ содержательных характеристик интернет-активности старшеклассников и студентов (персональные интересы, генерируемый контент);
• оценка влияния интернет-активности на формальные и неформальные образовательные достижения старшеклассников и студентов.

Модуль рассчитан на исследователей из разных областей наук: психологов, социологов, программистов, политологов, лингвистов, менеджеров и др. и направлен на формирование и совершенствование следующих компетенций исследователей:
● способность формировать стратегию и методологию когнитивных и социальных исследований с применением технологий Big Data;
● способность обоснованно выбирать и эффективно использовать технологии, методы и инструменты исследования;
● способность собирать, хранить и обрабатывать большие массивы гетерогенных данных, в том числе данных социальных медиа;
● владение методами и инструментальными средствами социально-сетевого анализа;
● владение программными средствами разработки и визуализации данных;
● способность применять алгоритмы машинного обучения к анализу данных социальных сетей;
● владение методами и программными инструментами текстовой аналитики для обработки текстов на естественном языке;
● способность анализировать и интерпретировать полученные результаты.
Объем модуля – 3 з.е., 108 часов (72 аудиторных и 36 СРС)
Партнеры образовательного модуля:
● Федеральное государственное автономное образовательное учреждение высшего образования «Национальный исследовательский Томский государственный университет». Томский государственный университет предоставляет преподавательский состав, базы данных и кейсы для реализации образовательного модуля. Также Томский государственный университет обеспечивает экспертизу групповых проектов, сделанных слушателями по итогам участия в образовательном модуле.
● Университетский консорциум исследователей больших данных. Партнер обеспечивает доступ слушателей образовательного модуля
к Платформе по сбору и анализу данных социальных сетей Университетского Консорциума исследователей больших данных.
Входные компетенции для студентов социогуманитарных направления подготовки:
- владение основами математической статистики
Входные компетенции для студентов IT направлений подготовки:
Форма и критерии отбора обучающихся для освоения образовательного модуля:
Междисциплинарный характер модуля предполагает участие студентов социогуманитарных и IT направлений подготовки. Из общего количества студентов (30), обучающихся на модуле, 15 должны обучаться на социогуманитарных и 15 на IT направлениях подготовки.
- программирование на языке Python
- владение современными информационными технологиями и программным обеспечением для решения исследовательских задач
- способность принимать участие в социогуманитарном исследовании на всех этапах его проведения
- способность осуществлять социальное взаимодействие и реализовывать свою роль в команде
Резюме (от 0 до 30 баллов; резюме описывает следующую информацию о соискателе: направление подготовки, тематика НИРС, перечень публикаций, опыт участия в исследовательских проектах, участие в научных мероприятиях, перечень программного обеспечения (сбор, анализ, визуализация данных) с уровнем владения (начинающий, уверенный, продвинутый), аккаунты в социальных сетях (содержание и структура цифрового следа в них)
Выполнения общих (технических) требований к заявке - прохождение регистрации на сайте Образовательного центра «Сириус»
Мотивационное письмо (от 0 до 20 баллов; мотивационное письмо должно включать ответы на вопросы: почему участнику важно попасть именно на этот образовательный модуль, какие знания и компетенции он планирует развить в результате прохождения обучения, где он сможет использовать их в дальнейшем)
Форма организации отбора обучающихся
1
2
3
4
Решение задания (от 0 до 30 баллов)
канд. социол. наук, заведующий кафедрой социологии философского факультета ТГУ
заведующий лабораторией наук о больших данных и проблемах общества ТГУ
аналитик лаборатории наук о больших данных и проблемах общества ТГУ
Кашпур
Виталий Викторович
Гойко
Вячеслав Леонидович
Губанов
Александр Юрьевич
Кадровое обеспечение образовательного модуля
Мягков
Михаил Георгиевич
научный руководитель лаборатории наук о больших данных и проблемах общества ТГУ
заведующий лабораторией компьютерных средств обучения ИДО ТГУ, старший преподаватель кафедры гуманитарных проблем информатики философского факультета ТГУ
младший научный сотрудник лаборатории наук о больших данных и проблемах общества ТГУ
аналитик лаборатории наук о больших данных и проблемах общества ТГУ
Фещенко
Артем Викторович
Мундриевская
Юлия Олеговна
Петров
Евгений Юрьевич
Щербакова
Виктория Владимировна
ведущий специалист департамента развития человеческого ресурса (Центр национального интеллектуального резерва МГУ им. М.В. Ломоносова), психолог-тренер (Центр тестирования и развития "Гуманитарные технологии" на базе факультета психологии МГУ им. М.В. Ломоносова.)
Перспективы, границы и возможности метода. В лекции демонстрируются различные основания определения концепта "Big Data", показывается ретроспектива развития исследований, основанных на анализе больших данных. Отдельно будут обозначены тезисы существующей дискуссии относительно возможностей и ограничений анализа больших данных в социальных и когнитивных науках.

Преподаватели:
Кашпур Виталий Викторович, Мягков Михаил Георгиевич.
Введение в Big Data
Принципы цифровой аналитики
В лекции описываются ключевые принципы и специфика современной цифровой аналитики, структура аналитической деятельности. Дается представление о ключевых инструментах цифровой аналитики. Также описывается процесс организации аналитических групп и выделяются конкретные уровни и позиции аналитической работы.

Преподаватель:
Кашпур Виталий Викторович.
Проектирование дизайна исследования с использованием технологий и методов Big Data
В лекции описываются основные этапы проведения исследования с использованием технологий и методов сбора и обработки больших массивов данных. В ходе лекции будут представлены основные источники открытых данных, обзор инструментов анализа данных и примеры прикладных проектов на основе обработки открытой информации из социальных медиа.

Преподаватели:
Кашпур Виталий Викторович,
Гойко Вячеслав Леонидович.
Исследование психологических характеристик личности, их взаимосвязь с цифровыми следами
На лекции представляется роль психологической науки в информационном обществе: что происходит с психикой человека и межличностными отношениями под воздействием стремительного развития цифровых технологий?Отдельно будут представлены примеры прикладного применения результатов научных исследований взаимосвязи психологических черт личности и её поведения в цифровом пространстве.

Преподаватели:
Щербакова Виктория Владимировна,
Фещенко Артем Викторович.
Структура модуля (учебный план)
1.1
1.2
1.3
1.4
Лекция познакомит слушателей с основами машинного обучения, историей развития технологии и яркими примерами применения алгоритмов в прикладных сферах. В рамках лекции будут подробно разобраны основные теоретические понятия, а также обзор наиболее популярных инструментов для анализа данных и машинного обучения - библиотек Pandas и Scikit-learn.

Преподаватель:
Гойко Вячеслав Леонидович.
Введение в машинное обучение
Работа с API социальных сетей
Сбор открытой информации. В рамках практического занятия студенты познакомятся с различными способами сбора открытых данных: методами работы с API (программный интерфейс приложения), парсингом открытых данных сайтов и порталов.

Преподаватель:
Петров Евгений Юрьевич.
Платформа по сбору и анализу данных социальных сетей Университетского Консорциума исследователей больших данных
В ходе практического занятия студенты познакомятся с возможностями платформы по сбору и анализу данных социальных сетей на примере выгрузки подписчиков сообщества, друзей и пабликов у пользователей.

Преподаватель:
Петров Евгений Юрьевич.
Основные методы статистического анализа данных
Цель практического занятия познакомить слушателей с основными статистическими методами, применяемыми при анализе данных в различных областях гуманитарных наук, психологии, социологии, лингвистики и пр., научить решать задачи статистического анализа данных, начиная от формулирования исходных задач соответствующей предметной области на языке прикладной статистики, выбора методов решения и критериев качества полученных решений и заканчивая формулировкой полученных выводов на языке предметной области.

Преподаватели:
Губанов Александр Валерьевич, Мягков Михаил Георгиевич.
2.1
2.2
2.3
2.4
В занятии будет представлена методология анализа взаимодействия субъектов (людей, организаций) между собой в контексте различных социальных явлений. Будут проведены различия между структурным анализом, изучающим порядок взаимодействия между субъектами, позиционным анализом, показывающим наиболее влиятельных лиц в сети, а также динамическим анализом, который позволяет проанализировать, как изменяется взаимодействие между ними. В ходе практического занятия обучающиеся смогут построить сеть взаимодействия субъектов социальной сети и проанализировать её структуру, выделить ключевых лидеров при помощи программного продукта Gephi.

Преподаватель:
Мундриевская Юлия Олеговна.
Social Network Analysis: сетевое взаимодействие между субъектами в социальных сетях
Введение в язык программирования Python 3
Практические занятия нацелены на изучение основ языка программирования Python, приобретение навыков работы в современных программных средах разработки, формирование способности самостоятельно создавать алгоритмы и программы с использование языка программирования Python для решения задач в области анализа текстовой информации и автоматизации работы с файлами.

Преподаватель:
Губанов Александр Валерьевич.
Большие данные и машинное обучение в прогнозировании когнитивных особенностей личности
Практическое занятие позволит получить представления о возможностях прикладного применения исследований когнитивных особенностей учащихся с использованием технологий анализа больших пользовательских данных из социальных сетей. Предлагаемый подход позволяет получать дополнительные данные об учащихся, повышать сложность цифровой модели учащегося для прогнозной аналитики и персонализации обучения.

Преподаватели:
Гойко Вячеслав Леонидович, Фещенко Артем Викторович.
Инструменты автоматического анализа текстов
Практическое занятие включает в себя два раздела. Первый - описание принципов и методов автоматического анализа текстов. Второй раздел представляет работу в платформе для автоматического анализа текстов PolyAnalyst. Будут рассмотрены вопросы функционала платформы, примеры аналитических решений, интерфейс программы и ее основные инструменты.

Преподаватель:
Петров Евгений Юрьевич.
2.5
2.6
2.7
2.8
Раздел 1. Введение. 18 аудиторных/9 СРС часов. 0,75 З.Е.
Раздел 1. Введение. 18 аудиторных/9 СРС часов. 0,75 З.Е.
Раздел 3. Групповая проектная работа. 18 аудиторных/9 СРС часов. 0,75 З.Е.
Групповая проектная работа предполагает совместную реализацию конкретных исследовательских задач в рамках команд обучающихся численностью от 6 до 10 человек. В ходе групповой проектной работы обучающиеся используют знания и навыки сформированные в ходе лекций и практических занятий для решения конкретных исследовательских задач.
3.1
Темы групповых проектов
1
Взаимосвязь интернет-активности и образовательных достижений старшеклассниковTell us your name, email and major preferences
2
Взаимосвязь интернет-активности и образовательных достижений студентов
3
Рекомендательная система по оптимизации персональной образовательной траектории
4
Картирование образовательных онлайн-сообществ