Текущие исследования

«Тематизатор»

Статус проекта: Идея и прототип
Университет: Институт перспективных исследований проблемискусственного интеллекта и интеллектуальных систем МГУ имени М.В. Ломоносова (Институт ИИ МГУ)
Руководитель проекта: Воронцов К.В, konstantin.vorontsov@mlsa-iai.ru
В тематическом моделировании за 20 лет развития созданы сотни моделей, накоплен значительный опыт решения прикладных задач текстовой аналитики, однако в социо-гуманитарных исследованиях используется (за редкими исключениями) устаревшая модель LDA.

Проект призван ввести в практику социо-гуманитарных исследований современные инструменты тематического моделирования на основе теории аддитивной регуляризации ARTM и модульной библиотеки с открытым доступом BigARTM, позволяющей гибко комбинировать модели.

В результате реализации проекта широкий круг специалистов получит доступ к инструментарию тематического моделирования для решения практических задач анализа текстов, ранее доступному для узкого круга разработчиков.

Толчком для инициирования проекта послужили:
  • Заказ ректора ЗабГУ на актуальные данные для принятия эффективных управленческих решений по организации профориентационной работы и привлечения абитуриентов в вуз.
  • Доклад Н. Габдрахманова «Демографическая ситуация и качество приема в вузах Дальневосточного федерального округа» на II Проектно-аналитической сессии ДФО.
  • Доклад В Гойко «Кейсы применения аналитики больших данных для решения стратегических задач вузов» на II Проектно-аналитической сессии ДФО.
  • Опыт Университетского консорциума исследователей больших данных по продвижению бренда университета
  • Планируется использование как традиционных социологических методов исследования (опросы, фокус-группы и т.п.), так и методов и технологий Big data.

Цель и задачи
ввести в практику социо-гуманитарных исследований современные инструменты тематического моделирования на основе теории аддитивной регуляризации ARTM и модульной библиотеки с открытым доступом BigARTM, позволяющей гибко комбинировать модели.

Задачи проекта:
  • интегрировать BigARTM (http://bigartm.org) в популярный пакет обработки данных Orange;
  • реализовать модули визуализации и настройки параметров;
  • продемонстрировать преимущества подходя ARTM в социо-гуманитарных исследованиях.