Инструмент разметки текстов с использованием унифицированной структуры разметки

Статус проекта: В процессе реализации.
Университет: Институт перспективных исследований проблемискусственного интеллекта и интеллектуальных систем МГУ имени М.В. Ломоносова (Институт ИИ МГУ)
Руководитель проекта: Воронцов К.В, konstantin.vorontsov@mlsa-iai.ru, Лобачев В.А, vlob@mlsa-iai.ru

Разметка текстов является насущной потребностью в различных областях: редактирование, коррекция, подготовка обучающих выборок для обработки естественного языка. Представляемый проект заключается в создании инструмента для разметки текстов, позволяющего производить все базовые операции, применяемые профессиональными разметчиками. Основная направленность инструмента - разметка, совершаемая в целях подготовки обучающей выборки для алгоритмов машинного обучения в области работ с естественным языком.

Идея разработки данного проекта возникла в связи с необходимостью построения системы искусственного интеллекта для обработки новостных потоков, что, в свою очередь, потребовало формирования специфических обучающих выборок.

Миссия проекта - предоставление читателям возможности осознанного восприятия и объективного анализа информации. В современном мире большинство средств массовой информации создаёт новостные потоки, целью которых является не объективное освещение событий, а идеологическая пропаганда и внедрение в сознание читателя определённого мировоззрения; при этом используются методы пропаганды (манипулятивного деструктивного воздействия), скрывающие истинные цели изданий. Для распознавания таких скрытых воздействий недостаточно использовать выделение ключевых слов или простых семантических конструкций; требуется более глубокая разметка, позволяющая не просто выделять фрагменты текста, но и логически связывать их между собой, добавлять комментарии, помечать фрагменты и другие структуры метками, также имеющими нетривиальную структуру.

Предлагаемый к рассмотрению проект - создание такого инструмента разметки текстов, который позволяет производить все перечисленные выше действия. Работа по разметке текстов в инструменте организуется в соответствии с инструкцией, причём функциональность системы достаточно широка, чтобы настроить её на выполнение различных заданий в широком диапазоне возможностей. Работа производится через сеть Интернет, отдельная установка продукта не требуется. Результаты могут быть проанализированы средствами системы, а также выгружены пользователям.

Толчком для инициирования проекта послужили:

Заказ ректора ЗабГУ на актуальные данные для принятия эффективных управленческих решений по организации профориентационной работы и привлечения абитуриентов в вуз.
Доклад Н. Габдрахманова «Демографическая ситуация и качество приема в вузах Дальневосточного федерального округа» на II Проектно-аналитической сессии ДФО.
Доклад В Гойко «Кейсы применения аналитики больших данных для решения стратегических задач вузов» на II Проектно-аналитической сессии ДФО.
Опыт Университетского консорциума исследователей больших данных по продвижению бренда университета
Планируется использование как традиционных социологических методов исследования (опросы, фокус-группы и т.п.), так и методов и технологий Big data.

Цель и задачи
создание инструмента разметки текстов, обладающего достаточно широкой функциональностью для анализа и подготовки обучающих выборок для задач обработки естественного языка.

Задачи проекта:

Описание требований к разметке текста для задач обработки естественного языка методами машинного обучения.
Формализация структур данных, соответствующих современным задачам обработки естественного языка.
Определение функциональности продукта, удовлетворяющего требованиям.
Формирование проектной команды.
Создание программного продукта, имеющего требуемую функциональность.
Разработка процедур использования разработанной системы.
Разработка и выполнение пилотных заданий.