Статус проекта: В процессе реализации.
Университет: Институт перспективных исследований проблемискусственного интеллекта и интеллектуальных систем МГУ имени М.В. Ломоносова (Институт ИИ МГУ)
Руководитель проекта: Воронцов К.В, konstantin.vorontsov@mlsa-iai.ru, Лобачев В.А, vlob@mlsa-iai.ru
Разметка текстов является насущной потребностью в различных областях: редактирование, коррекция, подготовка обучающих выборок для обработки естественного языка. Представляемый проект заключается в создании инструмента для разметки текстов, позволяющего производить все базовые операции, применяемые профессиональными разметчиками. Основная направленность инструмента - разметка, совершаемая в целях подготовки обучающей выборки для алгоритмов машинного обучения в области работ с естественным языком.
Идея разработки данного проекта возникла в связи с необходимостью построения системы искусственного интеллекта для обработки новостных потоков, что, в свою очередь, потребовало формирования специфических обучающих выборок.
Миссия проекта - предоставление читателям возможности осознанного восприятия и объективного анализа информации. В современном мире большинство средств массовой информации создаёт новостные потоки, целью которых является не объективное освещение событий, а идеологическая пропаганда и внедрение в сознание читателя определённого мировоззрения; при этом используются методы пропаганды (манипулятивного деструктивного воздействия), скрывающие истинные цели изданий. Для распознавания таких скрытых воздействий недостаточно использовать выделение ключевых слов или простых семантических конструкций; требуется более глубокая разметка, позволяющая не просто выделять фрагменты текста, но и логически связывать их между собой, добавлять комментарии, помечать фрагменты и другие структуры метками, также имеющими нетривиальную структуру.
Предлагаемый к рассмотрению проект - создание такого инструмента разметки текстов, который позволяет производить все перечисленные выше действия. Работа по разметке текстов в инструменте организуется в соответствии с инструкцией, причём функциональность системы достаточно широка, чтобы настроить её на выполнение различных заданий в широком диапазоне возможностей. Работа производится через сеть Интернет, отдельная установка продукта не требуется. Результаты могут быть проанализированы средствами системы, а также выгружены пользователям.
Толчком для инициирования проекта послужили:
Цель и задачи
создание инструмента разметки текстов, обладающего достаточно широкой функциональностью для анализа и подготовки обучающих выборок для задач обработки естественного языка.
Задачи проекта:
Идея разработки данного проекта возникла в связи с необходимостью построения системы искусственного интеллекта для обработки новостных потоков, что, в свою очередь, потребовало формирования специфических обучающих выборок.
Миссия проекта - предоставление читателям возможности осознанного восприятия и объективного анализа информации. В современном мире большинство средств массовой информации создаёт новостные потоки, целью которых является не объективное освещение событий, а идеологическая пропаганда и внедрение в сознание читателя определённого мировоззрения; при этом используются методы пропаганды (манипулятивного деструктивного воздействия), скрывающие истинные цели изданий. Для распознавания таких скрытых воздействий недостаточно использовать выделение ключевых слов или простых семантических конструкций; требуется более глубокая разметка, позволяющая не просто выделять фрагменты текста, но и логически связывать их между собой, добавлять комментарии, помечать фрагменты и другие структуры метками, также имеющими нетривиальную структуру.
Предлагаемый к рассмотрению проект - создание такого инструмента разметки текстов, который позволяет производить все перечисленные выше действия. Работа по разметке текстов в инструменте организуется в соответствии с инструкцией, причём функциональность системы достаточно широка, чтобы настроить её на выполнение различных заданий в широком диапазоне возможностей. Работа производится через сеть Интернет, отдельная установка продукта не требуется. Результаты могут быть проанализированы средствами системы, а также выгружены пользователям.
Толчком для инициирования проекта послужили:
- Заказ ректора ЗабГУ на актуальные данные для принятия эффективных управленческих решений по организации профориентационной работы и привлечения абитуриентов в вуз.
- Доклад Н. Габдрахманова «Демографическая ситуация и качество приема в вузах Дальневосточного федерального округа» на II Проектно-аналитической сессии ДФО.
- Доклад В Гойко «Кейсы применения аналитики больших данных для решения стратегических задач вузов» на II Проектно-аналитической сессии ДФО.
- Опыт Университетского консорциума исследователей больших данных по продвижению бренда университета
- Планируется использование как традиционных социологических методов исследования (опросы, фокус-группы и т.п.), так и методов и технологий Big data.
Цель и задачи
создание инструмента разметки текстов, обладающего достаточно широкой функциональностью для анализа и подготовки обучающих выборок для задач обработки естественного языка.
Задачи проекта:
- Описание требований к разметке текста для задач обработки естественного языка методами машинного обучения.
- Формализация структур данных, соответствующих современным задачам обработки естественного языка.
- Определение функциональности продукта, удовлетворяющего требованиям.
- Формирование проектной команды.
- Создание программного продукта, имеющего требуемую функциональность.
- Разработка процедур использования разработанной системы.
- Разработка и выполнение пилотных заданий.