Курс по контент-аналитике

2023-06-17 10:49

Студентов научили готовить «топливо» для машинного обучения — то есть данные, на основе которых ИИ выявляет полезные закономерности и подбирает «математическую формулу» для их анализа.

Компания «Наносемантика» предоставляла доступ к платформе по разметке данных NlabMarker, а также участвовала в проработке учебных модулей. Лучших студентов пригласили на стажировку в компанию.

— Основная проблема любого разработчика искусственного интеллекта — где добыть такой датасет — массив обучающих данных — который будет и качественным, и большим, и релевантным поставленной задаче. Любой достаточно большой датасет требует огромного количества ручного труда: иногда это труд людей без специализации, а иногда — труд врачей, юристов или лингвистов. В любом случае, участник этого процесса — контент-аналитик, разметчик, асессор — должен понимать критерии качества, способы организации работы над разметкой, а также уметь работать в различных инструментах для сбора, разметки и аналитики данных, — объясняет Станислав Ашманов, глава компании «Наносемантика».

Сейчас рынок нейросетей испытывает большую нехватку контент-аналитиков, специалистов, которые умеют собирать, обрабатывать, классифицировать и анализировать текстовый контент для решения задач на основе ИИ в разных отраслях. Студенты ТГУ получили возможность получить эту специальность как дополнительную к основной, и уже в студенчестве найти работу.

— Мы и сами столкнулись с нехваткой хорошо подготовленных контент-аналитиков, когда выполняли большой проект по анализу мнений и настроений российского студенчества в рамках заказа Минобрнауки в прошлом году, — рассказывает Вячеслав Гойко, директор Центра прикладного анализа больших данных ТГУ. — Теперь мы готовы обучать студентов и трудоустраивать их в свои проекты, а также в проекты наших партнеров по Консорциуму исследователей больших данных в других вузах страны.

Благодаря программе, разработчики планируют обеспечить рынок ИИ достаточным количеством специалистов по датасетам, без которых невозможна разработка алгоритмов продвинутой автоматизации.

Михаил Мягков, председатель правления ассоциации «Университетский консорциум исследователей больших данных», заведующий лабораторией экспериментальных методов в общественных и когнитивных науках ТГУ: «Создание на базе ТГУ и Университетского консорциума исследователей больших данный программы по подготовке контент-аналитиков — это свидетельство того, насколько в новом быстро меняющемся мире цифровых технологий есть необходимость в постоянном поиске инновационных подходов к созданию новых образовательных программ. Действительно, любой прикладной анализ данных, да и не прикладной тоже начинается с анализа сырых данных, которые как правило представляют собой огромное количество замусоренного массива цифровой информации, которую нужно сортировать, которую нужно обрабатывать и здесь не обойтись без человеческих глаз, без естественного интеллекта. И вот для того, чтобы эти данные были приготовлены, для того чтобы они были структурированы, нам как раз необходима огромная армия, таких знаете каменщиков на стройке искусственного интеллекта и вот, собственно, ТГУ и Консорциум выступили с инициативой о создании централизованной подготовке большого количества специалистов по контент аналитике. Мы будем создавать механизмы верификации работы данных, будем выдавать сертификаты разных степеней. Эта профессия она со временем на самом деле станет одной из таких, как минимум очень популярный студенческих подработок, но мне кажется в будущем она вырастет во что-то гораздо большее.»