Вековая история ИИ в ТГУ. От вычислительного бюро до Института анализа больших данных и ИИ
Заведующий научно-исследовательской лабораторией прикладного анализа больших данных ТГУ Вячеслав Гойко рассказал в интервью Alma Mater, как ИИ анализирует жалобы людей, помогает формировать рейтинг университетов и составлять новые образовательные программы, способствуя повышению конкурентоспособности выпускников ТГУ.
ИИ «РОДИЛСЯ» В ПРОШЛОМ ВЕКЕ
– Вячеслав, давайте начнем с определения. Сформулируйте, пожалуйста, что такое искусственный интеллект?
– Я буду говорить про искусственный интеллект и про большие данные. То есть здесь вот эта спайка, сам искусственный интеллект без данных невозможен. На каких-то данных вы этот искусственный интеллект должны обучать. В первую очередь искусственный интеллект – это алгоритм, который помогает в принятии решений, либо автоматизирует рутинные операции.
Есть еще общий или сильный ИИ, про разработку которого многие говорят, в теории он будет превосходить человека в когнитивных способностях, именно про него часто снимают фильмы. Мы же сейчас говорим про искусственный интеллект, который не является творцом. Он – инструмент. Настолько умный, насколько вы его обучили.
– Раз речь зашла про отношения ИИ и человека, то насколько люди объективно представляют, что такое искусственный интеллект, и как к нему относятся?
– У Института человека РОМИР есть большое исследование на эту тему – отношение разных групп населения к ИИ. Это августовские данные, итоги опроса 2700 респондентов. Результаты показывают, что мы – россияне – одна из наций, которая лучше всего осведомлена об ИИ.
– В чем заключается осведомленность?
– Россияне имеют представление об ИИ. Кто-то встречался с этим в интернете, кто-то использует некоторые продукты на основе ИИ, например, ChatGPT или GigaChat. Самое интересное, что поколение Z чаще всего выбирает российские решения в области генеративного искусственного интеллекта. И вообще, если посмотреть, кто его использует, то большая часть, а это почти 42 процента, – это поколение Z. А если брать старшее поколение, то здесь мы увидим лишь 11 процентов тех, кто пользуется ИИ, то есть довольно существенный разрыв.
Молодые ребята против регулирования искусственного интеллекта, они выступают за его широкое проникновение в различные сферы жизни, а старшее поколение (50+) меньше его использует и часто хочет его ограничить. Причины для недоверия у людей самые разные. Например, в университетах и образовательных организациях многие преподаватели опасаются, что ИИ их заменит, они станут ненужными.
– Тем не менее сейчас ИИ развивается не просто динамично, а стремительно. За счет чего?
– За счет тех самых больших данных, о которых я говорил в самом начале. Вообще, ИИ на примере нейросетей – это очень старая технология. Так, простейшая нейронная сеть – однослойный перцептрон – была разработана в 1950-е. В нашей стране нейросети начали применять для распознавания текста еще в 90-е годы прошлого века, в прошлом году исполнилось 30 лет первой российской коммерческой технологии распознавания текста OCR Tiger.
Бурный всплеск развития нейронных сетей произошел после 20072008 годов. Дело в том, что тогда случились три важные вещи. Во-первых, появились смартфоны. Примерно в это же время были созданы первые социальные сети, социальная сеть ВКонтакте была запущена в 2006 году. Соцсети и смартфоны – это огромные источники данных о человеке, его поведении. A третий аспект – это очень дешевое хранение. В тот момент жесткие диски стали существенно дешевле, и стало возможным все это накапливать, хранить и обрабатывать.
И вот на этом многообразии данных та самая технология начала работать совершенно иначе, решая гораздо больше задач. Прошло еще немного времени, и вычислительные мощности, необходимые для запуска подобных алгоритмов, стали доступнее. Ваши смартфоны уже могут выполнять многие операции и часто имеют специальный чип, выполняющий вычисления для нейронных сетей.
НУЖНО ЗНАТЬ, ГДЕ ИСКАТЬ
– С 2016 года в ТГУ появился большой спектр проектов на основе больших данных и технологий ИИ. Где вы берете большие данные, и какие именно задачи они помогают решать?
– Из разных СМИ, блогов и так далее. Это первый тип данных. Второй тип данных, которые мы используем, извлекается из соцсетей. Для этого нами разработан и запатентован собственный алгоритм сбора. Третий тип данных – это научные публикации. Раньше мы работали с базами Scopus, Web of Science, сейчас это, к сожалению, технически стало тяжело, но мы работает с базой Open Aleх, где размещено более 245 миллионов научных статей в открытом доступе. Плюс мы собираем большие данные из различных открытых источников, таких, как тематические сайты, всевозможные сайты-отзовики, Википедия и другие.
Еще один источник данных – это сайты-агрегаторы вакансий, HH, «Работа в России», Superjob. Источники больших данных мы обычно выбираем под задачу. Например, для расчетов показателей московского международного рейтинга «Три миссии университета» мы используем данные о выпускниках университетов из интернет-энциклопедии Википедия. Этим мы занимаемся с 2017 года по заказу рейтингового агентства «РАЭКС Аналитика». На базе информации, собранной в социальных сетях, реализуем ряд проектов. Один из них – для Координационного центра при правительстве Российской Федерации. Этот проект направлен на автоматизацию обработки обратной связи от населения по здравоохранению. Все отзывы и жалобы теперь автоматически раскладываются по разным категориям, например, оказание скорой медицинской помощи, диспансеризация, лекарства и их доступность и так далее.
– То, что ИИ может переварить большой массив данных, сомнения не вызывает, но насколько эти данные объективны? Можно ли им доверять?
– Это вполне подходящий материал для оценки. В большинстве социологических опросов участвует в лучшем случае три-пять тысяч человек, а у нас данные 50 000 000 пользователей. Это уже вносит некоторый эффект масштаба и полноты данных, плюс наши данные нереактивные, мы не задаем тот или иной вопрос, а анализируем живое обсуждение. Конечно, есть свои особенности, так, соотношение негатива к позитиву в соцсетях в среднем 5 к 1. Соцсети – это большая жалобная книга, и на это нужно делать поправку.
ИИ ИЩЕТ ТАЛАНТЫ
– Один из самых знаменитых проектов ТГУ на основе ИИ – это поиск абитуриентов. Расскажите о нем.
– Этот проект мы сделали с Артёмом Фещенко из ИДО ТГУ. Казалось бы, сама задача очень простая – взяли аккаунт человека, посмотрели на его подписки и увидели, что там часть подписок по математике, часть по программированию. Значит, его следует приглашать в Высшую IT-школу или в ИПМКН. Но когда у вас таких пабликов в ВК более 300 миллионов, вручную перебрать их не представляется возможным. Как раз для классификации этих пабликов мы использовали алгоритм обработки естественного языка. То есть наши эксперты обучили алгоритм, чтобы он мог различать, где математика, физика, история и так далее. И потом ИИ заходил в паблик, выкачивал немножко данных и классифицировал их, а мы уже из этой базы смотрели, кто есть кто. И с теми, кто больше всего подходил ТГУ, начинали персонально работать.
Ну и, пожалуй, один из самых известных наших проектов – это онлайн-платформа «РосНавык», появившаяся в 2022 году. Многим выпускникам, когда они устраиваются на работу, говорят: «Забудь все, чему тебя учили в университете». Работодатель начинает обучать под себя. Чтобы такого не возникало, необходимо стыковать образование и рынок труда. А как сделать, чтобы любой преподаватель или методист, любой руководитель образовательной программы мог эти данные о требованиях получать? Для этого команда разработчиков компании «Академия Data-diving» и специалисты ТГУ создали аналитическую платформу «РосНавык» для анализа вакансий в России. Мы написали алгоритм, который анализирует более 30 миллионов вакансий на разных сайтах. Анализ, проведенный ИИ, дает объективную оценку рынка труда и понимание запросов работодателей. Эта информация позволяет корректировать образовательные программы в университетах, чтобы их выпускники были максимально конкурентоспособны.
Этот подход мы апробировали при создании совместной магистратуры с Яндекс. Это первая магистерская программа в стране, полностью собранная на основе анализа больших данных. Сейчас мы этот опыт активно внедряем в рамках пилотного проекта по совершенствованию системы высшего образования России, в котором участвует ТГУ. Одна из глобальных задач этого проекта – синхронизация рынка труда и образования. ИИ в этом смысле выступает хорошим помощником. Мы сейчас методологически помогаем факультетам со сборкой новых пилотных программ. Например, ФИТ и ФТФ пересобрали программу по баллистике, где ребята теперь учатся проектировать и собирать беспилотники. В то же время по ходу обучения они получают микроквалификации, которые помогают им выйти на рынок труда уже в студенчестве. Таким образом, они подрабатывают не в магазине или доставщиками еды, а по специальности, получая при этом дополнительные профессиональные навыки. Сейчас этой платформой пользуются 10 тысяч человек, которым ИИ помогает проектировать востребованные образовательные программы и ориентироваться на рынке труда.
ИИ ДЛЯ ВСЕХ И КАЖДОГО
– Вы обучаете большое количество людей на цифровой кафедре. Зачем им всем нужен искусственный интеллект?
– Да, у нас две цифровые программы: «Аналитика данных» и «Специалист в области ИИ и машинного обучения», на которых обучается почти 1500 человек. Кафедру «Аналитика данных» мы запускаем уже третий год, в этот раз спрос на нее вырос почти в два раза. Но настоящий фурор произвел набор на программу по ИИ, которая содержит в себе три трека. Один из них для технарей, которые хотят программировать. Второй – для аналитиков.
Третий трек для тех людей, которые хотят погрузиться в анализ данных, но боятся программирования, при этом они могут заниматься другим, например, размечать данные для машинного обучения.
Мы выгрузили 95000 вакансий, размещенных с мая 2022 года. Они содержат запрос на навыки и компетенции в области искусственного интеллекта. Оказалось, что можно выделить две группы вакансий. Первая – это айтишники-разработчики, а другая группа вакансий, которая очень быстро растет, – пользователи искусственного интеллекта.
Это самые разные люди по профессии, от помощников руководителя до художников, которые умеют пользоваться ИИ. Как показывают данные, по выходу с цифровой кафедры, не имея опыта работы, такие люди будут получать схожую зарплату с айтишниками. Если психолог, филолог, социолог и другие получат дополнительную квалификацию, то они станут очень востребованы на рынке.
– Вячеслав, последний вопрос. В начале декабря планируется открытие Института анализа больших данных и искусственного интеллекта. Расскажите коротко о его концепции. Чем будут заниматься его сотрудники?
– Искусственный интеллект и большие данные выделены как стратегические технологии для нашей страны. И ТГУ, как один из ведущих университетов в этой области, активно участвует в развитии этих технологий. Почти вековая история развития школы анализа данных в ТГУ, начавшаяся с создания вычислительного бюро в 1930 году, заложила мощный фундамент для современных достижений университета.
Кроме того, созданный по инициативе ТГУ Университетский консорциум исследователей больших данных и включающий 77 университетов из пяти стран мира, является крупнейшим профильным сообществом по аналитике данных и ИИ.
Новым этапом развития станет создание специализированного института на базе лаборатории и суперкомпьютерного центра ТГУ. Институт будет решать инжиниринговые задачи и выступать экспертно-аналитическим центром в области больших данных и прикладного ИИ. Растущий запрос реального сектора на технологии и аналитику, а также перспективные направления, такие как ИИ в физике или разработка рейтингов на основе ИИ, открывают широкие возможности для дальнейшего развития нового института.