Потапова Полина Сергеевна, ML Researcher по направлению NLP лаборатории машинного интеллекта МФТИ, аспирант кафедры «Интеллектуальный анализ данных» МФТИ.
В докладе будет рассказано о задаче поиска тематически близких документов в мультиязыковых текстовых коллекциях с большим числом языков. Для решения задачи используется мультимодальное тематическое моделирование.
Также расскажем о методах, эвристиках, экспериментах по улучшению качества поиска и категоризации текстов научных публикаций. Рассмотрим способы сокращения времени обучения и объёма памяти, занимаемой моделью, для её практического использования.
Парсинг сайтов с помощью библиотек Python
Потапова Полина Сергеевна, ML Researcher по направлению NLP лаборатории машинного интеллекта МФТИ, аспирант кафедры «Интеллектуальный анализ данных» МФТИ.
В докладе будет рассказано о задаче поиска тематически близких документов в мультиязыковых текстовых коллекциях с большим числом языков. Для решения задачи используется мультимодальное тематическое моделирование.
Также расскажем о методах, эвристиках, экспериментах по улучшению качества поиска и категоризации текстов научных публикаций. Рассмотрим способы сокращения времени обучения и объёма памяти, занимаемой моделью, для её практического использования.
Сбор данных с использованием API (Application Programming Interface)