Java Topic Modeling
Java Topic Modeling, сделать до завтрашнего утра.
Анализ текстовых данных с использованием тематического моделирования (topic modeling) и использование результатов для объединения сообщений в группы.
Тематическое моделирование различными методами.
Варианты типа данных для исследования:
- Научные статьи;
- Относительно большие сообщения в СМИ (размером от 4-х предложений и до 1 листа А4).
Распределить сообщения по репрезентативным группам с использованием topic modeling
Если более человеческим языком, то нужно:
1. Пропарсить в интернете научные статьи или сообщения в СМИ
2. Применить к полученным данным алгоритмы тематического моделирования (2 будет достаточно)
3. Объединить данные по группам исходя из пункта 2
4. Парсинг, тематическое моделирование и объединение данных по группам должно быть в рамках одного запуска программы. То есть запускаем программу и на выходе получаем сообщения, разделенные на репрезентативные группы. В идеале, если возможно, указание для каждой группы темы(или тега), по которой они разделены.
5. Для парсинга лучше всего использовать комментарии к постам каких-нибудь официальных СМИ, например Lenta.ru, Gazeta.ru или Russian.rt.com.