Создать нейроку для классификации текстов (машинное обучение)

Код необходимо написать в Google Colab.

1. На вход - csv файлы: мужские сообщения (один csv), женские сообщения (второй csv)
2. Необходимо написать код программы: CNN (свёрточная нейронная сеть), RNN (рекуррентная нейронная сеть), Сиамские сети и гибридные (CNN+RNN и RNN+CNN)
3. Перед написанием программы необходимо, чтобы датасеты (csv файлы) брались из контента google colab,т.е. загружать вручную csv файлы.
4. После загрузки сделать так, чтобы было равное количество мужских твитов и женских твитов (т.к. на равных данных обучаются модели)
5. Должна быть предобработка текста (которую можно по разному крутить, т.е. сам нужную строку закомментить или наоборот убрать #, чтобы выполнялось:
- Приведение к нижнему регистру
- Удаление знаков пунктуации
- Удаление лишних пробелов
- Удаление эмодзи
- токенизация
- удаление стоп-слов
- лемматизация
Это опять же нужно для того, чтобы выбрать наилучший вариант.
6. Далее необходимо прогнать модели. ВАЖНО: ТОЛЬКО 10-ФОЛДОВАЯ КРОССВАЛИДАЦИЯ.
7. На выходе должны получать accuracy и f1-меру
8. Архитектура должна быть адекватной, чтобы достигать 85-90% accuracy >
9. Нужно найти наилучшие параметры для нейронки, для этого можем использовать grid search

Для быстрой связи: @aribunt

Читайте на 123ru.net