Парсинг сайта

Сбор и обработка данных с сайта Dili360 через подборку Baidu
Dili360 – тревел-сайт

Собрать тексты с сайта Dili360 (через подборку по ссылку в Baidu), извлечь актуальную туристическую лексику, статьи и ключевые фразы, чтобы предоставить данные для анализа. Все дальнейшие анализы частотности, структуры предложений и стиля текста выполнит нейросеть (ChatGPT).

Этапы работы:
1. Сбор ссылок из подборки Baidu
2. Сбор текстов с сайта Dili360
3. Очистка данных
4. Структурирование данных


Итоги работы:
• Все релевантные тексты с сайта собраны.
• Итоговый объем данных составляет не менее 5000 уникальных фраз.
• Данные очищены и структурированы.
• Файлы подготовлены для загрузки и анализа.

Во вложении подробное ТЗ

Читайте на 123ru.net