Парсинг сайта
Сбор и обработка данных с сайта Dili360 через подборку Baidu
Dili360 – тревел-сайт
Собрать тексты с сайта Dili360 (через подборку по ссылку в Baidu), извлечь актуальную туристическую лексику, статьи и ключевые фразы, чтобы предоставить данные для анализа. Все дальнейшие анализы частотности, структуры предложений и стиля текста выполнит нейросеть (ChatGPT).
Этапы работы:
1. Сбор ссылок из подборки Baidu
2. Сбор текстов с сайта Dili360
3. Очистка данных
4. Структурирование данных
Итоги работы:
• Все релевантные тексты с сайта собраны.
• Итоговый объем данных составляет не менее 5000 уникальных фраз.
• Данные очищены и структурированы.
• Файлы подготовлены для загрузки и анализа.
Во вложении подробное ТЗ
Dili360 – тревел-сайт
Собрать тексты с сайта Dili360 (через подборку по ссылку в Baidu), извлечь актуальную туристическую лексику, статьи и ключевые фразы, чтобы предоставить данные для анализа. Все дальнейшие анализы частотности, структуры предложений и стиля текста выполнит нейросеть (ChatGPT).
Этапы работы:
1. Сбор ссылок из подборки Baidu
2. Сбор текстов с сайта Dili360
3. Очистка данных
4. Структурирование данных
Итоги работы:
• Все релевантные тексты с сайта собраны.
• Итоговый объем данных составляет не менее 5000 уникальных фраз.
• Данные очищены и структурированы.
• Файлы подготовлены для загрузки и анализа.
Во вложении подробное ТЗ