Доработка платформы данных
Есть платформа, размещенная на Яндекс Облаке. Данные с парсеров прилетают в через Kafka Connector в топики и сохраняются на диск S3. Дальше данные забираются по триггеру Spark job-ами в пайплайн, где дедуплицируются, преобразуются и сохраняются в Postgesql и Clickhouse. Текущие задачи: 1) Оптимизация Kafka. 2) Spark Jobs, нужно слегка видоизменить пайплайн, а именно изменить поля взимаемые из json в s3. 3) Нужно решить проблему с мерджем таблиц, а именно: есть несколько одинаковых по структуре таблицы, нужно перегнать данные из них в одну. Читать дальше...