Программа разработана для специалистов, стремящихся выстроить устойчивую систему обработки и подготовки данных. Курс охватывает все этапы создания ETL- и потоковых пайплайнов: от извлечения данных и их очистки до интеграции с Apache Airflow, Kafka и Spark. Осваиваются инструменты для масштабирования обработки, мониторинга, а также автоматизации подготовки данных для моделей машинного обучения.
Индивидуальный формат позволяет глубже разобраться в темах, адаптировать примеры под задачи слушателя и сразу применять подходы, востребованные в промышленной аналитике и разработке.
Документ по окончании
📜 Удостоверение о повышении квалификации – для слушателей с высшим или средним профессиональным образованием.
📜 Сертификат о прохождении обучения – для всех остальных участников.
Содержание
- 5 модуля
- 40 уроков
- 40 часов
- Блок 1. Создание ETL-процессов8
- 1.1Введение в ETL-процессы
- 1.2Практическая работа №1. Создание базового ETL-скрипта для обработки данных
- 1.3Извлечение данных из различных источников
- 1.4Практическая работа №2. Извлечение данных из различных источников и сохранение в базу
- 1.5Трансформация данных в ETL-процессах
- 1.6Практическая работа №3. Автоматическая очистка данных в ETL-пайплайне
- 1.7Загрузка данных в базы и хранилища
- 1.8Практическая работа №4. Автоматическая загрузка данных в базу данных
- Блок 2. Автоматизация предобработки данных8
- 2.1Автоматическая очистка и нормализация данных
- 2.2Практическая работа №5. Создание модуля очистки данных
- 2.3Автоматизация работы с большими объемами данных
- 2.4Практическая работа №6. Обработка большого объема данных с Dask
- 2.5Управление метаданными и мониторинг ETL-процессов
- 2.6Практическая работа №7. Настройка логирования и мониторинга ETL процесса
- 2.7Распределенная обработка данных
- 2.8Практическая работа №8. Реализация распределенной обработки данных с Apache Spark
- Блок 3. Потоковая обработка данных8
- 3.1Введение в потоковую обработку данных
- 3.2Практическая работа №9. Создание простого потокового процессора на Python
- 3.3Использование Apache Kafka для потоковой обработки
- 3.4Практическая работа №10. Потоковая обработка данных с Apache Kafka
- 3.5Реализация потоковой аналитики с Apache Spark
- 3.6Практическая работа №11. Обработка потоковых данных с Apache Spark
- 3.7Автоматизация потоковых ETL-процессов
- 3.8Практическая работа №12. Автоматизация потокового ETL-пайплайна
- Блок 4. Использование Apache Airflow8
- 4.1Введение в Apache Airflow
- 4.2Практическая работа №13. Установка Airflow и запуск первого DAG
- 4.3Автоматизация ETL с использованием Airflow
- 4.4Практическая работа №14. Разработка ETL-процесса в Airflow
- 4.5Интеграция Airflow с внешними сервисами
- 4.6Практическая работа №15. Подключение Airflow к базе данных и API
- 4.7Оптимизация работы пайплайнов в Airflow
- 4.8Практическая работа №16. Оптимизация работы DAG в Airflow
- Блок 5. Оптимизация ML-пайплайнов8
- 5.1Автоматизация подготовки данных для машинного обучения
- 5.2Практическая работа №17. Автоматизация предобработки данных в ML пайплайне
- 5.3Автоматизация обучения моделей
- 5.4Практическая работа №18. Автоматический подбор модели и её обучение
- 5.5CI/CD для моделей машинного обучения
- 5.6Практическая работа №19. Настройка CI/CD для ML-моделей
- 5.7Итоговый проект по автоматизации пайплайнов
- 5.8Практическая работа №20. Финальный проект по автоматизации данных
Требования
- Знание Python на базовом уровне
- Понимание структуры данных (JSON, CSV, SQL)
- Установленная среда разработки (рекомендации даются в начале курса)
Особенности
- Практика на реальных задачах — каждое занятие включает пошаговую работу с данными
- Инструменты индустриального уровня — Kafka, Spark, Airflow, Dask, MLflow
- Поддержка преподавателя на каждом этапе обучения
- Особый акцент на автоматизацию и масштабируемость решений
Целевая аудитория
- Аналитики и инженеры данных
- Python-разработчики, автоматизирующие обработку данных
- Специалисты, переходящие в сферу ML Ops и Data Engineering