Программа повышения квалификации направлена на освоение инструментов и практик, связанных с созданием, автоматизацией и оптимизацией ETL- и ML-процессов. Освещаются темы извлечения, очистки, трансформации и загрузки данных, использование потоковой обработки (Kafka, Spark), а также внедрение систем оркестрации задач (Airflow). Рассматриваются подходы к автоматизации предобработки и обучения моделей, настройке CI/CD для машинного обучения.
Обучение проводится онлайн, в групповом формате по утверждённому расписанию. Практическая направленность курса обеспечивается за счёт выполнения заданий, приближённых к реальным задачам из сферы обработки и анализа данных.
Документ по окончании
📜 Удостоверение о повышении квалификации – для слушателей с высшим или средним профессиональным образованием.
📜 Сертификат о прохождении обучения – для всех остальных участников.
Содержание
- 5 модуля
- 40 уроков
- 40 часов
- Блок 1. Создание ETL-процессов8
- 1.1Введение в ETL-процессы
- 1.2Практическая работа №1. Создание базового ETL-скрипта для обработки данных
- 1.3Извлечение данных из различных источников
- 1.4Практическая работа №2. Извлечение данных из различных источников и сохранение в базу
- 1.5Трансформация данных в ETL-процессах
- 1.6Практическая работа №3. Автоматическая очистка данных в ETL-пайплайне
- 1.7Загрузка данных в базы и хранилища
- 1.8Практическая работа №4. Автоматическая загрузка данных в базу данных
- Блок 2. Автоматизация предобработки данных8
- 2.1Автоматическая очистка и нормализация данных
- 2.2Практическая работа №5. Создание модуля очистки данных
- 2.3Автоматизация работы с большими объемами данных
- 2.4Практическая работа №6. Обработка большого объема данных с Dask
- 2.5Управление метаданными и мониторинг ETL-процессов
- 2.6Практическая работа №7. Настройка логирования и мониторинга ETL процесса
- 2.7Распределенная обработка данных
- 2.8Практическая работа №8. Реализация распределенной обработки данных с Apache Spark
- Блок 3. Потоковая обработка данных8
- 3.1Введение в потоковую обработку данных
- 3.2Практическая работа №9. Создание простого потокового процессора на Python
- 3.3Использование Apache Kafka для потоковой обработки
- 3.4Практическая работа №10. Потоковая обработка данных с Apache Kafka
- 3.5Реализация потоковой аналитики с Apache Spark
- 3.6Практическая работа №11. Обработка потоковых данных с Apache Spark
- 3.7Автоматизация потоковых ETL-процессов
- 3.8Практическая работа №12. Автоматизация потокового ETL-пайплайна
- Блок 4. Использование Apache Airflow8
- 4.1Введение в Apache Airflow
- 4.2Практическая работа №13. Установка Airflow и запуск первого DAG
- 4.3Автоматизация ETL с использованием Airflow
- 4.4Практическая работа №14. Разработка ETL-процесса в Airflow
- 4.5Интеграция Airflow с внешними сервисами
- 4.6Практическая работа №15. Подключение Airflow к базе данных и API
- 4.7Оптимизация работы пайплайнов в Airflow
- 4.8Практическая работа №16. Оптимизация работы DAG в Airflow
- Блок 5. Оптимизация ML-пайплайнов8
- 5.1Автоматизация подготовки данных для машинного обучения
- 5.2Практическая работа №17. Автоматизация предобработки данных в ML пайплайне
- 5.3Автоматизация обучения моделей
- 5.4Практическая работа №18. Автоматический подбор модели и её обучение
- 5.5CI/CD для моделей машинного обучения
- 5.6Практическая работа №19. Настройка CI/CD для ML-моделей
- 5.7Итоговый проект по автоматизации пайплайнов
- 5.8Практическая работа №20. Финальный проект по автоматизации данных
Требования
- Уверенные навыки работы с Python
- Базовое представление о работе с данными (CSV, SQL, API)
- Установленная среда разработки (рекомендации предоставляются в начале курса)
Особенности
- Полный цикл работы с данными – от извлечения до загрузки в хранилища
- Автоматизация ETL и ML-процессов с использованием Airflow
- Поддержка потоковой обработки данных с Kafka и Spark
- Интеграция Python-скриптов в оркестрацию и CI/CD
- Работа с реальными источниками данных и моделями
- По желанию обучение доступно в индивидуальном формате (1 на 1 с преподавателем), в группе или в формате самостоятельного прохождения
Целевая аудитория
- Специалисты по обработке данных, автоматизирующие ETL- и ML-процессы
- Python-разработчики, внедряющие автоматизацию в пайплайны
- Data Engineers и DevOps-инженеры, работающие с потоковыми задачами
- Специалисты, переходящие с ручной обработки данных к автоматизированным пайплайнам.
- Участники, планирующие выстраивать отказоустойчивые пайплайны с использованием Airflow и Kafka