Большинство pet-проектов для начинающих Data Engineer не помогают при трудоустройстве, потому что выглядят как учебные задания: простой парсер, несколько CSV-файлов и базовый SQL. На собеседованиях такие работы почти не обсуждают. Работодателям важнее увидеть понимание ETL-процессов, работы с облачной инфраструктурой и обработки больших объемов данных. Именно поэтому кандидаты, которые изучают data engineer с нуля через практические задачи, получают преимущество уже на этапе технического интервью.
Один из самых полезных pet-проектов — полноценный ETL-конвейер. Его задача — автоматически забирать данные из внешнего API, очищать их, сохранять в хранилище и обновлять аналитические таблицы.
Например, можно построить пайплайн для обработки данных о криптовалютах, авиарейсах или погоде. Важно использовать инструменты, которые реально применяются в компаниях: Apache Airflow, PostgreSQL, Docker и облачное хранилище.
Хороший ETL-проект должен включать:
Такой проект показывает, что кандидат понимает production-подход, а не только умеет писать отдельные скрипты.
Многие junior-кандидаты игнорируют тему аналитических хранилищ, хотя именно она часто становится частью работы Data Engineer. Сильный pet-проект — построение собственного Data Warehouse с витринами данных.
Для этого можно взять открытые данные e-commerce или банковских транзакций и реализовать:
Дополнительно стоит подключить визуализацию через Metabase или Power BI. Это показывает понимание полного цикла работы с данными — от ingestion до бизнес-отчетов.
Компании все чаще используют real-time аналитику, поэтому проекты со streaming-архитектурой сильно выделяют кандидата среди других junior Data Engineer.
Практический вариант — обработка событий из Kafka в режиме реального времени. Например, можно собирать данные о действиях пользователей на сайте, передавать их через Kafka и сохранять агрегаты в ClickHouse или PostgreSQL.
На интервью такие проекты ценятся выше стандартных SQL-задач, потому что демонстрируют знание распределенных систем, очередей сообщений и масштабируемой архитектуры.
Работодатели обращают внимание не на количество pet-проектов, а на их глубину. Один качественный проект с orchestration, логированием, Docker и CI/CD обычно дает больше шансов получить оффер, чем десять учебных репозиториев с базовыми задачами.