Введение
Порог вхождения
Для прохождения курса понадобятся базовые знания Python и SQL. Не нужен большой опыт: достаточно понимать самые простые вещи и уметь запускать код.
Что нужно знать на старте (минимум)
Python - минимальный набор для начала
| № | Тема / Конструкция | Почему это критично для DE-новичка |
|---|---|---|
| 1 | Переменные, типы данных (int, float, str, bool) | Всё остальное строится на этом |
| 2 | Списки, словари, кортежи, множества | 90 % данных в пайплайнах - это именно эти структуры |
| 3 | Циклы for / while, if-elif-else | Основной способ обработки строк в цикле |
| 4 | Функции: def, аргументы, return, *args/**kwargs | Почти весь код DE - это функции |
| 5 | Работа с файлами: open(), with, read/write | Чтение csv/json/parquet - ежедневная задача |
| 6 | Модули и импорт: import pandas | Без этого ничего не запустишь |
| 7 | Обработка исключений: try-except | Пайплайны падают постоянно - нужно уметь ловить ошибки |
| 8 | Основы pandas: read_csv, head, info, loc/iloc, groupby, merge | 70-80 % первой работы junior DE - это именно pandas |
| 9 | Базовый requests + json | Работа с API - очень частая задача |
| 10 | Виртуальные окружения (venv) + pip install | Без этого не пройдёшь собеседование и не сможешь работать |
SQL - минимальный набор для начала
| № | Конструкция | Почему это обязательно |
|---|---|---|
| 1 | SELECT, FROM, WHERE, ORDER BY, LIMIT | База базы |
| 2 | DISTINCT, COUNT, SUM, AVG, MIN, MAX | Простейшая аналитика |
| 3 | GROUP BY + HAVING | Агрегация - 60 % типичных задач junior DE |
| 4 | INNER JOIN, LEFT JOIN, RIGHT JOIN | Соединение таблиц - ежедневно |
| 5 | Фильтрация по датам (BETWEEN, >=, <) | Даты - везде в данных |
| 6 | LIKE, ILIKE, IN, NOT IN, IS NULL | Поиск и очистка данных |
| 7 | CASE WHEN ... THEN ... ELSE ... END | Простые бизнес-правила |
| 8 | Подзапросы в WHERE и FROM (subquery) | Очень часто встречаются на собеседованиях и в работе |
| 9 | CTE (WITH ... AS ...) | Делает сложные запросы читаемыми - любят все |
| 10 | UNION / UNION ALL | Объединение наборов данных |
Этого достаточно, чтобы начать курс. Все остальное будете осваивать по ходу.
Где быстро подтянуть базу
- SQL:
- Python:
💡
Помните, что на этих курсах (по SQL и Python) не нужно проходить всё, достаточно освоить базовые конструкции из таблиц выше. Не нужно углубляться в сложные темы, которые там есть - это не нужно для начала. Иначе вы рискуете потратить много времени на изучение всего подряд, вместо того чтобы начать практиковаться с реальными данными и задачами, что гораздо эффективнее для обучения.