Data Analyst
Тестовое задание
Для участия в конкурсе на позицию предлагаем вам решить следующие задания.
Каждое задание направлено на проверку вашего уровня определенных компетенций, важных для аналитика.
Задание 1
**Проверяемая компетенция:**
аналитическое мышление
**Формат решения:**
опишите логику решения
<div style="border: 2px solid black; padding: 10px;">
*Задание:**
Представьте, что вы работаете аналитиком в Додо. Вам доступны все внутренние данные (данные по чекам, клиентам, локациям). В марте 2022 часть Макдональдсов закрылась, часть продолжала работать. Вам необходимо ответить на следующие вопросы:
-
На какие наши метрики, на ваш взгляд, могли повлиять закрытие конкурента?
-
Вам необходимо оценить эффект в рублях на нашу выручку от закрытия конкурента. Опишите, какую методологию бы использовали, чтобы рассчитать эффект.
-
Какие общедоступные данные по Макдональдсам можно было бы использовать для ответа на второй вопрос? Опишите, как бы вы их использовали.|
| Ваше решение: |
|---|
Задание 2
**Проверяемая компетенция:**
основы статистики/проверка гипотез
**Формат решения:**
приложить ipynb/ссылку на colab
<div style="border: 2px solid black; padding: 10px;">
**Задание:**
Предположим, в ряде городов в определенный период проведен тест:
-
В тестовых городах на веб-сайте пиццы располагаются по популярности
-
Во всех остальных — по увеличению цены на пиццу
Вопросы:
-
На какие метрики мог повлиять тест?
-
Сделайте визуальный анализ датасета. Как ведут себя метрики в динамике? Какие распределения в данных?
-
Как можно оценить эффект от теста? Если знаете несколько способов, реализуйте один, а другие опишите письменно.
-
Порассуждайте письменно, какие метрики можно было бы еще оценить, если бы вам были доступны все данные компании.
Тестовый период: 7 апреля - 19 мая
Тестовые города: Пенза, Уфа, Курск, Нижний Тагил, Новокуйбышевск, Орск
Описание датасета:
-
Date: дата -
CityName: город -
OrderSource: источник заказа - mp: мобильное приложение, web: веб-сайт, other - другое -
Category: категория товара -
rto: выручка после скидок -
rto_do: выручка до скидок -
cost: затраты на себестоимость товаров -
tickets: кол-во заказов -
qty: кол-во продуктов -
clients_qty: уникальное кол-во клиентов -
avg_time: среднее время сессии (только по тем, кто оформил заказ) -
avg_price: средняя цена
! В исходном датасете данные уже сгруппированы по Date, CityName, OrderSource, Category.
| Ссылка на датасет: Датасет |
|---|
| Ваше решение: |
|---|
Задание 3
**Проверяемая компетенция:**
знание SQL
**Формат решения:**
вставьте текст запроса в рамку
<div style="border: 2px solid black; padding: 10px;">
**Задание:**
В нашей компании замеряется такой показатель, как “30-дневная активная база”. Для любого дня - это число клиентов за предыдущие 30 дней. (Например, для 2022-01-01 - это число уникальных клиентов, совершивших визит за 30 дней до 2022-01-01, включая 2022-01-01. Для 2022-01-02 - это число уникальных клиентов, совершивших визит за 30 дней до 2022-01-02, включая 2022-01-02 и т.д.)
Допустим у вас есть таблица с чековыми данными по двум городам со следующими полями:
-
cityname- наименование города -
date- дата чека -
orderid- id чека -
clientid- id клиента -
sales- сумма чека в рублях
Данные в таблице с 2022-01-01 по 2022-06-30.
Посчитайте подневную динамику 30-дневной активной базы по каждому городу, отсортируйте по городу и дате по возрастанию.
Пример результирующей таблицы:
| cityname | date | active_base |
|---|---|---|
| city1 | 2022-02-01 | 534 |
| ... | ... | ... |
| city1 | 2022-06-30 | 976 |
| city2 | 2022-02-01 | 3450 |
| ... | ... | ... |
| city2 | 2022-06-30 | 4210 |
| Ссылка на датасет: Датасет |
|---|
Формат предоставления результатов
Любой — документ, презентация, а может быть что-то еще. Будем рады, если ответ будет на Google-диске. Проверьте, пожалуйста, доступ к документу - нужен «доступен всем по ссылке».
Также, вместе с результатами можете поделиться, насколько вам было интересно выполнять задание.
Желаем успешного выполнения!