Як спрогнозувати річний виторг від групи користувачів за допомогою excel

Сьогодні я розповім, як прогнозувати річний виторг когорти по першому місяцю її існування. Для прогнозу будемо використовувати лінійну регресію.
- Excel (Google-таблиці теж підійдуть, але там трохи інший інтерфейс);
- історичні дані про продажі (на них будемо навчати модель).
Якщо раптом ваш бізнес молодий, і даних за рік поки немає, - нічого страшного. Побудуйте прогноз на той період, за який дані є.
Крок 1: дістаньте дані
Для цієї вправи я підготував спеціальний файл. на якому ви можете потренуватися. Скачайте його і відкрийте в Excel.
Пізніше запросіть вивантажити ваші дані в такому ж форматі. Покажіть цей файл як приклад.

Крок 2: порахуйте виручку на кожного користувача
Когорти, в яких більше людей, швидше за все, принесуть більше грошей просто тому, що там більше людей. Єдиний висновок, який ви зробите з моделі: «потрібно більше покупців». Не дуже корисно. Замість цього спрогнозуємо середню виручку з покупця. Для цього поділимо підсумкову виручку з когорти на кількість людей.
Крок 3: побудуйте графік
Починається найцікавіше. Щоб побудувати модель, потрібно зрозуміти, як пов'язані між собою дані. Для цього побудуємо scatter plot (такі графіки ми все в школі будували).
Кожна точка на графіку - одна когорта. По осі X - виручка за місяць. По осі Y - виручка за рік.
На графіку видно сильна і дуже логічна лінійна залежність: люди, що принесли більше за перший місяць, швидше за все, принесуть більше і за рік.
Питання в тому, наскільки більше?
Крок 4: будуємо модель
Ми всього в парі кроків від перемоги. Додайте на графік лінію тренда. І не забудьте вивести на екран формулу графіка.
Отримана формула - і є потрібна нам модель. Нагадаю, що Y - LTV за рік, а X - LTV за перший місяць. Тобто:
LTV за рік = 4.67 * LTV за місяць - 0,72
«Льоша, ти хочеш сказати, що можна ось так от спрогнозувати виручку за рік за допомогою додавання і множення? Не може бути!"
Саме так. Але ми ще не закінчили. Залишився останній крок.
Крок 5: оцінюємо точність моделі
Під формулою є показник R ^ 2. Він показує, наскільки добре модель описує наявні дані. 0,93 означає «чертовски добре описує».
Але нам набагато цікавіше знати, з якою точністю модель прогнозує майбутнє.
Скажу відразу, моделей зі 100% точністю не буває. Взагалі.
Щоб оцінити точність моделі, розділимо наявні дані на 2 групи: навчальну і тестову.
Навчальну групу пометим нулем, тестову - одиницею.
На основі навчальної групи побудуємо модель: додамо графік з линів тренда і отримаємо формулу.
Формула трохи змінилася. Це нормально.
LTV за рік = 5 * LTV за місяць - 1.72
Тепер застосуємо формулу для прогнозу на тестовій вибірці.
На графіку блакитна лінія - реальний LTV кожної когорти, а помаранчева - прогноз, результат роботи моделі. Дивіться, як вони близько.
У статистиці використовують спеціальний показник MSE, що зводить точність моделі до однієї цифри. Але щоб не перевантажувати вас в одній статті, пропоную почитати про нього на «Вікіпедії».
Повернемося до того, навіщо ми все це робили.
Припустимо, що за місяць ви витратили $ 10 тисяч і залучили 600 нових користувачів. Ці користувачі за місяць принесли $ 2400 виручки.
Вартість одного користувача = $ 10000/600 = $ 16,7
LTV за перший місяць = $ 2400/600 = $ 4
Підставимо значення в модель:
LTV за рік = 5 * $ 4 - 1,72 = $ 18,28
Прогнозний ROMI = $ 18,28 / $ 16,17 = 113%.
P. S. Природно, періоди 30 і 365 днів можна міняти на будь-які інші. Я, наприклад, часто прогнозую перший місяць по першому дню.