Анализ бизнес показателей проект яндекс github

Permalink

main

Switch branches/tags

Could not load branches
Nothing to show

{{ refName }}
default

Name already in use

A tag already exists with the provided branch name. Many Git commands accept both tag and branch names, so creating this branch may cause unexpected behavior. Are you sure you want to create this branch?

Go to file

  • Go to file

  • Copy path


  • Copy permalink

Cannot retrieve contributors at this time

2.24 MB

Download

  • Open with Desktop

  • Download

  • Delete file

Sorry, something went wrong. Reload?

Sorry, we cannot display this file.

Sorry, this file is invalid so it cannot be displayed.

Permalink

main

Switch branches/tags

Could not load branches
Nothing to show

{{ refName }}
default

Name already in use

A tag already exists with the provided branch name. Many Git commands accept both tag and branch names, so creating this branch may cause unexpected behavior. Are you sure you want to create this branch?

Yandex.Praktikum_DA/07_Анализ бизнес показателей развлекательного приложения Procrastinate Pro+/procrastinate_pro_project.ipynb

Go to file

  • Go to file

  • Copy path


  • Copy permalink

Cannot retrieve contributors at this time

3.36 MB

Download

  • Open with Desktop

  • Download

  • Delete file

Sorry, something went wrong. Reload?

Sorry, we cannot display this file.

Sorry, this file is invalid so it cannot be displayed.

Яндекс. Практикум «Аналитик данных»

Проекты учебного курса

1 Исследование надёжности заёмщиков У нас есть входные данные от банка — статистика о платёжеспособности клиентов. В результате исследования мы должны построить модель кредитного скоринга — специальную систему, которая оценивает способность потенциального заёмщика вернуть кредит банку. pandas
2 Исследование объявлений о продаже квартир Определение рыночной стоимости объектов недвижимости (на базе данных ресурса Яндекс.Недвижимость). Необходимо установить параметры, которые оказывают влиение на финальную стоимость. Это позволит построить автоматизированную систему: она отследит аномалии и мошенническую деятельность. pandas, matplotlib
3 Определение перспективного тарифа для телеком-компании Анализ тарифов мобильного оператора. Необходимо проанализировать поведение клиентов и сделать вывод — какой тариф лучше. В данном проекте я формулирую нулевую и альтернативную гипотезы для проверки средней выручки пользователей из разных регионов/с разними тарифами. pandas, scipy, matplotlib, seaborn, numpy, math
4 Сборный проект-1. Анализ игровой индустрии Аналитика интернет-магазина игр для консолей и ПК. Необходимо выявить определяющие успешность игры закономерности. Это позволит сделать ставку на потенциально популярный продукт и спланировать рекламные кампании. pandas, numpy, matplotlib, seaborn, scipy
5 Аналитика в авиакомпании Необходимо написать парсер для сбора с сайта данных о 10 крупнейших фестивалях года, произвести исследовательский анализ данных, построить графики. pandas, numpy, matplotlib, scipy, plotly.graph_objs, plotly.offline
6 Анализ бизнес-показателей Задача: помочь маркетологам оптимизировать маркетинговые затраты в отделе аналитики Яндекс.Афиши. Расчет бизнес-метрик: Retention rate, Churn Rate, LTV, CAC, ROMI. pandas, numpy, matplotlib, seaborn
7 Анализ результатов AB-теста Аналитика в крупном интернет-магазине. Вместе с отделом маркетинга был подготовлен список гипотез для увеличения выручки.Приоритизируем гипотезы, запускаем A/B-тест и анализируем результаты. Применяем фреймворки ICE, RICE. Строим куммулятивную конверсию. pandas, numpy, matplotlib, scipy, scipy.stats, plotly.graph_objs, collections, datetime
8 Рынок заведений общественного питания Москвы Исследовательский проект для инвесторов по открытию небольшого кафе в Москве. pandas, numpy, matplotlib.pyplot, scipy, plotly.express, plotly.graph_objects, seaborn
9 Сборный проект-2. ААВ-тесты А/А/В-тестирование, множественное тестирование и применение поправок к полученным результатам. pandas, numpy, matplotlib, matplotlib.pyplot, scipy, plotly, mathmath
10 Дашборд и презентация для проекта Яндекс.Дзен В проекте подразумевается создание дэшборда tableau для менеджеров, чтобы автоматизировать процесс отслеживания взаимодействие пользователей с карточками Яндекс.Дзен. Необходимо выгрузить файл данных для дашборда, на его основе создать дашборд на сайте Tableau Public, создать файл с презентацией в формате pdf. postgresql, SQL, sqlalchemy, pandas
11 Проект по курсу Machine Learning Для сети фитнес-центров разрабатываем стратегию взаимодействия с пользователями на основе аналитических данных. Задача проекта — провести анализ и подготовить план действий по удержанию клиентов. В данном проекте на основании метрик: Accuracy, Precision, Recall, F1, ROC_AUC выбираем подходящую модель прогнозирования из двух обученных: LogisticRegression и RandomForestClassifier. Делаем кластеризацию на основании построенной дендограммы и на основании полученных кластеров строим гистограммы распределения, делаем выводы и прогнозы. pandas, seaborn, matplotlibsklearn, scipy.cluster.hierarchy, sklearn.metrics, sklearn.model_selection, sklearn.linear_model, sklearn.ensemble, sklearn.preprocessing, sklearn.cluster plotly

Выпускные проекты/буткемп.

Номер Название (+ссылка nbviewer) Описание проекта Используемые инструменты
1 Мини-проект SQL Нам передали базу данных одного из конкурирующих сервисов. В ней есть информация о книгах, издательствах, авторах, а также пользовательские обзоры на книги. Эти данные помогут сформулировать ценностное предложение для нового продукта. pandas, sqlalchemy
2 Игры — Анализ рекламных источников Необходимо провести исследовательский анализ данных, проанализировать поведение игроков в зависимости от источника перехода, а также проверить статистические гипотезы: время завершения уровня различается в зависимости способа прохождения: через реализацию проекта/через победу над первым игроком. После чего формулируем собственную статистическую гипотезу, дополняем её нулевой и альтернативной гипотезами, проверяем гипотезу с помощью статистического теста. pandas, numpy, matplotlib, scipy, plotly, seaborn
1 Вводный проект. Музыка больших городов Сравниваем данные пользователей Яндекс.Музыки по городам и дням недели Python Pandas 2 Исследование надежности заемщиков Разбираемся, влияет ли семейное положение и количество детей клиента на факт погашения кредита в срок. Анализируем данные о клиентах банка и определяем долю кредитоспособных предобработка данных Python Pandas 3 Исследование объявлений о продаже квартир Исследуем архив объявлений о продаже объектов недвижимости в Санкт-Петербурге и Ленинградской области (основные свойства данных, поиск закономерностей, распределений и аномалий) Python Pandas Matplotlib предобработка данных исследовательский анализ данных визуализация данных 4 Определение перспективного тарифа для телеком-компании Делаем предварительный анализ тарифов на небольшой выборке клиентов. Анализируем поведение клиентов и делаем вывод, какой тариф лучше Python Pandas Matplotlib NumPy SciPy проверка статистических гипотез описательная статистика 5 Сборный проект 1. Анализ рынка продаж компьютерных игр Ищем закономерности в данных о продаже игры и выявляем те, которые определяют их успешность. Это позволият сделать ставку на потенциально популярный продукт и спланировать рекламные кампании Python Pandas NumPy Matplotlib предобработка данных исследовательский анализ данных описательная статистика проверка статистических гипотез 6 Базовый SQL Пишем ряд запросов разной сложности к базе данных, в которой хранятся данные по венчурным инвесторам, стартапам и инвестициям в них SQL PostgreSQL 7 Анализ бизнес-показателей развлекательного приложения На основе данных изучаем поведение пользователей, а также анализируем доходность клиентов и окупаемость рекламы, чтобы предложить рекомендации для отдела маркетинга Python Pandas Matplotlib когортный анализ юнит-экономика продуктовые метрики Seaborn 8 Продвинутый SQL С помощью Python и SQL подключаемся к базе данных, считаем и визуализируем ключевые метрики сервис-системы вопросов и ответов о программировании SQL PostgreSQL 9 Принятие решений в бизнесе Анализируем результаты A/B-тестирования в крупном интернет-магазине, приоритизируем гипотезы Python Pandas Matplotlib SciPy A/B-тестирование проверка статистических гипотез 10 Сборный проект 2. Анализ поведения пользователей мобильного приложения Исследуем воронку продаж и анализируем результаты A/A/B-тестирования в мобильном приложении Python Pandas Matplotlib SciPy A/B-тестирование проверка статистических гипотез Seaborn событийная аналитика продуктовые метрики Plotly визуализация данных 11 Исследование рынка общественного питания Исследование рынка на основе открытых данных о заведениях общественного питания Москвы Python Pandas Matplotlib Seaborn Plotly визуализация данных 12 Дашборд для Яндекс.Дзена и Презентация Разрабатываем и презентуем дашборд для анализа пользовательского взаимодействия в сервисе Яндекс.Дзен (Tableau Public) Python PostgreSQL Tableau продуктовые метрики построение дашбордов 13 Прогнозирование оттока клиентов сети фитнес-центров Разрабатываем модель машинного обучения для прогнозирования оттока клиентов в фитнес-центре. Наша задача — провести анализ, составить портреты клиентов и подготовить план действий по их удержанию Python Pandas Scikit-learn Matplotlib Seaborn машинное обучение классификация кластеризация 14 Выпускной проект. Банки — cегментация пользователей по потреблению продуктов, Презентация и Дашборд; А/B тестирование, SQL Анализируем заемщиков банка (результат оформляем в виде Презентации), проверяем результаты А/B тестирования и подтверждаем гипотезы, разрабатываем дашборд в Tableau Public. изучаем мобильное приложение посредством SQL-запросов. SQL PostgreSQL Python Pandas Scikit-learn Matplotlib Seaborn машинное обучение классификация кластеризация Tableau продуктовые метрики построение дашбордов A/B-тестирование проверка статистических гипотез
Skip to content

GitLab

    • GitLab: the DevOps platform
    • Explore GitLab
    • Install GitLab
    • How GitLab compares
    • Get started
    • GitLab docs
    • GitLab Learn
  • Pricing
  • Talk to an expert

  • /


  • Help

    • Help
    • Support
    • Community forum

    • Submit feedback
    • Contribute to GitLab

    • Switch to GitLab Next
    Projects
    Groups
    Topics
    Snippets

  • Register

  • Sign in

Проекты Яндекс.Практикум

Проекты Яндекс.Практикум


Project ID: 37125043

Star
0

Учебные проекты, созданные за время обучения на программе Аналитика данных.

Find file

Download source code
zip
tar.gz
tar.bz2
tar


Clone

  • Clone with SSH

  • Clone with HTTPS

  • Open in your IDE

    Visual Studio Code (SSH)
    Visual Studio Code (HTTPS)
    IntelliJ IDEA (SSH)
    IntelliJ IDEA (HTTPS)
  • Copy SSH clone URLgit@gitlab.com:zhexter/yandex-praktikum-projects.git
  • Copy HTTPS clone URLhttps://gitlab.com/zhexter/yandex-praktikum-projects.git
  • README

yandex-praktikum-projects

Проекты, выполненные в ходе курса Data Science на Яндекс.Практикум.

Список проектов:

1. Исследование надежности заемщиков

Описание проекта:
Кредитный отдел банка предоставил статистику о платёжеспособности клиентов. Цель — определить, влияет ли семейное положение, количество детей а также заработок клиента на факт погашения кредита в срок. Исследование необходимо для построения модели кредитного скоринга — специальной системы, которая оценивает способность потенциального заёмщика вернуть кредит банку.

Результат:
Выявлена зависимость между потециальным долгом и семейным положением, наличием детей и целью кредита. Наличие зависимости между уровнем дохода и возвратом кредита в срок не подтверждено.

Инструменты и техники:
Pandas, PyMystem3, Python, лемматизация, предобработка данных

Статус проекта:
Закончен

2. Исследование объявлений о продаже квартир

Описание проекта:
В ходе проекта использованы данные сервиса Яндекс.Недвижимость, а именно архив объявлений о продаже квартир в Санкт-Петербурге и соседних населённых пунктах за несколько лет. Цель — научиться определять рыночную стоимость объектов недвижимости. Это позволит построить автоматизированную систему, которая отследит аномалии и мошенническую деятельность.

Выводы:

  • от дня размещения объявления до продажи квартиры обычно проходит 90-100 дней;
  • дороже всего кадратный метр стоит в Санкт-Петербурге и в Пушкине, дешевле всего квартиру можно купить в Выборге;
  • квартиры на первом и последнем этаже дешевле, чем на любом другом;
  • отдаление от центра города связано с уменьшением стоимости недвижимости, при этом центральной цасти С-П это не касается — здесь квартиры одинаково дорогие;
  • квартиры в центре С-П дороже и имеют бОльшую площадь, чем в других районах и населенных пунктах;

Инструменты и техники:
Matplotlib, Pandas, Python, визуализация данных, исследовательский анализ данных, предобработка данных

Статус проекта:
Закончен

3. Определение перспективного тарифа для телеком компании

Описание проекта:
Оператор сотовой связи предлагает клиентам два тарифных плана: «Смарт» и «Ультра». Чтобы скорректировать рекламный бюджет, оператору необходимо понять, какой тариф приносит больше денег. Цель — проанализировать поведение клиентов и сделать вывод — какой тариф лучше. Для этого произведен предварительный анализ тарифов на небольшой выборке клиентов. В распоряжении были данные 500 пользователей оператора: кто они, откуда, каким тарифом пользуются, сколько звонков и сообщений каждый отправил за 2018 год.

Результат:

Проверили 2 гипотезы:

  • Средняя выручка пользователей тарифов «Ультра» и «Смарт» равна — отвергли
  • Средняя выручка пользователей из Москвы равна выручке пользователей из других регионов — отвергнуть не удалось
    Вывод — Тариф ultra приносит компании бОльшую выручку. Стоит сфокусироваться на его продвижении повсеместно — в Москве и других регионах.

Инструменты и техники:
Matplotlib, NumPy, Pandas, Python, SciPy, описательная статистика, проверка статистических гипотез

Статус проекта:
Закончен

4. Изучение рынка игр

Описание проекта:
Из открытых источников доступны исторические данные о продажах магазина компьтерных игр: оценки пользователей и экспертов, жанры и платформы. Цель — выявить определяющие успешность игры закономерности, что поможет продвинуть потенциально популярный продукт и спланировать рекламные кампании.

Выводы:

  1. Планируя рекламную кампанию на 2017 год стоит обратить особое внимание на продвижение платформы PS4 (как более новую версию популярной PS3), а также платформ X360и Wii, и в особенности игр в жанрах Action, Sports, Shooter.
  2. Стоит также не забывать об особенностях рынка и подстроить рекламу конкретно под него. На примере Японии показано, как требования потребителей одной страны могут отличаться от предпочтений основной массы пользователей

Инструменты и техники:
Matplotlib, NumPy, Pandas, Python, исследовательский анализ данных, описательная статистика, предобработка данных, проверка статистических гипотез

Статус проекта:
Закончен

5. Рекомендация тарифов для оператора мобильной связи

Описание проекта:
Оператор мобильной связи хочет построить систему, способную проанализировать поведение клиентов и предложить новый тариф: «Смарт» или «Ультра». Цель — построить модель для задачи классификации с максимально большим значением accuracy, которая выберет подходящий тариф.

Результат:
Построена адекватная модель, подбирающая подходящий тариф для пользователя.

Инструменты и техники:
Pandas, scikit-learn, Python, обучение модели, исследование модели, тестирование модели

Статус проекта:
Закончен

6. Предсказание оттока клиентов

Описание проекта:
Банк столкнулся с проблемой — стали уходить клиенты. Маркетологи решили, что сохранять текущих клиентов дешевле, чем привлекать новых. Цель — спрогнозировать, уйдёт клиент из банка в ближайшее время или нет. Необходимо построить модель с достаточным значением F1-меры (как минимум 0.59), а для построенной модели измерить AUC-ROC, и сравнить её значение с F1-мерой. В распоряжении исторические данные о поведении клиентов и расторжении договоров с банком.

Результат:
Построили модель, прогнозирующую уход клиента. Обучили финальную модель и проверили ее на тестовой выборке. Достигли значения F1 = 0.61. Исследовали метрику AUC-ROC и сравнили её с F1.

Инструменты и техники:
Numpy, scikit-learn, Python, Pandas, предобработка данных, масштабирование признаков, взвешивание классов, измерение метрик F1 и AUC-ROC, downsampling

Статус проекта:
Закончен

7. Выявление прибыльного региона добычи для нефтяной компании

Описание проекта:
Нефтяной компании необходимо решить, где бурить новую скважину. В распоряжении пробы нефти в трёх регионах: в каждом 10 000 месторождений, где измерили качество нефти и объём её запасов. Цель — построить модель машинного обучения, которая поможет определить регион, где добыча принесёт наибольшую прибыль. Проанализировать возможную прибыль и риски техникой Bootstrap.

Выводы:
Построили модель, которая помогла выявить, что для реализации проекта больше всего подходит регион 2. Бурение скважин здесь связано с наименьшими рисками и принесет бОльшую выручку.

Инструменты и техники:
Pandas, scikit-learn, Numpy, Seaborn, Scipy, Bootstrap, предобработка данных, исследовательский анализ данных, обучение модели, исследование модели

Статус проекта:
Закончен

8. Прототип модели машинного обучения для промышленного предприятия

Описание проекта:
Цель проекта — подготовка прототипа модели машинного обучения для промышленного предприятия, которая поможет оптимизировать производство, чтобы не запускать предприятие с убыточными характеристиками.
Модель должна предсказать коэффициент восстановления золота из золотосодержащей руды. В распоряжении данные с параметрами добычи и очистки.

Результат:
Подготовили прототип модели машинного обучения для промышленного предприятия. Проверили ее работу на тестовой выборке с помощью метрики качества sMAPE и сравнения с константной моделью.

Инструменты и техники:
Pandas, scikit-learn, Numpy, СatBoost, Matplotlib, предобработка данных, исследовательский анализ данных, обучение модели, исследование модели, кросс-валидация, масштабирование признаков

Статус проекта:
Закончен

Yandex.Practicum_Data_Science

Certificate : https://drive.google.com/file/d/1Nl63mM8kTpNoc7LFLbsNip1_ivb_DKVv/view?usp=sharing

This repository is mainly for projects I have done under Yandex.Practicum_Data_Science.

Yandex.Practicum_Data_Science online programm helps me to achive new skill and knowledge and prepare me for a career as a data scientist. It helps to learn how to preprocess, organize and clean data, uncover pattern, insights and anomalies, visualize and repsresent the meaningful conclusions, make statistical research on the data, to learn different machine models and neural networks depending on the task and type of given data.

Tips: for data science project with python, I would recommend to install pandas, numpy, scipy, scikit learn, matplotlib, seaborn, tensorflow. These are the most basic libraries.

Part 1 — Data Preprocessing

Subjects covered:

  • different methods of dealing with gaps and anomaly values (artifacts);
  • changing the data type;
  • different methods of determining and dealing with duplicates;
  • data categorization.

Project 1 — Research on the reliability of borrowers

Bank credit department want to analyze how family status, number of kids and other factors. Given data — statitics abour bank clients paying capacity.

Part 2 — Data Analyze

Subjets covered:

  • data visualisation(plots, histogramms, boxplots, subplots and etc.);
  • data slices and filtering (query, logic states, slices);
  • different methods of joining data frames and data within;

Project 2 — Research of apartment sale advertisements in Saint-Petersburg

The goal of this project is to establish the correct parameters of real estate for sale. Clean the data from anomaly values and scammers data. Futher these establishment will help to determine the market values of real estate.

Part 3 — Statistic Analyze

Subjets covered:

  • choose optimal metrics for data statistic description;
  • evaluate discrete and continuous values using different types of histograms;
  • make conclusions about data on statistical indicators;
  • get acquainted with the basics probability theory;
  • determine the type of distribution (normal and binominal);
  • learn how to build and test hypothesis.

Project 3 — Determinition of a promising tariff for a telecom company

The goal is to make a data analyze and make a decision: which tariff is best for clients.

Project 4 — Determinition of a succesfull game for sale

The goal is to make a data analyze and to identify the patterns that determine the success of the game for sale and popularity.

Part 4 — Intro to Machine Learning

Subjects covered:

  • understand the machine learning ideas and theory;
  • mechine learning for regression and classification;
  • scikit-learn library;
  • machine learning metrics;
  • research different machine learning models and determine the best for the task

Project 5 — Machine_Learning_Classification_for_telecom_company_clients

Analyze the data with clients behaivor from project 3. Need to choose the best machine learning model for classification and choose the best model depending on the clients listed in the database. Test the final model with best hyperparameters on the test samples and compare with dummy model for adecvate predictions of the chosen model. For metrics — accuracy score.

Part 5 — Machine Learning

Subjects covered:

  • classification metrics (accuracy, f1, AUC-ROC);
  • classification model with classes disbalance;
  • regression metrics (MAE and R^2);

Project 6 — Prediction the bank client behaivor (stay or leave)

Analyze the client data to predict the behaivor of each client will it stay or leave the bank service. Using F1 and AUC-ROC metrics train and choose the best model for this goal.

Part 6 — Machine Learning in business

Subjects covered:

  • determine the correct metrics for business;
  • lifetime of a data model from scratch to deployment and business usage;
  • real business cases

Project 7 — Predict a location for an oil well

In the region characterisits of different oil wells have been collected (oil quality and oil volume for each well). Depending on this data oil volume and quality is predicted for new wells. It is more efficienty to use a ML to predict then to test each oil well manually. After prediction the region with the maximum total profit is selected according to the oil wells predicted by model.

Project 8 — Predict recovery factor of gold from gold ore.

When the mined ore undergoes primary processing, a crushed mixture is obtained. It is sent to flotation (beneficiation) and two-stage purification. After this technological process the recovery factor of gold must be predicted.

Part 7 — Gradient Boosting

Subjects covered:

  • algorithm of gradient boosting;
  • gradient boosting using python;
  • tunning the gradient boosting;
  • libraries for gradient boosting;

Project 9 — Car cost prediction

Service for the sale of used cars is developing an application to attract new customers. In it, you can quickly find out the market value of your car. Using Historical data: technical characteristics, equipment and prices of cars need to build a model to determine the cost.

Part 8 — Time Rows

Subjects covered:

  • learn to use machine learning with time rows;
  • learn to analyze trends and seasons in time rows;
  • learn to create features from datetime data;

Project 10 — Taxi order prediction

Relying on the past data of taxi orders (datetime data). The goal is to predict the amount of taxi orders.

Part 9 — Machine Learning for text

Subjects covered:

  • text vectorization;
  • TF-IDF;
  • text sentiment analysis;
  • Embeddings, Word2Vec, BERT and etc.

Project 11 — Determine toxic commentaries in a shop-service

The goal is to train a classification model for determining toxic comments in shop service app.

Part 10 — Data Extraction (SQL practice)

Subjects covered:

  • what is data bases (SQL);
  • SQL practice;
  • PySpark;

Project 12 — Data Analyze the SQL database

THe goal is to analyze what are the preferences of airline clients are. Used the given SQL database to collect the needed data.

Part 11 — Neural Networks

Subjects covered:

  • fully connected neural networks
  • convolition neural networks
  • Keras, TensorFlow
  • LeNet, Adam arhitecture
  • Augemntation types

Project 13 — Shop customers age prediction

The goal is to train a neural network with photo set of customers to determine the age of customers in future.

Part 12 — Unsupervised Learning

  • searching anomalies and clusterization
  • k-means, knn-method, isolation forest

Project 14 — Temperature prediction for steel production

The goal is to analyze the data given from different datasets. understand the process of steel production, and train the model which will determine temperature of steel in the end of technological process.

Понравилась статья? Поделить с друзьями:
  • Анализ консультирования в сфере малого бизнеса
  • Анализ организационной культуры компании apple
  • Анализ потерь рабочего времени курсовая работа
  • Анализ работы программы во время ее выполнения
  • Анализ системы управления проектами в компании