Проект анализ бизнес показателей яндекс практикум

Permalink

main

Switch branches/tags

Could not load branches

Nothing to show

{{ refName }}
default

Name already in use

A tag already exists with the provided branch name. Many Git commands accept both tag and branch names, so creating this branch may cause unexpected behavior. Are you sure you want to create this branch?

Go to file

Go to file
Copy path
Copy permalink

Cannot retrieve contributors at this time

2.24 MB

Download

Open with Desktop
Download
Delete file

Sorry, something went wrong. Reload?

Sorry, we cannot display this file.

Sorry, this file is invalid so it cannot be displayed.

Источник

Yandex.Practicum

Проекты, выполненные во время обучения в Яндекс.Практикум со специальности «Аналитик данных»

Название проекта	Описание	Стек
Project_01 Предобработка данных. «Исследование надежности заемщиков — анализ банковских данных»	Для кредитного отдела банка на основе статистики необходимо выяснить как семейное положение, количесвто детей, уровень дохода и цели клиента влияют на возврат кредита в срок	Pandas, PyMystem3, Python, лемматизация, предобработка данных
Project_02 Исследовательский анализ данных. «Продажа квартир в Санкт-Петербурге — анализ рынка недвижимости»	Исходя из данных архива объявлений о продаже квартир в Санкт-Петербурге и соседних населённых пунктов за несколько лет, необходимо определить рыночную стоимость объектов недвижимости и определить зависимость стоимости квартир от различных параметров, таких как расположение обьекта, количества комнат, высоты потолков и т.д.	Python, Matplotlib, Pandas, визуализация данных, исследовательский анализ данных, предобработка данных
Project_03 Статистический анализ данных. «Определение перспективного тарифа для телеком компании при помощи анализа поведения клиентов»	В телеком компании клиентам предлагается два тарифа: «Смарт» и «Ультра». Для корректировки рекламного бюджета необходимо определить какой тариф более перспективны и приносит больше денег	Python, Pandas, Matplotlib, NumPy, SciPy, проверка статистических гипотез
Project_04 Сборный проект №1. «Изучение закономерностей определяющих успешность игр»	Интернет-магазину игр для платформ, нужно определить,что влияет на успешность игры. Исходя из этих данных дать рекомендации на потенциально популярную игру(в соответствии с платформой) и спланировать рекламные кампании. В распоряжении данные о продажах игр, оценки пользователей и экспертов, жанры и платформы.	Python, Matplotlib, NumPy, Pandas, исследовательский анализ данных, описательная статистика, предобработка данных, проверка статистических гипотез
Project_05 Анализ бизнес-показателей. «Анализ окупаемости рекламы приложения»	В распоряжении есть данные о посещениях приложения новыми пользователями, выгрузка их покупок за этот период, а также статистика рекламных расходов. Предстоит изучить, как люди пользуются продуктом, с каких устройств, когда они начинают покупать, сколько денег приносит каждый клиент, когда он окупается и какие факторы отрицательно влияют на привлечение пользователей.	Python, Pandas, Matplotlib, NumPy, Seaborn, когортный анализ (удержание и конверсия), юнит-экономика(LTV, CAC, ROI)
Project_06 Принятие решений в бизнесе. «Принятие решений в бизнесе на основе данных. Увеличение выручки интернет-магазина.A/B-тест»	Необходимо проанализировать возможности увеличения выручки интернет-магазина, на основании списка гипотез для увеличения выручки, данных о покупках и результатов A/B теста.	Python, Pandas, Matplotlib, NumPy, Seaborn, A/B тест, приоритезация гипотез, проверка статистических гипотез
Project_07 Как рассказать историю с помощью данных. «Исследование рынка заведений общественного питания в Москве»	Для подготовки презентации исследования инвесторам для открытия кафе в Москве, необходимо подготовить исследование рынка заведений общественного питания в Москве.Вы решили открыть небольшое кафе в Москве.	Python, Pandas, Matplotlib, Seaborn, Plotly, Requests, API, HTTP, геокодирование, презентация PowerPoint
Project_08 Сборный проект №2. «Анализ поведения пользователей в мобильном приложении»	Нужно разобраться, как ведут себя пользователи вашего мобильного приложения для покупки продуктов питания. Изучить вороку продаж. Исследовать результаты A/A/B-теста для 3 групп: 2 контрольные и одна экспериментальная (изменение шрифта приложения).	Python, Pandas, NumPy, Seaborn, Matplotlib, Plotly, SciPy, воронки событий, A/B тест
Project_09 Автоматизация. Создание дашборда по пользовательским событиям для Яндекс.Дзен	Используя данные Яндекс.Дзена построить дашборд с метриками взаимодействия пользователей с карточками статей. Подготовить презентацию и дашборд в Tableau	Стек: SQL, Python, SQLAlchem, Tableau, построение дашбордов, подготовка презентации
Project_10 Основы машинного обучения. Прогнозирование вероятности оттока пользователей для фитнес-центров	На основе данных о посетителях сети фитнес-центров «Культурист-датасаентист» спрогнозировать вероятность оттока для каждого клиента в следующем месяце, сформировать с помощью кластеризации портреты пользователей и подготовить план действий по удержанию клиентов	Стек: Python, Pandas, Sklearn, Matplotlib, Seaborn, машинное обучение, кластеризация
Project_final Дипломный проект	Дипломный проект состоит из 3 частей: 1. E-commerce, анализ товарного ассортимента 2. Анализ A/B- теста 3. SQL запросы	Python, Pandas, NumPy, Seaborn, Matplotlib, Plotly, SciPy, Sklearn, машинное обучение, кластеризация, воронки событий, A/B тест, Tableau, построение дашбордов, подготовка презентации, SQLAlchem, SQL

Источник

GitLab

- GitLab: the DevOps platform
- Explore GitLab
- Install GitLab
- How GitLab compares
- Get started
- GitLab docs
- GitLab Learn
Pricing
Talk to an expert

Help
- Help
- Support
- Community forum
- Submit feedback
- Contribute to GitLab
- Switch to GitLab Next
Projects
Groups
Topics
Snippets
Register
Sign in

Проекты Яндекс.Практикум

Project ID: 37125043

Star
0

Учебные проекты, созданные за время обучения на программе Аналитика данных.

Find file

Download source code

zip
tar.gz
tar.bz2
tar

Clone

Clone with SSH
Clone with HTTPS
Open in your IDE

Visual Studio Code (SSH)

Visual Studio Code (HTTPS)

IntelliJ IDEA (SSH)

IntelliJ IDEA (HTTPS)

Copy SSH clone URLgit@gitlab.com:zhexter/yandex-praktikum-projects.git
Copy HTTPS clone URLhttps://gitlab.com/zhexter/yandex-praktikum-projects.git

README

Источник

Аналитик данных — Яндекс.Практикум

Data analyst — Practicum by Yandex

Проекты выполнены в рамках обучения на курсе Яндекс.Практикум

ссылка на курс (course): https://praktikum.yandex.ru/data-analyst/

Описание проектов / Description of projects

1. Исследование музыки больших городов | Основы Python и анализа данных

Используемые библиотеки: pandas

Задача: Исследовала предпочтения и поведение пользователей музыкального сервиса в разных локациях: поиск соответствий и различий в зависимости от дня недели, жанра и интенсивности прослушивания.

1. Exploring the Music of Big Cities | Python basics

Libraries: pandas

Problem: Researched the preferences and behavior of music service users in different locations: finding matches and differences depending on the day of the week, genre and listening intensity.

2. Исследование надёжности заёмщиков | Предобработка данных

Используемые библиотеки: pandas, numpy, matplotlib, seaborn
Также: лемматизация, категоризация данных

Задача: Провела исследование для кредитного отдела банка, влияет ли семейное положение, количество детей, уровень дохода и образования клиента на факт погашения кредита в срок.

2. Research of borrowers’ reliability | Data preprocessing

Libraries: pandas, numpy, matplotlib, seaborn
Also: lemmatization, data categorization

Problem: Carried out a research for the loan department of the bank, does the marital status, number of children, income level and education of the client affect the fact of repaying the loan on time.

3. Исследование объявлений о продаже квартир | Исследовательский анализ данных

Используемые библиотеки: pandas, numpy, matplotlib, seaborn, datetime, pprint
Также: диаграммы размаха

Задача: Определяла рыночную стоимость объектов недвижимости в Санкт-Петербурге и соседних населённых пунктах за несколько лет для сервиса Яндекс.Недвижимость. Устанавливала параметры, которые позволят построить автоматизированную систему: она отследит аномалии и мошенническую деятельность.

3. Research of advertisements for the sale of apartments | Exploratory data analysis

Libraries: pandas, numpy, matplotlib, seaborn, datetime, pprint
Also: plots

Problem: Determined the market value of real estate in St. Petersburg and neighboring settlements for several years for the Yandex.Real Estate service. I set the parameters that would allow the construction of an automated system: it would track anomalies and fraudulent activity.

4. Определение перспективного тарифа для телеком компании | Статистический анализ данных

Используемые библиотеки: pandas, numpy, math, scipy, functools, matplotlib, seaborn
Также: проверка статистических гипотез

Задача: Провела предварительный анализ двух существующих тарифов на небольшой выборке клиентов (500 человек), чтобы определить какой из них приносит больше прибыли, провела анализ поведения клиентов.

4. Determination of a prospective tariff for a telecom company | Statistical data analysis

Libraries: pandas, numpy, math, scipy, functools, matplotlib, seaborn
Also: statistical hypothesis testing

Problem: Conducted a preliminary analysis of two existing tariffs on a small sample of customers (500 people) to determine which one brings more profit, conducted an analysis of customer behavior.

5. Закономерности, определяющие успешность компьютерной игры | Сборный проект 1

Используемые библиотеки (libraries): pandas, numpy, math, scipy, functools, datetime, matplotlib, seaborn

Задача: Выявила определяющие успешность игры закономерности. Это позволит сделать ставку на потенциально популярный продукт и спланировать рекламные кампании. Провела исследование популярности различных игровых платформ и игр за всю историю существования индустрии, в том числе по различным регионам, чтобы выявить особенности предпочтения игроков в разных странах.

5. Patterns that determine the success of a computer game | Collecting project 1

Libraries: pandas, numpy, math, scipy, functools, datetime, matplotlib, seaborn

Problem: Revealed the patterns that determine the success of the game. This will allow you to bid on a potentially popular product and plan advertising campaigns. Conducted a study of the popularity of various gaming platforms and games throughout the history of the industry, including by different regions, in order to identify the peculiarities of player preferences in different countries.

6. Аналитика в авиакомпании | Сбор и хранение данных

Используемые библиотеки: pandas, numpy, functools, matplotlib, seaborn, requests, json, BeautifulSoup
Также: SQL, парсинг данных

Задача: Изучила базы данных и анализ спроса пассажиров на рейсы в города, где проходят крупнейшие фестивали. Определила предпочтения пользователей, покупающих билеты на те или иные направления.

6. Airline Analytics | Data collection and storage

Libraries: pandas, numpy, functools, matplotlib, seaborn, requests, json, BeautifulSoup
Also: SQL, data parsing

Problem: Analyzed databases and analysis of passenger demand for flights to cities where the largest festivals take place. Determined the preferences of users who buy tickets for certain destinations.

7. Аналитика в Яндекс.Афише | Анализ бизнес-показателей

Используемые библиотеки: pandas, numpy, functools, datetime, matplotlib, seaborn
Также: рассчет метрик

Задача: Провела исследование и анализ данных Яндекс.Афиши в целях оптимизировать маркетинговые затраты. В распоряжении есть данные от Яндекс.Афиши с июня 2017 по конец мая 2018 года: лог сервера с данными о посещениях сайта Яндекс.Афиши, выгрузка всех заказов за этот период, статистика рекламных расходов. Проанализировала, как люди пользуются продуктом, когда они начинают покупать, сколько денег приносит каждый клиент, когда клиент окупается.

7. Analytics in Yandex.Shows | Business analysis

Libraries: pandas, numpy, functools, datetime, matplotlib, seaborn
Also: metrics

Problem: Conducted research and analysis of Yandex.Shows data in order to optimize marketing costs. We have data from Yandex.Shows from June 2017 to the end of May 2018: a server log with data on visits to the Yandex.Shows website, unloading of all orders for this period, statistics on advertising costs. I analyzed how people use the product, when they start buying, how much money each client brings, when the client pays off.

8. Аналитика в интернет-магазине. A/B тесты. | Принятие решений в бизнесе на основе данных

Используемые библиотеки: pandas, numpy, math, scipy, matplotlib, seaborn
Также: анализ A/B тестов, проверка гипотез

Задача: Провела приоритезацию гипотез, анализировала результаты A/B-теста.

8. Analytics in the online store. A/B tests. | Data driven business decisions

Libraries: pandas, numpy, math, scipy, matplotlib, seaborn
Also: A/B test analysis, hypothesis testing

Problem: Conducted prioritization of hypotheses, analyzed the results of the A/B test.

9. Рынок заведений общественного питания Москвы | Как рассказать историю с помощью данных

Используемые библиотеки: pandas, numpy, requests, matplotlib, seaborn, functools
Также: построение визуализаций

Задача: Исследовала вопрос — будет ли успешным и популярным на долгое время кафе, в котором гостей обслуживают роботы-официанты. Исследовала рынок заведений в Москве, плотность их распределения, количество посадочных мест, площадь. По результатам анализа подготовлена презентация для инвесторов с рекомендациями. Также при анализе были получены районы расположения кафе-конкурентов.

9. Catering establishments market in Moscow | How to tell a story with data

Libraries: pandas, numpy, requests, matplotlib, seaborn, functools
Also: visualizations

Problem: Investigated the question — will a cafe, where guests are served by robots-waiters, be successful and popular for a long time. I studied the market of institutions in Moscow, the density of their distribution, the number of seats, and the area. Based on the results of the analysis, a presentation was prepared for investors with recommendations. Also during the analysis, the areas of location of the cafe-competitors were obtained.

10. Анализ поведения пользователей мобильного приложения. Анализ ААВ-теста | Сборный проект 2

Используемые библиотеки: pandas, numpy, math, scipy, matplotlib, seaborn
Также: Анализ А/А/В-теста, анализ воронки продаж

Задача: Исследовала поведение пользователей мобильного приложения по продаже питания. Изучила воронку продаж: как пользователи доходят до покупки, сколько пользователей доходит до покупки, а сколько — «застревает» на предыдущих шагах, на каких именно. Проанализировала результаты A/A/B-эксперимента. Пользователей разбили на 3 группы: 2 контрольные со старыми шрифтами и одну экспериментальную — с новыми. Дизайнеры захотели поменять шрифты во всём приложении и необходимо было по результатам A/A/B-эксперимента сделать выводы и принять решение, дать рекомендации.

10. Analysis of mobile application user behavior. AAB test analysis | Collecting project 2

Libraries: pandas, numpy, math, scipy, matplotlib, seaborn
Also: A/A/B test analysis, sales funnel analysis

Problem: Researched the behavior of users of a mobile application for the sale of food. I studied the sales funnel: how users reach the purchase, how many users reach the purchase, and how many get stuck on the previous steps, on which ones. Analyzed the results of the A/A/B experiment. Users were divided into 3 groups: 2 control groups with old fonts and one experimental group with new ones. The designers wanted to change the fonts throughout the application and it was necessary to draw conclusions based on the results of the A/A/B experiment and make a decision, give recommendations.

11. Анализ взаимодействия пользователей с карточками Яндекс.Дзен | Автоматизация (дашборды)

Также: Использование скриптов, Tableau

Задача: Провела анализ пользовательского взаимодействия с карточками статей на Яндекс.Дзен, подготовила презентацию и дашборд в Tableau.

11. Analysis of user interaction with Yandex.Zen cards | Automatisation (dashboards)

Also: Scripting, Tableau

Problem: Analyzed user interaction with article cards on Yandex.Zen, prepared a presentation and a dashboard in Tableau.

12. Прогноз оттока пользователей в фитнес-центрах | Прогнозы и предсказания

Используемые библиотеки: pandas, numpy, matplotlib, seaborn, sklearn, scipy, catboost
Также: EDA, LogisticRegression, RandomForestClassifier, RandomizedSearchCV, CatBoostClassifier, кластеризация

Задача: Спрогнозировала вероятность оттока клиентов (на уровне следующего месяца) для сети фитнес-центров; сформировала типичные портреты клиентов, проанализировала основные признаки, наиболее сильно влияющие на отток, сформулировала основные выводы и разработала рекомендации по повышению качества работы с клиентами.

12. Predict of user churn in fitness centers | Forecasts and Predictions

Libraries: pandas, numpy, matplotlib, seaborn, sklearn, scipy, catboost
Also: EDA, LogisticRegression, RandomForestClassifier, RandomizedSearchCV, CatBoostClassifier, clustering

Problem: Predicted the probability of customer churn (at the level of the next month) for a network of fitness centers; formed typical client portraits, analyzed the main features that most strongly affect the outflow, formulated the main conclusions and developed recommendations for improving the quality of work with clients.

13. ФИНАЛЬНЫЙ ПРОЕКТ | Прогноз оттока клиентов / Анализ AB-теста / SQL

13. FINAL PROJECT | Customer churn prediction / AB test analysis / SQL

13.1 Прогноз оттока клиентов банка

Используемые библиотеки (libraries): pandas, numpy, matplotlib, seaborn, sklearn, scipy, catboost
Также: EDA, CatBoostClassifier, кластеризация

Задача: Проанализировала данные клиентов регионального банка; выделила портреты клиентов склонных и не склонных уходить в отток; провела кластеризацию; спрогнозировала вероятность оттока клиентов (на уровне следующего месяца).

13.1 Prediction for the outflow of bank customers

Libraries: pandas, numpy, matplotlib, seaborn, sklearn, scipy, catboost
Also: EDA, CatBoostClassifier, clustering

Problem: Analyzed data of regional bank clients; identified portraits of customers who are inclined and not inclined to churn; carried out clustering; predicted the probability of customer churn (at the level of the next month).

13.2 Анализ АB-теста

Используемые библиотеки (libraries): pandas, numpy, matplotlib, plotly, seaborn, scipy
Также: проверка гипотез

Задача: Оценила корректность проведения теста, оцнила результаты проведенного теста

13.2 AB Test Analysis

Libraries: pandas, numpy, matplotlib, plotly, seaborn, scipy
Also: hypothesis testing

Problem: Evaluated the correctness of the test, evaluated the results of the test.

13.3 SQL

Используемые библиотеки: pandas, sqlalchemy

Задача: Проанализировала данные по изданным книгам для книжного интернет-магазина

13.3 SQL

Libraries: pandas, sqlalchemy

Problem: Analyzed data on published books for an online bookstore.

Источник

Яндекс практикум, отзыв мазохиста. Курс Аналитик данных

Время на прочтение
15 мин

Количество просмотров 37K

Прелюдия.

Для справки, мазохизм — получение удовольствия человеком от унижений, мучений или насилия над собой, производимых самим собой или другим лицом.

В 2021 году имел «удовольствие» попасть на курсы от Яндекс Практикума, по гос программе от Цифровых Профессий. Теперь спустя почти год, спешу поделиться общими впечатлениями от прохождения данного курса. Не могу сказать, что курс совершенно бесполезный, но в целом, иначе, как постоянные мучением над самим собой данный курс охарактеризовать не могу. Хочу отметить, что к приверженцам мазохизма я себя не отношу, но закрадываются подобные подозрения в отношении тех, кто пишет восторженные отзывы о курсах от Яндекса. Впрочем, люди разные и о вкусах, как известно, не спорят, а вот о преимуществах и недостатках пройденного курса, я готов рассказать.

Все, что начинается хорошо заканчивается плохо, все что начинается плохо, заканчивается еще хуже. Закон Мерфи.

Рассказ достаточно подробный, если вы хотите сразу перейти к сути, можно просто прокрутить вниз, там будут мои выводы.

Знакомство.

Первое знакомство с курсами было достаточно радужным, о курсах именно от Яндекса, и именно по работе с данными, я узнал от хорошего знакомого по работе еще в 2020 году. Мы вместе работали в оптовых продажах в одной строительной сфере, знаем друг друга по работе больше десяти лет и, как это часто бывает у «продажников» в неформальной беседе за «сигаретной палкой» мы периодически делились всевозможными новостями и сплетнями. В очередной раз заведя разговор о кардинальной смене направления деятельности мы оба заговорили об IT и именно тогда, мой товарищ рассказал мне о больших данных, о том, что специалистов в этом направлении не хватает и, что это направление будет активно развиваться в ближайшее время т. к. объемы данных постоянно растут и постоянно будут нужны люди для обработки этих самых данных, не говоря уже о тех, кто может на более глубоком уровне работать с БД. В целом IT направление мне было всегда интересно, правда в тот момент я был зациклен на разработке игр и не особо смотрел на новые направления, но идея с анализом данных меня зацепила: логика проста, по сути это направление на стыке программирования и статистики. т. е. требуется не только писать код но и строить графики, делать выводы, искать закономерности и просто общаться с коллегами в конце концов, а так как люди в продажах, это мягко говоря совсем не «молчуны», возможность живого общения, а не только программирования меня сильно зацепила и как-то мысли сами-собой потекли в этом направлении: ролики на ютубе, пара статей и в целом общая моральная готовность пойти на курсы. Главное, что сильно смущало — цена курсов и необходимость платить за пол года. Двумя годами ранее я уже искал курсы по JavaScrip и тогда взял минималку от HtmlAcademy за 20000р исходя исключительно из тех соображений, что если не понравится то и не жалко. Не понравилось.

Эйфория от знакомства и первое свидание.

Поиск курсов по анализу данных начался с роликов по Python, установил платформу, начал решать задачки, чуть позже начал бесплатный ознакомительный курс от Яндекса, и как раз в этот самый момент на почтовый ящик прилетает письмо с гос услуг о том, что можно взять любой курс по обучению в IT сфере со скидкой 50% Ого! Вот это удача — сразу же подумал я. Хоть какая-то польза от нашего «любимого» государства. На выбор между Яндексом и хотя бы тем же СкилБокс я не потратил ни одной секунды, ведь Яндекс — узнаваемый бренд, думал я, полюбому любой HR знает про них даже за рубежом, а если знают про Яндекс, то и курсы от них будут некой благонадежной ассоциацией и с этим аргументом трудно поспорить.

Подача заявки на гос субсидию оказалась не такой муторной, как я ожидал: я предполагал, что потребуется гора бумажек и подача займет пару месяцев, но на деле до момента одобрения моей заявки с момента регистрации на сайте steps.2035.university прошла примерно неделя, дальше созвон с Яндексом, дружеские «похлопывания друг друга по плечу» по телефону:

Как здорово, что появилась эта скидка! — говорю я.
Как хорошо, что вы пришли именно к нам! — отвечают мне по телефону.
Я точно будут успевать учиться и работать?
Да у вас все получится, конечно будет иногда тяжеловато, но основная, часть наших студентов совмещают работу с учебой!
Ура!
Ура!
У нас все получится!

Радостный вешаю трубку и оплачиваю, даже не глядя в договор оферты, о котором я узнал несколько позже.

Здесь хочу отдельно обратить внимание на стоимость курсов, которая на мой взгляд сильно завышена, при таком количестве студентов в группе по 30-40 человек стоимость от яндекса как раз могла бы быть на уровне 30 000 и при этом срок обязательных курсов можно было бы с легкостью сократить до трех месяцев, разместив остальной курс в качестве дополнения, это конечно мое личное субъективное мнение.

Первая опасная близость.

Проходит две недели с момента оплаты, полная тишина: ни звонков ни писем от яндекса. Набираю сам:

Здрасте, я вот оплатил курсы. По телефону говорили, что сразу распределят на курс — как будто стесняясь собственных слов произношу я.
Да, конечно, оплату мы увидели, подождите, вам на почту придет письмо. Спасибо, что позвонили нам!
Постойте, а можно узнать конкретней, когда должно прийти письмо?
К сожалению точной информации у меня нет.
Хотя бы примерно, в течении недели, месяца, года?
К сожалению точной информации у меня нет. Ожидайте. Спасибо, что позвонили нам!

Первые тревожные мысли начали стучаться в мою бедную голову, через неделю тотальной тишины со стороны Яндекса поток тревожных мыслей стал прерываться матерными междометиями, беру трубку, звоню еще раз.

Добрый день! Как хорошо, что вы позвонили нам! У вас какой-то вопрос?
Да, хочу узнать когда начну обучение.

На мой взгляд, в 21 веке это довольно странная ситуация: звонить спустя три недели после оплаты и узнавать когда же мне окажут оплаченную услугу, но это же яндекс, прелюдии кончились, начинайте привыкать и учитесь получать удовольствие.

Ответ в трубке:

У меня нет точной информации, ожидайте письмо.
Постойте, я оплатил 3 недели назад и вы даже не можете мне сказать когда начнется обучение? У вас на сайте была информация о начале обучения через 2 недели после оплаты.
Да, но сейчас очень много студентов, вам нужно подождать.
Сколько?
У меня нет точной информации, ожидайте письмо.
Если меня это не устраивает?
Вы можете написать нам, мы вернем деньги.
Компенсация за потраченное время?
Нет. Спасибо что позвонили нам!

Поток моих тревожных мыслей иссяк, пошли сплошные матерные междометия.

Итог: оплатил 03.11.2021 года, по телефону после пятого раза пообещали, что курс начнется, как раз перед новым годом, за 2 недели, я радостный, как дурак, взял отпуск рассчитывая спокойно начать обучение без лишней «дерготни» по работе, потом в планах была еще пара недель Новогодних каникул, во время которых так же можно было спокойно учиться, но это же Яндекс — доступ к тренажеру открыли 20.01.2022. Элементарные извинения или предложения компенсации? Вы смеетесь, это же яндекс. Начал привыкать…

«На крючке»

Доступ к тренажеру открыли, на почту прислали инструкции по Slack, по факту первое время я всегда натыкался на одно и то же: перевод стрелок т. е. мне всегда писали к кому обратиться вместо ответа.

Процесс обучения.

Главное, что мне не понравилось — совершенно наплевательское отношение к моему времени. До сих пор не могу понять, как так получается, но факт остается фактом. Я выбираю курсы и оплачиваю их с одной главной целью получить нужную информацию в удобной для меня форме и максимально быстро. На просторах интернета есть масса информации в открытом доступе и можно самостоятельно изучить и статистику, и Tableau, и Python, но на поиски этой информации, её систематизацию нужно потратить не так уж и мало времени. По логике именно за систематизацию этих данных я и плачу, т.е. в первую очередь я плачу за экономию своего времени, по факту все получается совсем не так.

Суть тренажера построена таким образом, что не решив одной задачи ты не можешь перейти к следующей, логика проста и понятна, никто не спорит, но по факту это оборачивается массой заданий по принципу «Выведите на экран ”Hello World!”», увы это не шутка, вот пара примеров из окончания курсов, на минутку, эти задания появляются спустя 4-5 месяцев обучения:

7.Сгруппируйте данные по столбцу ‘month’ и найдите среднюю позицию в выдаче по месяцам (level). Результат группировки выведите на экран. Подсказка: Последовательно вызовите методы groupby() и mean().

Код решения:

print(position.groupby('month').mean())

>>>

level

month

2 1.750000

3 5.769231

4 6.214286

Ответ не принят. Пишу в тех поддержку, ответ спустя 20 минут:

Приветствуем! В задаче нужно найти и вывести на экран среднюю позицию в выдаче(level) по месяцам. Для этого нам нужно сгруппировать столбец level по месяцам и применить агрегирующую функцию mean().

Немного поправьте код и задача решена.

Делаю какие-то правки, тренажер опять не принимает, отсылаю код, ответ спустя еще 20 минут:

В этой задаче не нужно создавать новый датафрейм. Из группировки по столбцу ‘month’ выберите столбец ‘level’ и примените к нему метод .mean().

Методом «научного тыка» все же нашел правильное решение:

print(position.groupby(‘month’)[‘level’].mean())

>>>

month

2 1.750000

3 5.769231

4 6.214286

Name: level, dtype: float64

Конечно, кто-то может сказать, что ничего страшного, что именно так и учатся программированию, но почему за свой счет в течении часа, а то и двух я должен заниматься поиском подобных решений? На мой взгляд подобные мелочи должны решаться в течении пяти минут, и это максимум. По факту получается, что здесь час-полтора, там минут тридцать и в итоге не успевание по курсу, за которое я еще должен доплачивать. Забавно.

В курсе появился подраздел необязательный к прохождению «Продвинутый SQL» и здесь я совершенно согласен, если студенту понадобится в будущем информация по запросам, он в любой момент может открыть тренажер и не лазить по интернету в непонятном поиске. На мой взгляд половину пройденного курса можно было отправить в рекомендательный, а не обязательный раздел.

Тут же хочу отдельно отметить форму обращения в тех поддержку, никаких инструкций по данному поводу нет, и на начальном этапе на построение запросов в тех поддержку уходило немало нервов, по сути это напоминает переписку с гос органами или обычной тех поддержкой. Вполне возможно, что главный “Soft Skill” который вы можете прокачать на данном курсе это переписка с чатом поддержки. Конкретизирую:

Мы очень рады, что вы к нам обратились но сейчас все заняты, вам нужно подождать.
Пожалуйста скопируйте код и пришлите нам ссылку.
Пожалуйста пришлите нам номер задания.
Пожалуйста пришлите нам текст задания.
Пожалуйста пришлите нам ссылку на Ваш курс.

Плюсуйте сюда ожидания в ответах по 10-20 минут и в итоге каждый день обучения это как минимум пол часа, а то и час-полтора потраченного времени на беспомощное ожидание. Получить общее время Вашего личного простоя за пол года, думаю каждый сможет самостоятельно.

Приплюсуйте сюда время работы чат с 10 утра по Москве до 7 вечера, позже сдвинули до 10 вечера, возможно уже сейчас внесли какие-то изменения. Благодаря такому графику я не один раз натыкался на ситуации, когда не могу пройти задание в 7 или 8 утра и приходилось ждать ответа в тех поддержке или в Slack. Оперативность в Slack так же мягко говоря не блещет и здесь я задавал вопросы если например уходил от компа на сутки — это подразумевало, что к моему возвращению там будет ответ, на большую оперативность рассчитывать не приходится по определению. Добавлю сюда «косяки» когда я просыпался пораньше на выходных (в целом привычка рано вставать) и часов в 6 утра садился за тренажер, а он просто «висит» к сожалению это так же не редкость и пару раз я на такое натыкался. В лучшем случае куратор в чате, вам напишет «Команда в курсе, команда чинит!» естественно даже без извинений, это же яндекс.

Еще один «ньюанс» про потраченное впустую время, в самом конце сдал последний проект, перед финальной работой, специально торопился, т. к. было указано, что курс откроют 5 августа, контрольную к этому времени сдал, и в планах было остаться дома на выходные, что бы заняться финальным проектом, хорошо, что уехал загорать, т. к. доступ открыли 8 августа, вместо пятницы только во вторник, впрочем этому я даже не удивился, но допускаю, что на курсе уже появились те, кто начал получать удовольствие от подобных «выходок».

Monkey Job.

Отдельно хочу обратить внимание тех, кто задумывается о покупке данных курсов, будьте готовы к тому, что вы платите в том числе за подобные «мелочи»

Задача 1.

Катя случайно высыпала 123 скрепки на лист в клетку. Размер клетки — 4 × 4 см. 98 скрепок пересекли линии на листе, а остальные — нет. С какой вероятностью упавшая на такой лист скрепка пересечёт линию?

В результате метода «научного тыка» правильный ответ был найдет

98/123 = 0.796 вместо вводимых мной 79.674%

Пол часа убитого времени, т.к. решал утром и тех поддержка еще спала.

Еще один пример.

Покупаем авиабилеты.Вы покупаете авиабилеты. Цена — 30 000 рублей. Есть две возможности сэкономить:

1) Воспользоваться промокодом на 4000 рублей;

2) Купить билет с карты банка-партнёра и получить скидку в 15%.

Промокод и скидка от банка не суммируются: можно выбрать только один вариант. Карточка банка у вас уже есть, оформлять её не нужно. Не раздумывая, что вы выберете?

Правильный ответ.

Скидку от банка. Оплачу только 85% стоимости билетов. 15% от 30 000 — целых 4500. На 500 рублей выгоднее промокода.

Все здорово, но зачем подобные задания вставлять в обязательный курс?

Задания из серии ctrl-c ctrl-v, скриншот ниже, справа пропуски в которые нужно вписать правильный ответ, надеюсь, вы догадаетесь. что нужно вставить вместо

# ваш код здесь

Знакомство перешедшее в длительные отношения.

Проблема в структуре данных, а точнее, в постоянном перемешивании теории по статистике и синтаксиса Python.

Вполне возможно, что это проблема именно этого курса, т. к. переписывался с однокурсницей, которой данный курс так же крайне не понравился, хотя, до этого она проходила обучение по курсу Data Scientist и там все было ок.

Вполне очевидная на мой взгляд вещь — мухи отдельно, котлеты отдельно, но для яндекса это не так. Как итог по окончании курса мне пришлось все перепроверять исключительно для того, что бы сделать рабочий конспект по синтаксису Python. Базовые знания в теории Python так же хромают, данный вывод делаю, просто сравнивая яндекс и бесплатную лекцию в МФТИ от Тимофея Хирьянова.

Так же есть претензии к теории по статистике, например что бы понять достаточно часто используемую дисперсию пришлось залезть в гугл и найти экселевский файл с расчетами, сравните что понятней:

Определение от яндекса: Улучшенная метрика разброса — не просто среднее расстояние между значениями датасета и средним, а средний квадрат этого расстояния.

Эта величина называется дисперсия (лат. dispersio, «рассеяние»), её находят по формуле:
D(X)=M(X−M(X))2, которую также часто записывают в более удобном для расчетов виде: D(X)=M(X2)−(M(X))2

Чтобы понять, насколько сильно значения отличаются от среднего, вычисляют дисперсию. Для каждого значения находят расстояние от среднего до нужного значения, а затем возводят результат в квадрат.

Скриншот из формулы найденной на просторах интернета:

Еще один крайне негативный момент — это сам тренажер, некоторые моменты в синтаксисе описываются в ходе выполнения упражнения, а пройти упражнение второй раз нет технической возможности, скорее всего так яндекс страхует свои «научные открытия» от копипаста. Для меня же иногда появлялся пробел в данных, и спустя пару недель при необходимости еще раз разобраться во всей логике произошедшего по шагам, увы, ждало разочарование.

Да, конечно каждый может самостоятельно забраться в интернет и разобраться в тех моментах теории которые ему непонятны, но тут главный вопрос, а за что я тогда плачу?

Плюсы в курсе.

По большому счету платить приходится за три главных вещи:

Сертификат в котором указано яндекс.
Структура данных полученных на курсе и отдельно SQL
Выполненные проекты.

Для объективности должен сказать, что в 2020 году проходил курсы RemoteAcademy по управлению командой, цена 60000р, конечно по сравнению с Яндексом там, просто выброшенные деньги но и от яндекса ожидал большего.

В первую очередь, я ожидал комфортных условия и понимания, что ты можешь заниматься именно тогда когда тебе удобно и делать то, что тебе интересно и нужно, а не вставлять скопированный код из конспекта в задание, а потом переправлять его в чат поддержки, в случае ошибки.

Во вторую очередь, хотелось больше самостоятельности. Конечно, самостоятельных проектов достаточно много и к концу курса успеваешь набить руку, что бы чувствовать себя достаточно уверенно глядя даже на объемное задание. Мне при этом сильно не хватало неформального общения с одним наставником на протяжении всего курса, всегда при проверке получались какие-то одноразовые переписки. Хотелось заданий и возможности делать то, что на твой взгляд приведет к нужным результатам, искать ошибки, закономерности, а в замен этого получаешь палочную систему, которая очень быстро надоедает. Все проекты — это набор однотипных заданий, которые проверяются по каждому пункту, и цель этих заданий сводится к «докапаться» со стороны проверяющего и «отписаться» со стороны проверяемого, мой порыв делать аккуратные работы и искать самостоятельно какие-то закономерности и аномалии в данных был на корню подрублен уже четвертой работой, на которую я потратил больше двух недель, а в итоге получил непонятные для меня комментарии от проверяющего, на переписку с которым я потратил еще наверное неделю. В итоге довольно сильно отстал т. к. на ковыряние в проекте еще и наложился больничный. Сомневаясь в своих возможностях догнать материал, написал куратору о возможности перехода в другую, более позднюю кагорту и тут меня ждал сюрприз: да, конечно, перевести могут, но больничный не учитывается и за мое отставание мне нужно будет доплачивать. На всякий случай уточнил, почему так, почти двух месячное ожидание открытия курсов никак не компенсируется, а тут только два переноса и доплачивай, ответ думаю вы уже знаете — это же яндекс, в договоре оферты все прописано.

Справедливости ради, нужно заметить, что несколько раз одноразовые код-ревьюверы давали прямые ответы на мои вопросы, вместо отписок, чем действительно помогали в работе, в целом же на мой взгляд проверки в основном больше походили на высасывание недочетов из пальца, не говоря уже про тот момент, когда проверка проекта занимала неделю и эта «дерготня» то правки в проекте, то новая теория сильно раздражали и подкашивали. Принцип когда ты сдаешь проект, делаешь паузу, «очищаешь голову» и идешь дальше здесь явно нарушен.

Огрехи в курсе так же сводятся к непонятной информации, иногда даже для самих преподавателей, здесь просто приведу цитату из Slack.

Вопрос студента:

— Поэкспериментировал, всё отлично работает. Хотелось бы ещё понять механизм этой работы. В теории написано, что декоратор используется чтобы выполнять дополнительные действия до и после основной функции. В нашем случае, как я понял, декоратор просто передаёт в основную функцию аргументы и в конце получает от неё значения на выходе. В чём смысл его работы?

Ответ наставника:

— Я понятия не имею, как работает конкретно этот декоратор под капотом. Чтобы с этим разобраться, нужно идти на гитахб и смотреть его реализацию. Так что я не могу тебе ответить на этот вопрос. Да и, вообще говоря, вряд ли тебе вообще понадобится это знание, так как я сильно сомневаюсь, что ты будешь строить дашборды с помощью кода, а не с помощью Табло.

Какие либо комментарии на мой взгляд, тут излишни, разве что не удержусь от смайлика =)

С другой стороны этими дашбордами «с помощью кода» занимались почти месяц, получается месяц бесполезной теории, за свой же счет и смайлик тогда нужно ставить в другую сторону =(

Теория которая разбилась о практику.

Еще один немаловажный момент — зацикливание на теории, без оговорок. Подчеркну из курса фрагмент из теории, где речь идет про перцентили 90, 95, 99, очистку данных и отбрасывание выбросов. Обратился к своей знакомой из Пятерочки по данному поводу, поинтересовался, что она знает про перцентили и статистическую значимость, использует ли она эти «штуки» при расчете средних показателей и среднего чека в частности. Знакомая работает директором по рознице несколько лет, для понимания, в её подчинение было 17 директоров магазинов, и всевозможные отчеты и метрики по среднему чеку было её основной задачей, при этом про такие понятия она и не слышала.

Спрашиваю про выбросы при расчете среднего чека, в ответ получаю — нет, ничего не удаляем, просто разделяли оптовых покупателей и розницу, теперь это происходит полностью автоматически.

Вот здесь и почувствуйте разницу между отбрасыванием оптовых (аномальных) покупателей и отсеканием выбросов, про обработку которых так много было написано в курсе, а про опт и розницу, ни одной маленькой пометки. Поэтому после прохождения курсов от яндекса на собеседовании, если вы заявите что-то подобное, да еще и начнете бить себя в грудь, мол это правильно ведь так сам Великий яндекс написал, на вас могут посмотреть как минимум странно, не говоря уже о приеме на работу. Да, теория это хорошо, но на практике про статистическую значимость могут и не знать, а средний чек и сравнение средних чеков делают «по старинке» по общей выборке, сумме и количеству.

Для меня это просто яркий пример не соответствия теории и практики, не думаю, что это надо записывать исключительно на счет курса яндекса, но почему на платных(!) курсах про такой нюанс просто не упомянуть, помня о том, что на эти курсы могу попадать студенты без малейшего представления о том, как-там все происходит на работе, а не только в тренажере.

Опять же зачем в обязательном порядке убивать столько времени на подобную теорию, которая будет благополучно забыта через два месяца мне совершенно не понятно, не говоря о том, зачем за такую теорию нужно платить.

Так же отдельно хочу сказать, что данные курсы по своему духу больше напоминают платную стажировку в яндекс, что от части верно, по завершению курса вам могут предложить работу код-ревьювером за 30 000р в месяц (500 USD) с частичным трудоустройством, мне это почему-то напоминает старую шутку: ищем расклейщиков объявлений, для расклейки объявлений, о поиске расклейщиков объявлений.

На мой взгляд данные курсы так же несут крайний негатив и для преподавателей. Оклад 500$ как бы уже намекает, что преподаватели (код ревьюверы) здесь находятся на птичьих правах, что-то не нравится и сразу на выход. Преподаватели должны только монотонно выполнять свои действия, инициатива, а тем более внимание к жалобам студентов не приветствуется. Экономия времени студентов? Судя по придиркам преподавателей и отзывам в Слаке, главная задача код ревьювера, заставить студента потратить на работу, как можно больше времени.

На мой взгляд, это главная и вне гласная стратегия яндекса: Зачем получать со студента 70 000 за курс, если можно потянуть его время, сказать, что он «лошара» не успевает, а все успевают, с радостной улыбкой дать ему возможность продолжить обучение, но при этом «не забыв» получить со студента еще 12, 15, 30 к рублей за продление сроков обучения. Черный маркетинг, систему скрытых платежей никто не отменял.

Так же к черному маркетингу отнесу навязывание использование сервисом

https://cloud.yandex.ru

Это жесть, выяснилось, что я плачу за то, что бы яндекс тратил мое время на объяснение того, как правильно пользоваться их кривым интерфейсом, и если не пройдешь это «задание» тренажер дальше не пропустит. После завершения курса нужно было отдельно тратить время, что бы удалить аккаунт и отвязать карту, что бы яндекс «случайно» не слизал оплату данной услуги за месяц.

Вопрос поиска работы после курсов у меня еще не закрыт, по данному поводу постараюсь написать подробно но немного позже, т. к. эта процедура наложилась на вынужденную миграцию в Турцию.

Грустное расставание. Минусы курса.

Подведем итоги, минусы:

Совершенно наплевательское отношение к Вам и вашему времени.
Низкое качество структуры курса и представленных данных.
Трудности в составлении конспекта курса.
Большое количество бесполезной информации, которая могла быть в доступе для ознакомления, но никак не для обязательного изучения.
Доплата за ваше не успевание, к которому яндекс очень активно подталкивает.
Полное отсутствие даже намеков на компенсацию со стороны яндекса за свои «косяки».

Плюсы:

Большой объем полезной информации.
Большой опыт в написании самостоятельных работ.
Прокачка «SoftSkil»: большой опыт в общении с чатом поддержки и подобные прелести.

В целом, для себя сделал вывод, что единственной панацеей от подобной ситуации может быть самостоятельная учеба или учеба с репетиром, ведь по сути на таких курсах яндекс является просто прокладкой между теми, кто обладает знаниями (код ревью) и теми, кто за эти знания готов заплатить (студенты). При этом «прокладка» не просто забирает большую часть денег себе, но еще и сталкивает стороны лбами, фиксируя в крайне «неприятных позах», командуя и ограничивая в действия. Хотя, «неприятные позы» это конечно, уже дело вкуса каждого, а о вкусах, как известно, не спорят.

p/s

Добавлено 29/10/2022

Отдельно хочу обратить внимание на закрепленный комментарий от представителя яндекс, с огромной кучей оправданий и просьбой убрать опубликованные примеры, при этом представитель ни то, что про компенсацию не спросил, элементарно не посчитал нужным извиниться от лица компании, это же яндекс. Без комментариев.

Источник

yandex-praktikum-projects

Проекты, выполненные в ходе курса Data Science на Яндекс.Практикум.

Список проектов:

1. Исследование надежности заемщиков

Описание проекта:
Кредитный отдел банка предоставил статистику о платёжеспособности клиентов. Цель — определить, влияет ли семейное положение, количество детей а также заработок клиента на факт погашения кредита в срок. Исследование необходимо для построения модели кредитного скоринга — специальной системы, которая оценивает способность потенциального заёмщика вернуть кредит банку.

Результат:
Выявлена зависимость между потециальным долгом и семейным положением, наличием детей и целью кредита. Наличие зависимости между уровнем дохода и возвратом кредита в срок не подтверждено.

Инструменты и техники:
Pandas, PyMystem3, Python, лемматизация, предобработка данных

Статус проекта:
Закончен

2. Исследование объявлений о продаже квартир

Описание проекта:
В ходе проекта использованы данные сервиса Яндекс.Недвижимость, а именно архив объявлений о продаже квартир в Санкт-Петербурге и соседних населённых пунктах за несколько лет. Цель — научиться определять рыночную стоимость объектов недвижимости. Это позволит построить автоматизированную систему, которая отследит аномалии и мошенническую деятельность.

Выводы:

от дня размещения объявления до продажи квартиры обычно проходит 90-100 дней;
дороже всего кадратный метр стоит в Санкт-Петербурге и в Пушкине, дешевле всего квартиру можно купить в Выборге;
квартиры на первом и последнем этаже дешевле, чем на любом другом;
отдаление от центра города связано с уменьшением стоимости недвижимости, при этом центральной цасти С-П это не касается — здесь квартиры одинаково дорогие;
квартиры в центре С-П дороже и имеют бОльшую площадь, чем в других районах и населенных пунктах;

Инструменты и техники:
Matplotlib, Pandas, Python, визуализация данных, исследовательский анализ данных, предобработка данных

Статус проекта:
Закончен

3. Определение перспективного тарифа для телеком компании

Описание проекта:
Оператор сотовой связи предлагает клиентам два тарифных плана: «Смарт» и «Ультра». Чтобы скорректировать рекламный бюджет, оператору необходимо понять, какой тариф приносит больше денег. Цель — проанализировать поведение клиентов и сделать вывод — какой тариф лучше. Для этого произведен предварительный анализ тарифов на небольшой выборке клиентов. В распоряжении были данные 500 пользователей оператора: кто они, откуда, каким тарифом пользуются, сколько звонков и сообщений каждый отправил за 2018 год.

Результат:

Проверили 2 гипотезы:

Средняя выручка пользователей тарифов «Ультра» и «Смарт» равна — отвергли
Средняя выручка пользователей из Москвы равна выручке пользователей из других регионов — отвергнуть не удалось
Вывод — Тариф ultra приносит компании бОльшую выручку. Стоит сфокусироваться на его продвижении повсеместно — в Москве и других регионах.

Инструменты и техники:
Matplotlib, NumPy, Pandas, Python, SciPy, описательная статистика, проверка статистических гипотез

Статус проекта:
Закончен

4. Изучение рынка игр

Описание проекта:
Из открытых источников доступны исторические данные о продажах магазина компьтерных игр: оценки пользователей и экспертов, жанры и платформы. Цель — выявить определяющие успешность игры закономерности, что поможет продвинуть потенциально популярный продукт и спланировать рекламные кампании.

Выводы:

Планируя рекламную кампанию на 2017 год стоит обратить особое внимание на продвижение платформы PS4 (как более новую версию популярной PS3), а также платформ X360и Wii, и в особенности игр в жанрах Action, Sports, Shooter.
Стоит также не забывать об особенностях рынка и подстроить рекламу конкретно под него. На примере Японии показано, как требования потребителей одной страны могут отличаться от предпочтений основной массы пользователей

Инструменты и техники:
Matplotlib, NumPy, Pandas, Python, исследовательский анализ данных, описательная статистика, предобработка данных, проверка статистических гипотез

Статус проекта:
Закончен

5. Рекомендация тарифов для оператора мобильной связи

Описание проекта:
Оператор мобильной связи хочет построить систему, способную проанализировать поведение клиентов и предложить новый тариф: «Смарт» или «Ультра». Цель — построить модель для задачи классификации с максимально большим значением accuracy, которая выберет подходящий тариф.

Результат:
Построена адекватная модель, подбирающая подходящий тариф для пользователя.

Инструменты и техники:
Pandas, scikit-learn, Python, обучение модели, исследование модели, тестирование модели

Статус проекта:
Закончен

6. Предсказание оттока клиентов

Описание проекта:
Банк столкнулся с проблемой — стали уходить клиенты. Маркетологи решили, что сохранять текущих клиентов дешевле, чем привлекать новых. Цель — спрогнозировать, уйдёт клиент из банка в ближайшее время или нет. Необходимо построить модель с достаточным значением F1-меры (как минимум 0.59), а для построенной модели измерить AUC-ROC, и сравнить её значение с F1-мерой. В распоряжении исторические данные о поведении клиентов и расторжении договоров с банком.

Результат:
Построили модель, прогнозирующую уход клиента. Обучили финальную модель и проверили ее на тестовой выборке. Достигли значения F1 = 0.61. Исследовали метрику AUC-ROC и сравнили её с F1.

Инструменты и техники:
Numpy, scikit-learn, Python, Pandas, предобработка данных, масштабирование признаков, взвешивание классов, измерение метрик F1 и AUC-ROC, downsampling

Статус проекта:
Закончен

7. Выявление прибыльного региона добычи для нефтяной компании

Описание проекта:
Нефтяной компании необходимо решить, где бурить новую скважину. В распоряжении пробы нефти в трёх регионах: в каждом 10 000 месторождений, где измерили качество нефти и объём её запасов. Цель — построить модель машинного обучения, которая поможет определить регион, где добыча принесёт наибольшую прибыль. Проанализировать возможную прибыль и риски техникой Bootstrap.

Выводы:
Построили модель, которая помогла выявить, что для реализации проекта больше всего подходит регион 2. Бурение скважин здесь связано с наименьшими рисками и принесет бОльшую выручку.

Инструменты и техники:
Pandas, scikit-learn, Numpy, Seaborn, Scipy, Bootstrap, предобработка данных, исследовательский анализ данных, обучение модели, исследование модели

Статус проекта:
Закончен

8. Прототип модели машинного обучения для промышленного предприятия

Описание проекта:
Цель проекта — подготовка прототипа модели машинного обучения для промышленного предприятия, которая поможет оптимизировать производство, чтобы не запускать предприятие с убыточными характеристиками.
Модель должна предсказать коэффициент восстановления золота из золотосодержащей руды. В распоряжении данные с параметрами добычи и очистки.

Результат:
Подготовили прототип модели машинного обучения для промышленного предприятия. Проверили ее работу на тестовой выборке с помощью метрики качества sMAPE и сравнения с константной моделью.

Инструменты и техники:
Pandas, scikit-learn, Numpy, СatBoost, Matplotlib, предобработка данных, исследовательский анализ данных, обучение модели, исследование модели, кросс-валидация, масштабирование признаков

Статус проекта:
Закончен

Источник