Permalink
master
{{ refName }}
default
Name already in use
A tag already exists with the provided branch name. Many Git commands accept both tag and branch names, so creating this branch may cause unexpected behavior. Are you sure you want to create this branch?
Go to file
-
Go to file
-
Copy path
-
Copy permalink
Cannot retrieve contributors at this time
1188 lines (1188 sloc)
36 KB
Raw
Blame
Open in GitHub Desktop
-
Open with Desktop
-
View raw
-
Copy raw contents
-
View blame
Sorry, something went wrong. Reload?
Sorry, we cannot display this file.
Sorry, this file is invalid so it cannot be displayed.
Yandex.Praktikum Data Science Projects
Репозиторий с проектами, созданными в рамках курса «Специалист Data Science» в Яндекс.Практикуме
О курсе / About program
- Ссылка на курс: https://praktikum.yandex.ru/data-scientist/
Содержание: / Content:
- Предобработка данных / Data Processing — Project_01
- Исследовательский анализ данных / Exploratory data analysis — Project_02
- Статистический анализ данных / Statistical analysis of data — Project_03
- Сборный проект / Common project — Project_04
- Введение в машинное обучение / Introduction to machine learning — Project_05
- Обучение с учителем / Supervised learning — Project_06
- Машинное обучение в бизнесе / Machine learning in business — Project_07
- Сборный проект / Common project — Project_08
- Линейная алгебра / Linear algebra — Project_09
- Численные методы (градиентный бустинг) / Numerical analysis (gradient boosting) — Project_10
- Временные ряды / Time series — Project_11
- Машинное обучение для текстов / Machine learning for texts — Project_12
- Выпускной проект / Final project — Project_final
Проекты
№ | Название | Общая информация | Стек технологий |
---|---|---|---|
13 | (Дипломный проект) Прогнозирование оттока клиентов оператора связи | Необходимо научиться с высокой точностью прогнозировать отток клиентов телеком-оператора. Это позволит своевременно предложить промокоды и бонусы и сохранить клиента. | catboost sklearn seaborn matplotlib plotly pandas numpy math |
12 | (Обработка естественного языка) Определение токсичности комментариев | Магазину нужен инструмент, который будет искать токсичные комментарии и отправлять их на модерацию. Для этого необходимо обучить модель классифицировать комментарии на позитивные и негативные | BERT spacy SVC pymystem3 re sklearn pandas numpy matplotlib plotly math |
11 | (Временные ряды) Прогноз количества заказов такси на следующий час | Чтобы привлекать больше водителей в период пиковой нагрузки, нужно спрогнозировать количество заказов такси на следующий час. | TimeSeriesSplit catboost lightgbm statsmodels sklearn pandas numpy matplotlib plotly math time |
10 | Определение стоимости автомобилей | Необходимо построить модель для определения стоимости автомобиля, с учетом ограничений обозначенных заказчиком | catboost lightgbm sklearn pandas numpy matplotlib plotly math time |
9 | Разработать метод преобразования данных для защиты персональной информации | Необходимо разработать метод преобразования данных, согласно которому будет сложно восстановить персональную информацию. Обосновать корректность его работы. | sklearn pandas numpy |
8 | Предсказание коэффициента восстановления золота из золотосодержащей руды | Нужно построить модель, которая предскажет коэффициент восстановления золота из золотосодержащей руды по данным с параметрами добычи и очистки. | sklearn matplotlib plotly pandas numpy |
7 | Выбор локации для нефтяной скважины | Нефтяной компании нужно решить, где бурить новую скважину. Для этого необходимо построить модель для определения региона, где добыча принесёт наибольшую прибыль. | sklearn scipy matplotlib plotly pandas numpy |
6 | Прогнозирование оттока клиентов банка | Нужно спрогнозировать, уйдёт клиент из банка в ближайшее время или нет | sklearn pandas numpy matplotlib |
5 | Рекомендация тарифов существующим клиентам | Необходимо построить систему, способную проанализировать поведение клиентов, давно не меняющих тарифные планы, и предложить пользователям новый тариф, отвечающий их предпочтениям. | sklearn pandas |
4 | Определение параметров коммерческой успешности компьютерных игр | Необходимо выявить определяющие успешность игры закономерности, чтобы сделать ставку на потенциально популярный продукт и спланировать рекламные кампании | scipy matplotlib plotly pandas numpy math |
3 | Определение перспективного тарифа для телеком-компании | Чтобы скорректировать рекламный бюджет нужно проанализировать, как клиенты пользуются сотовой связью, и сделать вывод, — какой из предлагаемых федеральным оператором тарифов приносит больше денег. | scipy pandas numpy plotly math |
2 | Исследование объявлений о продаже квартир | На базе архива объявлений о продаже квартир в Санкт-Петербурге и соседних городах провести EDA. Цель — определить параметры, чтобы в дальнейшем научиться определять рыночную стоимость объектов недвижимости | matplotlib plotly pandas numpy math |
1 | Исследование надёжности заёмщиков | Исследование надёжности заёмщиков для кредитного отдела банка с целью построения модели кредитного скоринга | pymystem3 pandas numpy collections math |
Контакты
- email: radaevm@gmail.com
Yandex.Practicum_Data_Science
Certificate : https://drive.google.com/file/d/1Nl63mM8kTpNoc7LFLbsNip1_ivb_DKVv/view?usp=sharing
This repository is mainly for projects I have done under Yandex.Practicum_Data_Science.
Yandex.Practicum_Data_Science online programm helps me to achive new skill and knowledge and prepare me for a career as a data scientist. It helps to learn how to preprocess, organize and clean data, uncover pattern, insights and anomalies, visualize and repsresent the meaningful conclusions, make statistical research on the data, to learn different machine models and neural networks depending on the task and type of given data.
Tips: for data science project with python, I would recommend to install pandas, numpy, scipy, scikit learn, matplotlib, seaborn, tensorflow. These are the most basic libraries.
Part 1 — Data Preprocessing
Subjects covered:
- different methods of dealing with gaps and anomaly values (artifacts);
- changing the data type;
- different methods of determining and dealing with duplicates;
- data categorization.
Project 1 — Research on the reliability of borrowers
Bank credit department want to analyze how family status, number of kids and other factors. Given data — statitics abour bank clients paying capacity.
Part 2 — Data Analyze
Subjets covered:
- data visualisation(plots, histogramms, boxplots, subplots and etc.);
- data slices and filtering (query, logic states, slices);
- different methods of joining data frames and data within;
Project 2 — Research of apartment sale advertisements in Saint-Petersburg
The goal of this project is to establish the correct parameters of real estate for sale. Clean the data from anomaly values and scammers data. Futher these establishment will help to determine the market values of real estate.
Part 3 — Statistic Analyze
Subjets covered:
- choose optimal metrics for data statistic description;
- evaluate discrete and continuous values using different types of histograms;
- make conclusions about data on statistical indicators;
- get acquainted with the basics probability theory;
- determine the type of distribution (normal and binominal);
- learn how to build and test hypothesis.
Project 3 — Determinition of a promising tariff for a telecom company
The goal is to make a data analyze and make a decision: which tariff is best for clients.
Project 4 — Determinition of a succesfull game for sale
The goal is to make a data analyze and to identify the patterns that determine the success of the game for sale and popularity.
Part 4 — Intro to Machine Learning
Subjects covered:
- understand the machine learning ideas and theory;
- mechine learning for regression and classification;
- scikit-learn library;
- machine learning metrics;
- research different machine learning models and determine the best for the task
Project 5 — Machine_Learning_Classification_for_telecom_company_clients
Analyze the data with clients behaivor from project 3. Need to choose the best machine learning model for classification and choose the best model depending on the clients listed in the database. Test the final model with best hyperparameters on the test samples and compare with dummy model for adecvate predictions of the chosen model. For metrics — accuracy score.
Part 5 — Machine Learning
Subjects covered:
- classification metrics (accuracy, f1, AUC-ROC);
- classification model with classes disbalance;
- regression metrics (MAE and R^2);
Project 6 — Prediction the bank client behaivor (stay or leave)
Analyze the client data to predict the behaivor of each client will it stay or leave the bank service. Using F1 and AUC-ROC metrics train and choose the best model for this goal.
Part 6 — Machine Learning in business
Subjects covered:
- determine the correct metrics for business;
- lifetime of a data model from scratch to deployment and business usage;
- real business cases
Project 7 — Predict a location for an oil well
In the region characterisits of different oil wells have been collected (oil quality and oil volume for each well). Depending on this data oil volume and quality is predicted for new wells. It is more efficienty to use a ML to predict then to test each oil well manually. After prediction the region with the maximum total profit is selected according to the oil wells predicted by model.
Project 8 — Predict recovery factor of gold from gold ore.
When the mined ore undergoes primary processing, a crushed mixture is obtained. It is sent to flotation (beneficiation) and two-stage purification. After this technological process the recovery factor of gold must be predicted.
Part 7 — Gradient Boosting
Subjects covered:
- algorithm of gradient boosting;
- gradient boosting using python;
- tunning the gradient boosting;
- libraries for gradient boosting;
Project 9 — Car cost prediction
Service for the sale of used cars is developing an application to attract new customers. In it, you can quickly find out the market value of your car. Using Historical data: technical characteristics, equipment and prices of cars need to build a model to determine the cost.
Part 8 — Time Rows
Subjects covered:
- learn to use machine learning with time rows;
- learn to analyze trends and seasons in time rows;
- learn to create features from datetime data;
Project 10 — Taxi order prediction
Relying on the past data of taxi orders (datetime data). The goal is to predict the amount of taxi orders.
Part 9 — Machine Learning for text
Subjects covered:
- text vectorization;
- TF-IDF;
- text sentiment analysis;
- Embeddings, Word2Vec, BERT and etc.
Project 11 — Determine toxic commentaries in a shop-service
The goal is to train a classification model for determining toxic comments in shop service app.
Part 10 — Data Extraction (SQL practice)
Subjects covered:
- what is data bases (SQL);
- SQL practice;
- PySpark;
Project 12 — Data Analyze the SQL database
THe goal is to analyze what are the preferences of airline clients are. Used the given SQL database to collect the needed data.
Part 11 — Neural Networks
Subjects covered:
- fully connected neural networks
- convolition neural networks
- Keras, TensorFlow
- LeNet, Adam arhitecture
- Augemntation types
Project 13 — Shop customers age prediction
The goal is to train a neural network with photo set of customers to determine the age of customers in future.
Part 12 — Unsupervised Learning
- searching anomalies and clusterization
- k-means, knn-method, isolation forest
Project 14 — Temperature prediction for steel production
The goal is to analyze the data given from different datasets. understand the process of steel production, and train the model which will determine temperature of steel in the end of technological process.
yandex-praktikum-projects
Проекты, выполненные в ходе курса Data Science на Яндекс.Практикум.
Список проектов:
1. Исследование надежности заемщиков
Описание проекта:
Кредитный отдел банка предоставил статистику о платёжеспособности клиентов. Цель — определить, влияет ли семейное положение, количество детей а также заработок клиента на факт погашения кредита в срок. Исследование необходимо для построения модели кредитного скоринга — специальной системы, которая оценивает способность потенциального заёмщика вернуть кредит банку.
Результат:
Выявлена зависимость между потециальным долгом и семейным положением, наличием детей и целью кредита. Наличие зависимости между уровнем дохода и возвратом кредита в срок не подтверждено.
Инструменты и техники:
Pandas, PyMystem3, Python, лемматизация, предобработка данных
Статус проекта:
Закончен
2. Исследование объявлений о продаже квартир
Описание проекта:
В ходе проекта использованы данные сервиса Яндекс.Недвижимость, а именно архив объявлений о продаже квартир в Санкт-Петербурге и соседних населённых пунктах за несколько лет. Цель — научиться определять рыночную стоимость объектов недвижимости. Это позволит построить автоматизированную систему, которая отследит аномалии и мошенническую деятельность.
Выводы:
- от дня размещения объявления до продажи квартиры обычно проходит 90-100 дней;
- дороже всего кадратный метр стоит в Санкт-Петербурге и в Пушкине, дешевле всего квартиру можно купить в Выборге;
- квартиры на первом и последнем этаже дешевле, чем на любом другом;
- отдаление от центра города связано с уменьшением стоимости недвижимости, при этом центральной цасти С-П это не касается — здесь квартиры одинаково дорогие;
- квартиры в центре С-П дороже и имеют бОльшую площадь, чем в других районах и населенных пунктах;
Инструменты и техники:
Matplotlib, Pandas, Python, визуализация данных, исследовательский анализ данных, предобработка данных
Статус проекта:
Закончен
3. Определение перспективного тарифа для телеком компании
Описание проекта:
Оператор сотовой связи предлагает клиентам два тарифных плана: «Смарт» и «Ультра». Чтобы скорректировать рекламный бюджет, оператору необходимо понять, какой тариф приносит больше денег. Цель — проанализировать поведение клиентов и сделать вывод — какой тариф лучше. Для этого произведен предварительный анализ тарифов на небольшой выборке клиентов. В распоряжении были данные 500 пользователей оператора: кто они, откуда, каким тарифом пользуются, сколько звонков и сообщений каждый отправил за 2018 год.
Результат:
Проверили 2 гипотезы:
- Средняя выручка пользователей тарифов «Ультра» и «Смарт» равна — отвергли
- Средняя выручка пользователей из Москвы равна выручке пользователей из других регионов — отвергнуть не удалось
Вывод — Тариф ultra приносит компании бОльшую выручку. Стоит сфокусироваться на его продвижении повсеместно — в Москве и других регионах.
Инструменты и техники:
Matplotlib, NumPy, Pandas, Python, SciPy, описательная статистика, проверка статистических гипотез
Статус проекта:
Закончен
4. Изучение рынка игр
Описание проекта:
Из открытых источников доступны исторические данные о продажах магазина компьтерных игр: оценки пользователей и экспертов, жанры и платформы. Цель — выявить определяющие успешность игры закономерности, что поможет продвинуть потенциально популярный продукт и спланировать рекламные кампании.
Выводы:
- Планируя рекламную кампанию на 2017 год стоит обратить особое внимание на продвижение платформы PS4 (как более новую версию популярной PS3), а также платформ X360и Wii, и в особенности игр в жанрах Action, Sports, Shooter.
- Стоит также не забывать об особенностях рынка и подстроить рекламу конкретно под него. На примере Японии показано, как требования потребителей одной страны могут отличаться от предпочтений основной массы пользователей
Инструменты и техники:
Matplotlib, NumPy, Pandas, Python, исследовательский анализ данных, описательная статистика, предобработка данных, проверка статистических гипотез
Статус проекта:
Закончен
5. Рекомендация тарифов для оператора мобильной связи
Описание проекта:
Оператор мобильной связи хочет построить систему, способную проанализировать поведение клиентов и предложить новый тариф: «Смарт» или «Ультра». Цель — построить модель для задачи классификации с максимально большим значением accuracy, которая выберет подходящий тариф.
Результат:
Построена адекватная модель, подбирающая подходящий тариф для пользователя.
Инструменты и техники:
Pandas, scikit-learn, Python, обучение модели, исследование модели, тестирование модели
Статус проекта:
Закончен
6. Предсказание оттока клиентов
Описание проекта:
Банк столкнулся с проблемой — стали уходить клиенты. Маркетологи решили, что сохранять текущих клиентов дешевле, чем привлекать новых. Цель — спрогнозировать, уйдёт клиент из банка в ближайшее время или нет. Необходимо построить модель с достаточным значением F1-меры (как минимум 0.59), а для построенной модели измерить AUC-ROC, и сравнить её значение с F1-мерой. В распоряжении исторические данные о поведении клиентов и расторжении договоров с банком.
Результат:
Построили модель, прогнозирующую уход клиента. Обучили финальную модель и проверили ее на тестовой выборке. Достигли значения F1 = 0.61. Исследовали метрику AUC-ROC и сравнили её с F1.
Инструменты и техники:
Numpy, scikit-learn, Python, Pandas, предобработка данных, масштабирование признаков, взвешивание классов, измерение метрик F1 и AUC-ROC, downsampling
Статус проекта:
Закончен
7. Выявление прибыльного региона добычи для нефтяной компании
Описание проекта:
Нефтяной компании необходимо решить, где бурить новую скважину. В распоряжении пробы нефти в трёх регионах: в каждом 10 000 месторождений, где измерили качество нефти и объём её запасов. Цель — построить модель машинного обучения, которая поможет определить регион, где добыча принесёт наибольшую прибыль. Проанализировать возможную прибыль и риски техникой Bootstrap.
Выводы:
Построили модель, которая помогла выявить, что для реализации проекта больше всего подходит регион 2. Бурение скважин здесь связано с наименьшими рисками и принесет бОльшую выручку.
Инструменты и техники:
Pandas, scikit-learn, Numpy, Seaborn, Scipy, Bootstrap, предобработка данных, исследовательский анализ данных, обучение модели, исследование модели
Статус проекта:
Закончен
8. Прототип модели машинного обучения для промышленного предприятия
Описание проекта:
Цель проекта — подготовка прототипа модели машинного обучения для промышленного предприятия, которая поможет оптимизировать производство, чтобы не запускать предприятие с убыточными характеристиками.
Модель должна предсказать коэффициент восстановления золота из золотосодержащей руды. В распоряжении данные с параметрами добычи и очистки.
Результат:
Подготовили прототип модели машинного обучения для промышленного предприятия. Проверили ее работу на тестовой выборке с помощью метрики качества sMAPE и сравнения с константной моделью.
Инструменты и техники:
Pandas, scikit-learn, Numpy, СatBoost, Matplotlib, предобработка данных, исследовательский анализ данных, обучение модели, исследование модели, кросс-валидация, масштабирование признаков
Статус проекта:
Закончен
-
- GitLab: the DevOps platform
- Explore GitLab
- Install GitLab
- How GitLab compares
- Get started
- GitLab docs
- GitLab Learn
- Pricing
- Talk to an expert
-
/
-
Help
- Help
- Support
- Community forum
- Submit feedback
- Contribute to GitLab
- Switch to GitLab Next
-
Projects
Groups
Topics
Snippets -
Register - Sign in
Проекты Яндекс.Практикум
Project ID: 37125043
Star
0
Учебные проекты, созданные за время обучения на программе Аналитика данных.
Find file
Download source code
tar.gz
tar.bz2
tar
Clone
-
Clone with SSH
-
Clone with HTTPS
-
Open in your IDE
Visual Studio Code (SSH)Visual Studio Code (HTTPS)IntelliJ IDEA (SSH)IntelliJ IDEA (HTTPS)
- Copy SSH clone URLgit@gitlab.com:zhexter/yandex-praktikum-projects.git
- Copy HTTPS clone URLhttps://gitlab.com/zhexter/yandex-praktikum-projects.git
- README
Data Science
В этом репозитории собраны мои проекты из программы «Специалист по Data Science» Яндекс.Практикума
Содержание: / Content:
- Модуль 01 / Module 01
- Предобработка данных / Processing — Project_1_1
- Исследовательский анализ данных / Exploratory data analysis — Project_1_2
- Статистический анализ данных / Statistical analysis — Project_1_3
- Сборный проект / General project — Project_1_4
- Модуль 02 / Module 02
- Введение в машинное обучение / Introduction to ML — Project_2_1
- Обучение с учителем / Supervised ML — Project_2_2
- Машинное обучение в бизнесе / ML in business — Project_2_3
- Сборный проект / General project — Project_2_4
- Модуль 03 / Module 03
- Линейная алгебра / Linear algebra — Project_3_1
- Численные методы / Numerical analysis — Project_3_2
- Временные ряды / Time series — Project_3_3
- Машинное обучение для текстов / ML for texts — Project_3_4
- Модуль 04 / Module 04
- Компьютерное зрение / Computer Vision — Project_4_1
- Финальный проект / Final Project — Project_4_2
1_1_Preprocessing
Предобработка данных
Заказчик — кредитный отдел банка. Нужно разобраться, влияет ли семейное положение и количество детей клиента на факт погашения кредита в срок. Входные данные от банка — статистика о платёжеспособности клиентов. Результаты исследования будут учтены при построении модели кредитного скоринга — специальной системы, которая оценивает способность потенциального заёмщика вернуть кредит банку.
1_2_EDA
Исследовательский анализ данных
В вашем распоряжении данные сервиса Яндекс.Недвижимость — архив объявлений о продаже квартир в Санкт-Петербурге и соседних населённых пунктах за несколько лет. Нужно научиться определять рыночную стоимость объектов недвижимости. Ваша задача — установить параметры. Это позволит построить автоматизированную систему: она отследит аномалии и мошенническую деятельность.
1_3_Statistical_analysis
Статистический анализ данных
Вы аналитик компании «Мегалайн» — федерального оператора сотовой связи. Клиентам предлагают два тарифных плана: «Смарт» и «Ультра». Чтобы скорректировать рекламный бюджет, коммерческий департамент хочет понять, какой тариф приносит больше денег.
Вам предстоит сделать предварительный анализ тарифов на небольшой выборке клиентов. В вашем распоряжении данные 500 пользователей «Мегалайна»: кто они, откуда, каким тарифом пользуются, сколько звонков и сообщений каждый отправил за 2018 год. Нужно проанализировать поведение клиентов и сделать вывод — какой тариф лучше.
1_4_General_project_module_1
Сборный проект по модулю 1
Вы работаете в интернет-магазине «Стримчик», который продаёт по всему миру компьютерные игры. Из открытых источников доступны исторические данные о продажах игр, оценки пользователей и экспертов, жанры и платформы (например, Xbox или PlayStation). Вам нужно выявить определяющие успешность игры закономерности. Это позволит сделать ставку на потенциально популярный продукт и спланировать рекламные кампании.
2_1_Intro_to_ML
Введение в машинное обучение
В вашем распоряжении данные о поведении клиентов, которые уже перешли на эти тарифы (из проекта курса «Статистический анализ данных»). Нужно построить модель для задачи классификации, которая выберет подходящий тариф.
2_2_Supervised_ML
Обучение с учителем
Из «Бета-Банка» стали уходить клиенты. Каждый месяц. Немного, но заметно. Банковские маркетологи посчитали: сохранять текущих клиентов дешевле, чем привлекать новых. Нужно спрогнозировать, уйдёт клиент из банка в ближайшее время или нет. Вам предоставлены исторические данные о поведении клиентов и расторжении договоров с банком.
2_3_ML_in_business
Машинное обучение в бизнесе
Допустим, вы работаете в добывающей компании «ГлавРосГосНефть». Нужно решить, где бурить новую скважину. Вам предоставлены пробы нефти в трёх регионах: в каждом 10 000 месторождений, где измерили качество нефти и объём её запасов. Постройте модель машинного обучения, которая поможет определить регион, где добыча принесёт наибольшую прибыль. Проанализируйте возможную прибыль и риски техникой Bootstrap.
2_4_General_project_module_2
Сборный проект по модулю 2
Подготовьте прототип модели машинного обучения для «Цифры». Компания разрабатывает решения для эффективной работы промышленных предприятий.Модель должна предсказать коэффициент восстановления золота из золотосодержащей руды. Используйте данные с параметрами добычи и очистки. Модель поможет оптимизировать производство, чтобы не запускать предприятие с убыточными характеристиками.
3_1_Linear_algebra
Линейная алгебра
Вам нужно защитить данные клиентов страховой компании «Хоть потоп». Разработайте такой метод преобразования данных, чтобы по ним было сложно восстановить персональную информацию. Нужно защитить данные, чтобы при преобразовании качество моделей машинного обучения не ухудшилось.
3_2_Numerical_methods
Численные методы
Сервис по продаже автомобилей с пробегом «Не бит, не крашен» разрабатывает приложение для привлечения новых клиентов. В нём можно быстро узнать рыночную стоимость своего автомобиля. В вашем распоряжении исторические данные: технические характеристики, комплектации и цены автомобилей. Вам нужно построить модель для определения стоимости.
3_3_Time_series
Временные ряды
Компания «Чётенькое такси» собрала исторические данные о заказах такси в аэропортах. Чтобы привлекать больше водителей в период пиковой нагрузки, нужно спрогнозировать количество заказов такси на следующий час. Постройте модель для такого предсказания.
3_4_ML_for_texts
Машинное обучение для текстов
Интернет-магазин «Викишоп» запускает новый сервис. Теперь пользователи могут редактировать и дополнять описания товаров, как в вики-сообществах. То есть клиенты предлагают свои правки и комментируют изменения других. Магазину нужен инструмент, который будет искать токсичные комментарии и отправлять их на модерацию. Обучите модель классифицировать комментарии на позитивные и негативные. В вашем распоряжении набор данных с разметкой о токсичности правок.
4_1_Computer_Vision
Компьютерное зрение
Сетевой супермаркет «Хлеб-Соль» внедряет систему компьютерного зрения для обработки фотографий покупателей. Фотофиксация в прикассовой зоне поможет определять возраст клиентов, чтобы:
- Анализировать покупки и предлагать товары, которые могут заинтересовать покупателей этой возрастной группы;
- Контролировать добросовестность кассиров при продаже алкоголя.
4_2_Final_Project
Финальный проект
Чтобы оптимизировать производственные расходы, металлургический комбинат ООО «Так закаляем сталь» решил уменьшить потребление электроэнергии на этапе обработки стали. Необходимо построить модель, которая предскажет температуру стали.
В ходе обучения в Яндекс.Практикуме мною были сделаны следующие проекты по специальности Data Science
Спринты:
- Sprint 2 — Предобработка данных
- Sprint 3 — Исследовательский анализ данных
- Sprint 4 — Статистический анализ данных
- Sprint 5 — Сборный Проект — 1
- Sprint 6 — Введение в машинное обучение
- Sprint 5 — Обучение с учителем
- Sprint 8 — Машинное обучение в бизнесе
- Sprint 9 — Сборный проект — 2
- Sprint 10 — Линейная алгебра
- Sprint 11 — Численные методы
- Sprint 12 — Временные ряды
- Sprint 13 — Машинное обучение для текстов
- Sprint 14 — Извлечение данных
- Sprint 15 — Компьютерное зрение
- Sprint 16 — Рекомендации и обучение без учителя
- Sprint 17 — Выпускной проект
Краткое описание
Предобработка данных
Заказчик — кредитный отдел банка. Нужно разобраться, влияет ли семейное положение и количество детей клиента на факт погашения кредита в срок. Входные данные от банка — статистика о платёжеспособности клиентов.
Исследовательский анализ данных
В вашем распоряжении данные сервиса Яндекс.Недвижимость — архив объявлений о продаже квартир в Санкт-Петербурге и соседних населённых пунктов за несколько лет. Нужно научиться определять рыночную стоимость объектов недвижимости. Ваша задача — установить параметры. Это позволит построить автоматизированную систему: она отследит аномалии и мошенническую деятельность.
Статистический анализ данных
Вы аналитик компании «Мегалайн» — федерального оператора сотовой связи. Клиентам предлагают два тарифных плана: «Смарт» и «Ультра». Чтобы скорректировать рекламный бюджет, коммерческий департамент хочет понять, какой тариф приносит больше денег.
Сборный Проект — 1
Вы работаете в интернет-магазине «Стримчик», который продаёт по всему миру компьютерные игры. Из открытых источников доступны исторические данные о продажах игр, оценки пользователей и экспертов, жанры и платформы (например, Xbox или PlayStation). Вам нужно выявить определяющие успешность игры закономерности. Это позволит сделать ставку на потенциально популярный продукт и спланировать рекламные кампании.
Введение в машинное обучение
Оператор мобильной связи «Мегалайн» выяснил: многие клиенты пользуются архивными тарифами. Они хотят построить систему, способную проанализировать поведение клиентов и предложить пользователям новый тариф: «Смарт» или «Ультра».
Обучение с учителем
Из «Бета-Банка» стали уходить клиенты. Каждый месяц. Немного, но заметно. Банковские маркетологи посчитали: сохранять текущих клиентов дешевле, чем привлекать новых. Нужно спрогнозировать, уйдёт клиент из банка в ближайшее время или нет. Вам предоставлены исторические данные о поведении клиентов и расторжении договоров с банком.
Машинное обучение в бизнесе
Допустим, вы работаете в добывающей компании «ГлавРосГосНефть». Нужно решить, где бурить новую скважину. Вам предоставлены пробы нефти в трёх регионах: в каждом — 100 000 месторождений, где измерили качество нефти и объём её запасов. Постройте модель машинного обучения, которая поможет определить регион, где добыча принесёт наибольшую прибыль.
Сборный проект — 2
Подготовьте прототип модели машинного обучения для «Цифры». Компания разрабатывает решения для эффективной работы промышленных предприятий. Модель должна предсказать коэффициент восстановления золота из золотосодержащей руды. В вашем распоряжении данные с параметрами добычи и очистки. Модель поможет оптимизировать производство, чтобы не запускать предприятие с убыточными характеристиками.
Линейная алгебра
Вам нужно защитить данные клиентов страховой компании «Хоть потоп». Разработайте такой метод преобразования данных, чтобы по ним было сложно восстановить персональную информацию.
Численные методы
Сервис по продаже автомобилей с пробегом «Не бит, не крашен» разрабатывает приложение для привлечения новых клиентов. В нём можно быстро узнать рыночную стоимость своего автомобиля. В вашем распоряжении исторические данные: технические характеристики, комплектации и цены автомобилей. Вам нужно построить модель для определения стоимости.
Временные ряды
Компания «Чётенькое такси» собрала исторические данные о заказах такси в аэропортах. Чтобы привлекать больше водителей в период пиковой нагрузки, нужно спрогнозировать количество заказов такси на следующий час. Постройте модель для такого предсказания.
Извлечение данных
Вы аналитик российской авиакомпании F9, выполняющей внутренние пассажирские перевозки. Важно понять предпочтения пользователей, покупающих билеты на разные направления.
Вам предстоит изучить базу данных и проанализировать спрос пассажиров на рейсы в города, где проходят крупнейшие культурные фестивали.
Компьютерное зрение
Сетевой супермаркет «Хлеб-Соль» внедряет систему компьютерного зрения для обработки фотографий покупателей. Фотофиксация в прикассовой зоне поможет определять возраст клиентов, чтобы:
- Анализировать покупки и предлагать товары, которые могут заинтересовать покупателей этой возрастной группы;
- Контролировать добросовестность кассиров при продаже алкоголя.
Рекомендации и обучение без учителя
Выпускной проект
Чтобы оптимизировать производственные расходы, металлургический комбинат ООО «Так закаляем сталь» решил уменьшить потребление электроэнергии на этапе обработки стали. Вам предстоит построить модель, которая предскажет температуру стали.