Защитить данные клиентов страховой компании «Хоть потоп»
Задача:
Защитить данные клиентов страховой компании «Хоть потоп». Разработать такой метод преобразования данных, чтобы по ним было сложно восстановить персональную информацию. Обосновать корректность его работы.
Цель:
Защитить данные, чтобы при преобразовании качество моделей машинного обучения не ухудшилось. Подбирать наилучшую модель не требуется.
Инструменты:
Pandas
Seaborn
numpy
sklearn
машинное обучение
Краткое описание проведённой работы:
Для защиты данных клиентов страховой компании разработаны методы преобразования данных, чтобы по ним было сложно восстановить персональную информацию.
Была проведена предобработка данных. Произведена проверка работы алгоритма модели линейной регрессии при перемножении на обратимую матрицу. Произведена проверка влияния перемножения на обратимую матрицу, а затем перемножения на обратную матрицу обратимой. Произведена проверка метрики R2 Линейной регрессии на идентичных данных — сначала исходных, затем умноженных на обратимую матрицу, размер которой равен числу признаков. Метрики полностью совпали. Можно сделать вывод, что алгоритм работает.
Данные и выводы
В результате нашей работы был разработан алгоритм, где данные были преобразованы методом умножения признаков исходных данных на обратимую матрицу P. Результатом такого преобразования явилась новая (изменённая) матрица признаков, которая справилась с основными задачами по шифровке данных и при сравнении качества предсказаний с моделью из Scikit−learn, сохранила значения R2 и MSE неизменными.
Таким образом мы выполнили требования поставелнной задачи и компания «Хоть потоп» может спать спокойно!
Если проект не открывается, его можно просмотреть по ссылке: Protect_customer_data_company_Though_the_Flood
Projects
Яндекс.Практикум
Специалист по Data Science
Проекты | Описание |
---|---|
Исследовательский анализ данных |
В нашем распоряжении данные сервиса Яндекс.Недвижимость — архив |
Статистический анализ данных |
Оператор сотовой |
Сборный проект — 1 |
Интернет-магазин «Стримчик», который продаёт по всему |
Введение в машинное обучение |
Оператор мобильной связи «Мегалайн» выяснил: многие клиенты пользуются архивными тарифами. Они хотят построить систему, способную проанализировать поведение клиентов и предложить пользователям новый тариф: «Смарт» или «Ультра». |
Обучение с учителем |
Из «Бета-Банка» стали уходить клиенты. Нужно спрогнозировать, уйдёт клиент из банка в ближайшее время или нет. Вам предоставлены исторические данные о поведении клиентов и расторжении договоров с банком. |
Машинное обучение в бизнесе |
Нефтедобывающая компания «ГлавРосГосНефть» предоставляет пробы нефти в трёх регионах: в каждом 10 000 месторождений, где измерили качество нефти и объём её запасов. Необходимо построить модель машинного обучения, которая поможет определить регион, где добыча принесёт наибольшую прибыль. |
Сборный проект — 2 |
Необходимо подготовить прототип модели машинного обучения для «Цифры». Компания разрабатывает решения для эффективной работы промышленных предприятий. Модель должна предсказать коэффициент восстановления золота из золотосодержащей руды. |
Линейная алгебра |
Необходимо защитить данные клиентов страховой компании «Хоть потоп». Разработайте метод преобразования данных, чтобы по ним было сложно восстановить персональную информацию. Обоснуйте корректность его работы. |
Численные методы |
Сервис по продаже автомобилей с пробегом «Не бит, не крашен» разрабатывает приложение для привлечения новых клиентов. Необходимо построить модель для определения стоимости. |
Временные ряды |
Компания «Чётенькое такси» собрала исторические данные о заказах такси в аэропортах. Чтобы привлекать больше водителей в период пиковой нагрузки, нужно спрогнозировать количество заказов такси на следующий час. |
Машинное обучение для текста |
Интернет-магазин «Викишоп» запускает новый сервис, где пользователи могут редактировать и дополнять описания товаров. Клиенты предлагают свои правки и комментируют изменения других. Обучите модель классифицировать комментарии на позитивные и негативные. |
Извлечение данных |
Российская авиакомпания F9, выполняющая внутренние пассажирские перевозки, хочет провести анализ среди пользователей, покупающих билеты на разные направления. |
Компьютерное зрение |
Сетевой супермаркет «Хлеб-Соль» внедряет систему компьютерного зрения для обработки фотографий покупателей. Необходимо построить модель, которая по фотографии определит приблизительный возраст человека. В нашем распоряжении набор фотографий людей с указанием возраста. |
Финальный проект |
Чтобы оптимизировать производственные расходы, металлургический комбинат ООО «Так закаляем сталь» решил уменьшить потребление электроэнергии на этапе обработки стали. Вам предстоит построить модель, которая предскажет температуру стали. |
License
MIT
With ❤️ by Anastasia Kim (@gingermuffin)
sxemixa / transform-personal-data
Goto Github
PK
View Code? Open in Web Editor
NEW
0.0
0.0
13 KB
Вам нужно защитить данные клиентов страховой компании «Хоть потоп». Разработайте такой метод преобразования данных, чтобы по ним было сложно восстановить персональную информацию.
Jupyter Notebook 100.00%
transform-personal-data’s Introduction
Мое резюме:
- Резюме
Сертификаты:
- Яндекс.Практикум: Специалист по Data Science RUS/EN
Хакатоны:
- AgroCode Hack 2022
Курсы:
Название курса | Форма обучения | Статус |
---|---|---|
Яндекс.Практикум: Специалист по Data Science | Дистанционная | Завершен |
Самостоятельные проекты:
Kaggle:
Название проекта | Источник проекта | Описание | Статус проекта |
---|---|---|---|
Titanic — Machine Learning from Disaster(1 try) | Kaggle | Найти взаимосвзяь между данными, ответить для себя какие факторы влияют на целевой признак. Построить модель предсказания и дать небольшую визуализацию. | accuracy = 0.801 |
Пробные задания
Название проекта | Источник проекта | Описание | Статус проекта |
---|---|---|---|
Banks EDA (NLP) | Сбербанк | Необходимо провести EDA анализ банков, ответить на поставленные вопросы бизнеса, сделать соответствующие выводы. | Завершен |
Учебные проекты:
Курсовые работы:
Список проектов по теме
Название проекта | Источник проекта | Описание | Статус проекта |
---|---|---|---|
Предсказание температуры стали | Яндекс Практикум, Jupyter Notebook | Чтобы оптимизировать производственные расходы, металлургический комбинат ООО «Так закаляем сталь» решил уменьшить потребление электроэнергии на этапе обработки стали. Вам предстоит построить модель, которая предскажет температуру стали | Завершен |
Аналитика:
Список проектов по теме
Название проекта | Источник проекта | Описание | Статус проекта |
---|---|---|---|
Анализ рейтинга и успешности игровых жанров | Яндекс.Практикум | Вам нужно выявить определяющие успешность игры закономерности. Это позволит сделать ставку на потенциально популярный продукт и спланировать рекламные кампании | Завершен |
Яндекс.Музыка | Яндекс.Практикум | На данных Яндекс.Музыки вы сравните поведение пользователей двух столиц | Завершен |
Исследование надёжности заёмщиков | Яндекс.Практикум | Нужно разобраться, влияет ли семейное положение и количество детей клиента на факт погашения кредита в срок | Завершен |
Определение перспективного тарифа для телеком-компании | Яндекс.Практикум | Вам предстоит сделать предварительный анализ тарифов на небольшой выборке клиентов | Завершен |
Исследование объявлений о продаже квартир | Яндекс.Практикум | Нужно научиться определять рыночную стоимость объектов недвижимости | Завершен |
Задачи регрессии:
Список проектов по теме
Название проекта | Источник проекта | Описание | Статус проекта |
---|---|---|---|
Прогнозирование заказов таксти | Яндекс.Практикум | Компания «Чётенькое такси» собрала исторические данные о заказах такси в аэропортах. Чтобы привлекать больше водителей в период пиковой нагрузки, нужно спрогнозировать количество заказов такси на следующий час. Постройте модель для такого предсказания. | Завершен |
Выбор локации для скважины | Яндекс.Практикум | Нужно решить, где бурить новую нефтяную скважину для получения наибольшей прибыли | Завершен |
Восстановление золота из руды | Яндекс.Практикум | Подготовьте прототип модели машинного обучения для «Цифры». Компания разрабатывает решения для эффективной работы промышленных предприятий. Модель должна предсказать коэффициент восстановления золота из золотосодержащей руды. Используйте данные с параметрами добычи и очистки. | Завершен |
Защита персональных данных клиентов | Яндекс.Практикум | Вам нужно защитить данные клиентов страховой компании «Хоть потоп». Разработайте такой метод преобразования данных, чтобы по ним было сложно восстановить персональную информацию. Обоснуйте корректность его работы. | Завершен |
Классификация:
Список проектов по теме
Название проекта | Источник проекта | Описание | Статус проекта |
---|---|---|---|
Прогнозирование оттока клиентов | Яндекс.Практикум | Из «Бета-Банка» стали уходить клиенты. Каждый месяц. Немного, но заметно. Банковские маркетологи посчитали: сохранять текущих клиентов дешевле, чем привлекать новых.Нужно спрогнозировать, уйдёт клиент из банка в ближайшее время или нет. Вам предоставлены исторические данные о поведении клиентов и расторжении договоров с банком. | Завершен |
Рекомендация тарифов | Яндекс.Практикум | Определить влияет ли семейное положение и количество детей клиента на факт погашения кредита в срок | Завершен |
Определение возраста покупателей | Яндекс.Практикум | Определить влияет ли семейное положение и количество детей клиента на факт погашения кредита в срок | Завершен |
Фильтрация токсичных комментериев | Яндекс.Практикум | Интернет-магазин «Викишоп» запускает новый сервис. Теперь пользователи могут редактировать и дополнять описания товаров, как в вики-сообществах. То есть клиенты предлагают свои правки и комментируют изменения других. Магазину нужен инструмент, который будет искать токсичные комментарии и отправлять их на модерацию.Обучите модель классифицировать комментарии на позитивные и негативные. | Завершен |
transform-personal-data’s People
Contributors
Watchers
Recommend Projects
-
React
A declarative, efficient, and flexible JavaScript library for building user interfaces.
-
Vue.js
🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.
-
Typescript
TypeScript is a superset of JavaScript that compiles to clean JavaScript output.
-
TensorFlow
An Open Source Machine Learning Framework for Everyone
-
Django
The Web framework for perfectionists with deadlines.
-
Laravel
A PHP framework for web artisans
-
D3
Bring data to life with SVG, Canvas and HTML. 📊📈🎉
Recommend Topics
-
javascript
JavaScript (JS) is a lightweight interpreted programming language with first-class functions.
-
web
Some thing interesting about web. New door for the world.
-
server
A server is a program made to process requests and deliver data to clients.
-
Machine learning
Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.
-
Visualization
Some thing interesting about visualization, use data art
-
Game
Some thing interesting about game, make everyone happy.
Recommend Org
-
Facebook
We are working to build community through open source technology. NB: members must have two-factor auth.
-
Microsoft
Open source projects and samples from Microsoft.
-
Google
Google ❤️ Open Source for everyone.
-
Alibaba
Alibaba Open Source for everyone
-
D3
Data-Driven Documents codes.
-
Tencent
China tencent open source team.
cyberefrem / ya_09_linear_algebra
Goto Github
PK
View Code? Open in Web Editor
NEW
0.0
0.0
5 KB
Jupyter Notebook 100.00%
ya_09_linear_algebra’s Introduction
- 👋 Привет! Меня зовут Ефрем Несынов.
- 👀 Меня интересует возможность самореализации в направлении ML.
- 🌱 Сейчас обучаюсь по направлению Data Science в:
- Яндекс.Практикуме (окончание обучения 05.2022)
- Виртуальной Школе Сбербанка (окончание обучения 03.2022)
- 💞️ Ищу работу в области Data Science.
- 📫 Со мной можно связаться по почте [email protected] и тел. +7 925 66 17 222
По просьбе Яндекс.Практикума проекты выкладываются private. Доступ предоставляю по запросу.
✨ Здесь можно ознакомиться с моими учебными проектами: ✨
№ | Название проекта | Сфера | Описание | Стек |
---|---|---|---|---|
1 | Исследование надёжности заёмщиков | Финансы | Предобработка данных, поиск и устранение пропусков, дубликатов; лемматизация; категоризация и вывод сводных таблиц; исследовательский анализ данных. | Python pymystem3 Pandas NumPy |
2 | Исследование объявлений о продаже квартир | Недвижимость | Поиск и устранение проблем в данных; построение графиков и формирование сводных таблиц; расчет корелляции и интерпретация взаимосвязей. | Pandas Matplotlib NumPy |
3 | Определение перспективного тарифа для телеком компании | Телеком | Подготовка данных, выявление в них проблем; построение графиков распределений, их интерпретация; расчёт стандартного отклонения, дисперсии; формирование нулевой и альтернативной гипотезы; проверка и интерпретация гипотез. | Pandas Matplotlib math NumPy SciPy Statsmodels |
4 | Изучение закономерностей, определяющих успешность игр | Геймдэв | Интернет-магазин продаёт по всему миру компьютерные игры. Из открытых источников доступны исторические данные о продажах игр, оценки пользователей и экспертов, жанры и платформы. Выявлены параметры, определяющие успешность игры в разных регионах мира. Выявлен потенциально популярный продукт и спланированы рекламные кампании. Выбран актуальный период для анализа. Составлены портреты пользователей каждого региона. Проверены гипотезы: средние пользовательские рейтинги платформ Xbox One и PC одинаковые; средние пользовательские рейтинги жанров Action и Sports разные. При анализе использовались критерий Стьюдента для независимых выборок. |
Pandas Matplotlib math NumPy SciPy Statsmodels |
5 | Определение выгодного тарифа для телеком компании | Телеком | Оператор мобильной связи выяснил: многие клиенты пользуются архивными тарифами. Проведен предварительный анализ использования тарифов на выборке клиентов, проанализировано поведение клиентов при использовании услуг оператора и рекомендованы оптимальные наборы услуг для пользователей. Проверены гипотезы о различии выручки абонентов разных тарифов и различии выручки абонентов из Москвы и других регионов. Определен выгодный тарифный план для корректировки рекламного бюджета. Разработана система, способная проанализировать поведение клиентов и предложить пользователям новый тариф. Построена модель для задачи классификации, которая выберет подходящий тариф. Построена модель с максимально большим значением accuracy. Доля правильных ответов доведена до 0.75. Проверены accuracy на тестовой выборке. |
Pandas Matplotlib проверка статистических гипотез NumPy sklearn машинное обучение описательная статистика |
6 | Отток клиентов банка | Финансы, банки | Из банка стали уходить клиенты каждый месяц. Спрогнозирована вероятность ухода клиента из банка в ближайшее время. Построена модель с предельно большим значением F1-меры с последующей проверкой на тестовой выборке. Доведена метрика до 0.59. Дополнительно измерен AUC-ROC, соотнесен с F1-мерой. Обучение с учителем. Работа с несбалансированными данными. |
Pandas Matplotlib NumPy sklearn машинное обучение |
7 | Выбор региона для разработки новых нефтяных месторождений | Добывающая промышленность | Добывающей компании «ГлавРосГосНефть» нужно решить, где бурить новую скважину. Собраны характеристики пробы нефти для скважин: качество нефти и объём её запасов по трем регионам. Характеристики для каждой скважины в регионе уже известны. Построена модель для предсказания объёма запасов в новых скважинах. Выбраны скважины с самыми высокими оценками значений. Определены регионы с максимальной суммарной прибылью отобранных скважин. Построена модель для определения региона, где добыча принесёт наибольшую прибыль. Проанализирована возможная прибыль и риски техникой Bootstrap. |
Pandas Matplotlib NumPy Bootstrap sklearn машинное обучение |
ya_09_linear_algebra’s People
Contributors
Recommend Projects
-
React
A declarative, efficient, and flexible JavaScript library for building user interfaces.
-
Vue.js
🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.
-
Typescript
TypeScript is a superset of JavaScript that compiles to clean JavaScript output.
-
TensorFlow
An Open Source Machine Learning Framework for Everyone
-
Django
The Web framework for perfectionists with deadlines.
-
Laravel
A PHP framework for web artisans
-
D3
Bring data to life with SVG, Canvas and HTML. 📊📈🎉
Recommend Topics
-
javascript
JavaScript (JS) is a lightweight interpreted programming language with first-class functions.
-
web
Some thing interesting about web. New door for the world.
-
server
A server is a program made to process requests and deliver data to clients.
-
Machine learning
Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.
-
Visualization
Some thing interesting about visualization, use data art
-
Game
Some thing interesting about game, make everyone happy.
Recommend Org
-
Facebook
We are working to build community through open source technology. NB: members must have two-factor auth.
-
Microsoft
Open source projects and samples from Microsoft.
-
Google
Google ❤️ Open Source for everyone.
-
Alibaba
Alibaba Open Source for everyone
-
D3
Data-Driven Documents codes.
-
Tencent
China tencent open source team.
Data Science
В этом репозитории собраны мои проекты из курса «Специалист по Data Science» Яндекс.Практикума
This repository contains my projects from the «Data Science Specialist» training program by Yandex.Praktikum
Содержание: / Content:
- Модуль 01 / Module 01
- Предобработка данных / Data Processing — Project_01
- Исследовательский анализ данных / Exploratory data analysis — Project_02
- Статистический анализ данных / Statistical analysis of data — Project_03
- Сборный проект / Common project — Project_04
- Модуль 02 / Module 02
- Введение в машинное обучение / Introduction to machine learning — Project_05
- Обучение с учителем / Supervised learning — Project_06
- Машинное обучение в бизнесе / Machine learning in business — Project_07
- Сборный проект / Common project — Project_08
- Модуль 03 / Module 03
- Линейная алгебра / Linear algebra — Project_09
- Численные методы (градиентный бустинг) / Numerical analysis (gradient boosting) — Project_10
- Временные ряды / Time series — Project_11
- Машинное обучение для текстов / Machine learning for texts — Project_12
- Модуль 04 / Module 04
- Извлечение данных / Data retrieval — Project_13
- Компьютерное зрение / Computer vision — Project_14
- Рекомендации и обучение без учителя / Unsupervised learning
- Выпускной проект / Final project — Project_final
Project_01
Предобработка данных
Заказчик — кредитный отдел банка. Нужно разобраться, влияет ли семейное положение и количество детей клиента на факт погашения кредита в срок. Входные данные от банка — статистика о платёжеспособности клиентов.
Результаты исследования будут учтены при построении модели кредитного скоринга — специальной системы, которая оценивает способность потенциального заёмщика вернуть кредит банку.
Data Processing
The customer is the bank’s credit department. It is necessary to find out, whether family status and number of children of the client influence on the fact of loan repayment in due time. Input data from the bank — statistics on clients’ solvency.
The results of the research will be taken into account when building a credit scoring model — a special system that evaluates the ability of a potential borrower to repay a loan to the bank.
Project_02
Исследовательский анализ данных
В вашем распоряжении данные сервиса Яндекс.Недвижимость — архив объявлений о продаже квартир в Санкт-Петербурге и соседних населённых пунктов за несколько лет. Нужно научиться определять рыночную стоимость объектов недвижимости. Ваша задача — установить параметры. Это позволит построить автоматизированную систему: она отследит аномалии и мошенническую деятельность.
Exploratory data analysis
At your disposal is the data of the service Yandex. Apartments for sale in Saint-Petersburg and neighboring settlements for several years. You need to learn how to determine the market value of real estate. Your task is to set the parameters. This will build an automated system: it will track anomalies and fraudulent activity.
Project_03
Статистический анализ данных
Вы аналитик компании «Мегалайн» — федерального оператора сотовой связи. Клиентам предлагают два тарифных плана: «Смарт» и «Ультра». Чтобы скорректировать рекламный бюджет, коммерческий департамент хочет понять, какой тариф приносит больше денег.
Statistical analysis of data
You are an analyst of Megaline, a federal mobile operator. The clients are offered two tariff plans: «Smart» and «Ultra». To adjust the advertising budget, the commercial department wants to understand which tariff brings more money.
Project_04
Сборный проект
Вы работаете в интернет-магазине «Стримчик», который продаёт по всему миру компьютерные игры. Из открытых источников доступны исторические данные о продажах игр, оценки пользователей и экспертов, жанры и платформы (например, Xbox или PlayStation). Вам нужно выявить определяющие успешность игры закономерности. Это позволит сделать ставку на потенциально популярный продукт и спланировать рекламные кампании.
Common project
You work in the online store » Streamchik «, which sells around the world computer games. Historical data on game sales, user and expert evaluations, genres and platforms (e.g. Xbox or PlayStation) are available from open sources. You need to identify patterns that determine the success of the game. This will allow you to bet on a potentially popular product and plan advertising campaigns.
Project_05
Введение в машинное обучение
Оператор мобильной связи «Мегалайн» выяснил: многие клиенты пользуются архивными тарифами. Они хотят построить систему, способную проанализировать поведение клиентов и предложить пользователям новый тариф: «Смарт» или «Ультра».
Introduction to machine learning
Mobile operator «Megaline» found out: many customers use archive tariffs. They want to build a system that can analyze customer behavior and offer users a new tariff: «Smart» or «Ultra».
Project_06
Обучение с учителем
Из «Бета-Банка» стали уходить клиенты. Каждый месяц. Немного, но заметно. Банковские маркетологи посчитали: сохранять текущих клиентов дешевле, чем привлекать новых. Нужно спрогнозировать, уйдёт клиент из банка в ближайшее время или нет. Вам предоставлены исторические данные о поведении клиентов и расторжении договоров с банком.
Supervised learning
«Beta-Bank» started leaving clients. Every month. A little, but noticeable. Banking marketers thought: it is cheaper to save current customers than to attract new ones. It is necessary to predict whether the client will leave the bank in the near future or not. You are provided with historical data on the behavior of clients and the termination of contracts with the bank.
Project_07
Машинное обучение в бизнесе
Допустим, вы работаете в добывающей компании «ГлавРосГосНефть». Нужно решить, где бурить новую скважину. Вам предоставлены пробы нефти в трёх регионах: в каждом — 100 000 месторождений, где измерили качество нефти и объём её запасов. Постройте модель машинного обучения, которая поможет определить регион, где добыча принесёт наибольшую прибыль.
Machine learning in business
Suppose you work at GlavRosGosNeft production company. We need to decide where to drill the new well. You have been given samples of oil in three regions: in each region there are 100,000 oil fields where the quality of oil and the volume of its reserves were measured. Build a model of machine training that will help you determine the region where production will bring the most profit.
Project_08
Сборный проект
Подготовьте прототип модели машинного обучения для «Цифры». Компания разрабатывает решения для эффективной работы промышленных предприятий. Модель должна предсказать коэффициент восстановления золота из золотосодержащей руды. В вашем распоряжении данные с параметрами добычи и очистки. Модель поможет оптимизировать производство, чтобы не запускать предприятие с убыточными характеристиками
Common project
Prepare a prototype machine learning model for «Numbers». The company develops solutions for efficient operation of industrial enterprises. The model must predict the recovery rate of gold from gold ore. Data with mining and cleaning parameters are at your disposal. The model will help to optimize production so as not to run a plant with loss-making characteristics.
Project_09
Линейная алгебра
Вам нужно защитить данные клиентов страховой компании «Хоть потоп». Разработайте такой метод преобразования данных, чтобы по ним было сложно восстановить персональную информацию.
Linear algebra
You need to protect your customer data from «We’re not afraid of the flood» insurance company. Develop a method to convert data so that it is difficult to recover personal information.
Project_10
Численные методы
Сервис по продаже автомобилей с пробегом «Не бит, не крашен» разрабатывает приложение для привлечения новых клиентов. В нём можно быстро узнать рыночную стоимость своего автомобиля. В вашем распоряжении исторические данные: технические характеристики, комплектации и цены автомобилей. Вам нужно построить модель для определения стоимости.
Numerical analysis
Car sales service with mileage «Not broken, not painted» develops an application to attract new customers. In it you can quickly find out the market value of your car. Historical data: technical specifications, equipment and prices of cars are at your disposal. You need to build a model to determine the price.
Project_11
Временные ряды
Компания «Чётенькое такси» собрала исторические данные о заказах такси в аэропортах. Чтобы привлекать больше водителей в период пиковой нагрузки, нужно спрогнозировать количество заказов такси на следующий час. Постройте модель для такого предсказания.
Time series
«Cool Taxi» Company has collected historical data on taxi orders at airports. To attract more drivers during the peak load, you need to predict the number of taxi orders for the next hour. Build a model for such a prediction.
Project_12
Машинное обучение для текстов
Интернет-магазин «Викишоп» запускает новый сервис. Теперь пользователи могут редактировать и дополнять описания товаров, как в вики-сообществах. То есть клиенты предлагают свои правки и комментируют изменения других. Магазину нужен инструмент, который будет искать токсичные комментарии и отправлять их на модерацию.
Обучите модель классифицировать комментарии на позитивные и негативные. В вашем распоряжении набор данных с разметкой о токсичности правок.
Machine learning for texts
Online store «Wikishop» launches a new service. Now users can edit and supplement product descriptions, as on wikis. That is, customers offer their edits and comment on changes made by others. The store needs a tool that will search for toxic comments and send them to moderation.
Teach the model to categorize comments into positive and negative. At your disposal is a data set with markings on the toxicity of edits.
Project_13
Извлечение данных
Вы аналитик российской авиакомпании F9, выполняющей внутренние пассажирские перевозки. Важно понять предпочтения пользователей, покупающих билеты на разные направления. Вам предстоит изучить базу данных и проанализировать спрос пассажиров на рейсы в города, где проходят крупнейшие культурные фестивали.
Data retrieval
You are an analyst of the Russian airline F9, which performs domestic passenger transportation. It is important to understand the preferences of users who buy tickets to different destinations. You will have to study the database and analyze passenger demand for flights to cities where major cultural festivals are held.
Project_14
Компьютерное зрение
Сетевой супермаркет «Хлеб-Соль» внедряет систему компьютерного зрения для обработки фотографий покупателей. Фотофиксация в прикассовой зоне поможет определять возраст клиентов, чтобы:
- Анализировать покупки и предлагать товары, которые могут заинтересовать покупателей этой возрастной группы;
- Контролировать добросовестность кассиров при продаже алкоголя.
Computer vision
Network supermarket «Bread and salt» introduces a computer vision system for processing photos of customers. Photofixing in the checkout area will help determine the age of customers to:
- Analyze purchases and offer products that may interest customers of this age group;
- Monitor the integrity of cashiers when selling alcohol.
Project_final
Выпускной проект
Чтобы оптимизировать производственные расходы, металлургический комбинат ООО «Так закаляем сталь» решил уменьшить потребление электроэнергии на этапе обработки стали. Вам предстоит построить модель, которая предскажет температуру стали.
Final project
In order to optimize production costs, «That’s how we temper steel» metallurgical plant decided to reduce electricity consumption at the steel processing stage. You have to build a model that predicts the temperature of steel.
Data Science
В этом репозитории собраны мои проекты из курса «Специалист по Data Science» Яндекс.Практикума
This repository contains my projects from the «Data Science Specialist» training program by Yandex.Praktikum
Содержание: / Content:
- Модуль 01 / Module 01
- Предобработка данных / Data Processing — Project_01
- Исследовательский анализ данных / Exploratory data analysis — Project_02
- Статистический анализ данных / Statistical analysis of data — Project_03
- Сборный проект / Common project — Project_04
- Модуль 02 / Module 02
- Введение в машинное обучение / Introduction to machine learning — Project_05
- Обучение с учителем / Supervised learning — Project_06
- Машинное обучение в бизнесе / Machine learning in business — Project_07
- Сборный проект / Common project — Project_08
- Модуль 03 / Module 03
- Линейная алгебра / Linear algebra — Project_09
- Численные методы (градиентный бустинг) / Numerical analysis (gradient boosting) — Project_10
- Временные ряды / Time series — Project_11
- Машинное обучение для текстов / Machine learning for texts — Project_12
- Модуль 04 / Module 04
- Извлечение данных / Data retrieval — Project_13
- Компьютерное зрение / Computer vision — Project_14
- Рекомендации и обучение без учителя / Unsupervised learning
- Выпускной проект / Final project — Project_final
Project_01
Предобработка данных
Заказчик — кредитный отдел банка. Нужно разобраться, влияет ли семейное положение и количество детей клиента на факт погашения кредита в срок. Входные данные от банка — статистика о платёжеспособности клиентов.
Результаты исследования будут учтены при построении модели кредитного скоринга — специальной системы, которая оценивает способность потенциального заёмщика вернуть кредит банку.
Data Processing
The customer is the bank’s credit department. It is necessary to find out, whether family status and number of children of the client influence on the fact of loan repayment in due time. Input data from the bank — statistics on clients’ solvency.
The results of the research will be taken into account when building a credit scoring model — a special system that evaluates the ability of a potential borrower to repay a loan to the bank.
Project_02
Исследовательский анализ данных
В вашем распоряжении данные сервиса Яндекс.Недвижимость — архив объявлений о продаже квартир в Санкт-Петербурге и соседних населённых пунктов за несколько лет. Нужно научиться определять рыночную стоимость объектов недвижимости. Ваша задача — установить параметры. Это позволит построить автоматизированную систему: она отследит аномалии и мошенническую деятельность.
Exploratory data analysis
At your disposal is the data of the service Yandex. Apartments for sale in Saint-Petersburg and neighboring settlements for several years. You need to learn how to determine the market value of real estate. Your task is to set the parameters. This will build an automated system: it will track anomalies and fraudulent activity.
Project_03
Статистический анализ данных
Вы аналитик компании «Мегалайн» — федерального оператора сотовой связи. Клиентам предлагают два тарифных плана: «Смарт» и «Ультра». Чтобы скорректировать рекламный бюджет, коммерческий департамент хочет понять, какой тариф приносит больше денег.
Statistical analysis of data
You are an analyst of Megaline, a federal mobile operator. The clients are offered two tariff plans: «Smart» and «Ultra». To adjust the advertising budget, the commercial department wants to understand which tariff brings more money.
Project_04
Сборный проект
Вы работаете в интернет-магазине «Стримчик», который продаёт по всему миру компьютерные игры. Из открытых источников доступны исторические данные о продажах игр, оценки пользователей и экспертов, жанры и платформы (например, Xbox или PlayStation). Вам нужно выявить определяющие успешность игры закономерности. Это позволит сделать ставку на потенциально популярный продукт и спланировать рекламные кампании.
Common project
You work in the online store » Streamchik «, which sells around the world computer games. Historical data on game sales, user and expert evaluations, genres and platforms (e.g. Xbox or PlayStation) are available from open sources. You need to identify patterns that determine the success of the game. This will allow you to bet on a potentially popular product and plan advertising campaigns.
Project_05
Введение в машинное обучение
Оператор мобильной связи «Мегалайн» выяснил: многие клиенты пользуются архивными тарифами. Они хотят построить систему, способную проанализировать поведение клиентов и предложить пользователям новый тариф: «Смарт» или «Ультра».
Introduction to machine learning
Mobile operator «Megaline» found out: many customers use archive tariffs. They want to build a system that can analyze customer behavior and offer users a new tariff: «Smart» or «Ultra».
Project_06
Обучение с учителем
Из «Бета-Банка» стали уходить клиенты. Каждый месяц. Немного, но заметно. Банковские маркетологи посчитали: сохранять текущих клиентов дешевле, чем привлекать новых. Нужно спрогнозировать, уйдёт клиент из банка в ближайшее время или нет. Вам предоставлены исторические данные о поведении клиентов и расторжении договоров с банком.
Supervised learning
«Beta-Bank» started leaving clients. Every month. A little, but noticeable. Banking marketers thought: it is cheaper to save current customers than to attract new ones. It is necessary to predict whether the client will leave the bank in the near future or not. You are provided with historical data on the behavior of clients and the termination of contracts with the bank.
Project_07
Машинное обучение в бизнесе
Допустим, вы работаете в добывающей компании «ГлавРосГосНефть». Нужно решить, где бурить новую скважину. Вам предоставлены пробы нефти в трёх регионах: в каждом — 100 000 месторождений, где измерили качество нефти и объём её запасов. Постройте модель машинного обучения, которая поможет определить регион, где добыча принесёт наибольшую прибыль.
Machine learning in business
Suppose you work at GlavRosGosNeft production company. We need to decide where to drill the new well. You have been given samples of oil in three regions: in each region there are 100,000 oil fields where the quality of oil and the volume of its reserves were measured. Build a model of machine training that will help you determine the region where production will bring the most profit.
Project_08
Сборный проект
Подготовьте прототип модели машинного обучения для «Цифры». Компания разрабатывает решения для эффективной работы промышленных предприятий. Модель должна предсказать коэффициент восстановления золота из золотосодержащей руды. В вашем распоряжении данные с параметрами добычи и очистки. Модель поможет оптимизировать производство, чтобы не запускать предприятие с убыточными характеристиками
Common project
Prepare a prototype machine learning model for «Numbers». The company develops solutions for efficient operation of industrial enterprises. The model must predict the recovery rate of gold from gold ore. Data with mining and cleaning parameters are at your disposal. The model will help to optimize production so as not to run a plant with loss-making characteristics.
Project_09
Линейная алгебра
Вам нужно защитить данные клиентов страховой компании «Хоть потоп». Разработайте такой метод преобразования данных, чтобы по ним было сложно восстановить персональную информацию.
Linear algebra
You need to protect your customer data from «We’re not afraid of the flood» insurance company. Develop a method to convert data so that it is difficult to recover personal information.
Project_10
Численные методы
Сервис по продаже автомобилей с пробегом «Не бит, не крашен» разрабатывает приложение для привлечения новых клиентов. В нём можно быстро узнать рыночную стоимость своего автомобиля. В вашем распоряжении исторические данные: технические характеристики, комплектации и цены автомобилей. Вам нужно построить модель для определения стоимости.
Numerical analysis
Car sales service with mileage «Not broken, not painted» develops an application to attract new customers. In it you can quickly find out the market value of your car. Historical data: technical specifications, equipment and prices of cars are at your disposal. You need to build a model to determine the price.
Project_11
Временные ряды
Компания «Чётенькое такси» собрала исторические данные о заказах такси в аэропортах. Чтобы привлекать больше водителей в период пиковой нагрузки, нужно спрогнозировать количество заказов такси на следующий час. Постройте модель для такого предсказания.
Time series
«Cool Taxi» Company has collected historical data on taxi orders at airports. To attract more drivers during the peak load, you need to predict the number of taxi orders for the next hour. Build a model for such a prediction.
Project_12
Машинное обучение для текстов
Интернет-магазин «Викишоп» запускает новый сервис. Теперь пользователи могут редактировать и дополнять описания товаров, как в вики-сообществах. То есть клиенты предлагают свои правки и комментируют изменения других. Магазину нужен инструмент, который будет искать токсичные комментарии и отправлять их на модерацию.
Обучите модель классифицировать комментарии на позитивные и негативные. В вашем распоряжении набор данных с разметкой о токсичности правок.
Machine learning for texts
Online store «Wikishop» launches a new service. Now users can edit and supplement product descriptions, as on wikis. That is, customers offer their edits and comment on changes made by others. The store needs a tool that will search for toxic comments and send them to moderation.
Teach the model to categorize comments into positive and negative. At your disposal is a data set with markings on the toxicity of edits.
Project_13
Извлечение данных
Вы аналитик российской авиакомпании F9, выполняющей внутренние пассажирские перевозки. Важно понять предпочтения пользователей, покупающих билеты на разные направления. Вам предстоит изучить базу данных и проанализировать спрос пассажиров на рейсы в города, где проходят крупнейшие культурные фестивали.
Data retrieval
You are an analyst of the Russian airline F9, which performs domestic passenger transportation. It is important to understand the preferences of users who buy tickets to different destinations. You will have to study the database and analyze passenger demand for flights to cities where major cultural festivals are held.
Project_14
Компьютерное зрение
Сетевой супермаркет «Хлеб-Соль» внедряет систему компьютерного зрения для обработки фотографий покупателей. Фотофиксация в прикассовой зоне поможет определять возраст клиентов, чтобы:
- Анализировать покупки и предлагать товары, которые могут заинтересовать покупателей этой возрастной группы;
- Контролировать добросовестность кассиров при продаже алкоголя.
Computer vision
Network supermarket «Bread and salt» introduces a computer vision system for processing photos of customers. Photofixing in the checkout area will help determine the age of customers to:
- Analyze purchases and offer products that may interest customers of this age group;
- Monitor the integrity of cashiers when selling alcohol.
Project_final
Выпускной проект
Чтобы оптимизировать производственные расходы, металлургический комбинат ООО «Так закаляем сталь» решил уменьшить потребление электроэнергии на этапе обработки стали. Вам предстоит построить модель, которая предскажет температуру стали.
Final project
In order to optimize production costs, «That’s how we temper steel» metallurgical plant decided to reduce electricity consumption at the steel processing stage. You have to build a model that predicts the temperature of steel.