Вы аналитик компании мегалайн федерального оператора сотовой связи

training-project-2

Определение перспективного тарифа для телеком компании

Описание проекта

Вы аналитик компании «Мегалайн» — федерального оператора сотовой связи. Клиентам предлагают два тарифных плана: «Смарт» и «Ультра». Чтобы скорректировать рекламный бюджет, коммерческий департамент хочет понять, какой тариф приносит больше денег.

Вам предстоит сделать предварительный анализ тарифов на небольшой выборке клиентов. В вашем распоряжении данные 500 пользователей «Мегалайна»: кто они, откуда, каким тарифом пользуются, сколько звонков и сообщений каждый отправил за 2018 год. Нужно проанализировать поведение клиентов и сделать вывод — какой тариф лучше.

Описание тарифов

Тариф «Смарт»

  1. Ежемесячная плата: 550 рублей
  2. Включено 500 минут разговора, 50 сообщений и 15 Гб интернет-трафика
  3. Стоимость услуг сверх тарифного пакета:
  • минута разговора: 3 рубля
  • сообщение: 3 рубля
  • 1 Гб интернет-трафика: 200 рублей

Тариф «Ультра»

  1. Ежемесячная плата: 1950 рублей
  2. Включено 3000 минут разговора, 1000 сообщений и 30 Гб интернет-трафика
  3. Стоимость услуг сверх тарифного пакета:
  • минута разговора: 1 рубль
  • сообщение: 1 рубль
  • 1 Гб интернет-трафика: 150 рублей

Обратите внимание: «Мегалайн» всегда округляет вверх значения минут и мегабайтов. Если пользователь проговорил всего 1 секунду, в тарифе засчитывается целая минута.

Описание данных

Таблица users (информация о пользователях):

  • user_id — уникальный идентификатор пользователя
  • first_name — имя пользователя
  • last_name — фамилия пользователя
  • age — возраст пользователя (годы)
  • reg_date — дата подключения тарифа (день, месяц, год)
  • churn_date — дата прекращения пользования тарифом (если значение пропущено, то тариф ещё действовал на момент выгрузки данных)
  • city — город проживания пользователя
  • tariff — название тарифного плана

Таблица calls (информация о звонках):

  • id — уникальный номер звонка
  • call_date — дата звонка
  • duration — длительность звонка в минутах
  • user_id — идентификатор пользователя, сделавшего звонок

Таблица messages (информация о сообщениях):

  • id — уникальный номер сообщения
  • message_date — дата сообщения
  • user_id — идентификатор пользователя, отправившего сообщение

Таблица internet (информация об интернет-сессиях):

  • id — уникальный номер сессии
  • mb_used — объём потраченного за сессию интернет-трафика (в мегабайтах)
  • session_date — дата интернет-сессии
  • user_id — идентификатор пользователя

Таблица tariffs (информация о тарифах):

  • tariff_name — название тарифа
  • rub_monthly_fee — ежемесячная абонентская плата в рублях
  • minutes_included — количество минут разговора в месяц, включённых в абонентскую плату
  • messages_included — количество сообщений в месяц, включённых в абонентскую плату
  • mb_per_month_included — объём интернет-трафика, включённого в абонентскую плату (в мегабайтах)
  • rub_per_minute — стоимость минуты разговора сверх тарифного пакета (например, если в тарифе 100 минут разговора в месяц, то со 101 минуты будет взиматься плата)
  • rub_per_message — стоимость отправки сообщения сверх тарифного пакета
  • rub_per_gb — стоимость дополнительного гигабайта интернет-трафика сверх тарифного пакета (1 гигабайт = 1024 мегабайта)
  1. # Определение перспективного тарифа для телеком компании

  2. ##### Задача: проанализировать поведение клиентов компании Мегалайн и сделать вывод — какой тариф выгоднее продвигать: Смарт или Ультра.

  3. 1. Провести первичный анализ данных

  4. 2. Провести предобработку данных (привести к нужным типам и исправить ошибки)

  5. 3. Добавить необходимые данные в таблицы (количество сделанных звонков и израсходованных минут разговора по месяцам; количество отправленных сообщений по месяцам; объем израсходованного интернет-трафика по месяцам; помесячную выручку с каждого пользователя)

  6. 4. Описать поведение клиентов (среднее кол-во сообщений, минут разговора, объем трафика)

  7. 5. Проверить гипотезы: средняя выручка пользователей тарифов «Ультра» и «Смарт» различается; средняя выручка пользователей из Москвы отличается от выручки пользователей из других регионов

  8. ## Первичный анализ данных

  9. Импортируем необходимые библиотеки:

  10. import pandas as pd

  11. import matplotlib.pyplot as plt

  12. import numpy as np

  13. import scipy.stats as st

  14. Импортируем данные:

  15. calls_data = pd.read_csv(‘/datasets/calls.csv’)

  16. internet_data = pd.read_csv(‘/datasets/internet.csv’)

  17. messages_data = pd.read_csv(‘/datasets/messages.csv’)

  18. tariffs_data = pd.read_csv(‘/datasets/tariffs.csv’)

  19. users_data = pd.read_csv(‘/datasets/users.csv’)

  20. print(calls_data.info())

  21. calls_data.head()

  22. print(internet_data.info())

  23. internet_data.head()

  24. print(messages_data.info())

  25. messages_data.head()

  26. tariffs_data.head()

  27. print(print(users_data.info()))

  28. users_data.head()

  29. #### Вывод

  30. — Обнаружен неверный формат даты во всех таблицах с датами (4шт)

  31. — Необходимо округлить время звонков и мегабайты трафика в большую сторону в соответствии с условиями тарифов

  32. ## Предобработка

  33. Добавим в каждую из 3 базовых таблиц с данными колонку с месяцем. Для этого вначале приведем даты к формату datetime:

  34. #приводим в формат datetime

  35. calls_data[‘call_date’] = pd.to_datetime(calls_data[‘call_date’], format=‘%Y-%m-%d’)

  36. messages_data[‘message_date’] = pd.to_datetime(messages_data[‘message_date’], format=‘%Y-%m-%d’)

  37. internet_data[‘session_date’] = pd.to_datetime(internet_data[‘session_date’], format=‘%Y-%m-%d’)

  38. #добавляем столбец month

  39. calls_data[‘month’] = pd.to_datetime(calls_data[‘call_date’]).dt.month

  40. messages_data[‘month’] = pd.to_datetime(messages_data[‘message_date’]).dt.month

  41. internet_data[‘month’] = pd.to_datetime(internet_data[‘session_date’]).dt.month

  42. #округлим в большую сторону звонки и сообщения

  43. calls_data[‘duration’] = calls_data[‘duration’].apply(np.ceil).replace(0, 1)

  44. internet_data[‘mb_used’] = internet_data[‘mb_used’].apply(np.ceil).replace(0, 1)

  45. #в таблице с интернет-трафиком для дальнейшего анализа переведем мб в гб

  46. internet_data[‘gb_used’] = (internet_data[‘mb_used’] / 1024)

  47. #объединим сообщения и звонки

  48. calls_msgs_data = calls_data.merge(messages_data, on=[‘user_id’, ‘month’], suffixes=[‘_calls’, ‘_message’])

  49. calls_msgs_data

  50. #сделаем pivot для трех таблиц. сгруппируем по user_id и посчитаем кол-во звонков:

  51. calls_data_grouped = calls_data.pivot_table(index=[‘user_id’, ‘month’], values=‘duration’,

  52.                                                    aggfunc=[‘sum’, ‘count’])

  53. internet_data_grouped = internet_data.pivot_table(index=[‘user_id’, ‘month’], values=‘gb_used’,

  54.                                                    aggfunc=[‘sum’])

  55. calls_data_grouped.reset_index()

  56. calls_data_grouped.columns = [‘calls_duration’, ‘calls_amount’]

  57. internet_data_grouped.columns = [‘gb_used’]

  58. internet_data_grouped.reset_index()

  59. messages_data_grouped = messages_data.pivot_table(index=[‘user_id’, ‘month’], values=‘id’, aggfunc=‘count’)

  60. messages_data_grouped.reset_index()

  61. messages_data_grouped.columns=[‘messages_amount’]

  62. calls_internet_merged = calls_data_grouped.merge(internet_data_grouped, on=[‘user_id’, ‘month’], how=‘left’)

  63. telecom_data = calls_internet_merged.merge(messages_data_grouped, on=[‘user_id’, ‘month’], how=‘left’)

  64. telecom_data_pvt = telecom_data.pivot_table(index=[‘user_id’, ‘month’])

  65. telecom_data_pvt=telecom_data_pvt.reset_index()

  66. Добавим к telecom_data информацию о пользователях (предварительно приведя в формат datetime дату регистрации)

  67. В таблице total_data увидим помесячно кол-во и длительность звонков, кол-во сообщений и объем использованного трафика для каждого пользователя

  68. users_data[‘reg_date’] = pd.to_datetime(users_data[‘reg_date’], format=‘%Y-%m-%d’)

  69. users_data[‘churn_date’].fillna(‘2019-01-01’, inplace=True)

  70. #если дата ухода клиента отстутствует, делаем вывод, что хотя бы в янв 2019 он остался

  71. users_data[‘churn_date’] = pd.to_datetime(users_data[‘churn_date’], format=‘%Y-%m-%d’)

  72. total_data = telecom_data_pvt.merge(users_data, on=‘user_id’, how=‘right’).pivot_table(

  73.     index=[‘user_id’, ‘first_name’, ‘last_name’, ‘age’, ‘city’, ‘tariff’, ‘reg_date’, ‘churn_date’, ‘month’])

  74. total_data = total_data.reset_index()

  75. #округлим кол-во гигабайт, чтобы далее при подсчете экстра стоимости за пределами тарифа не накапало

  76. #лишних «копеек» за мегабайты

  77. total_data[‘gb_used’] = total_data[‘gb_used’].apply(np.ceil)

  78. def out_lim(row):

  79. if row[‘tariff’] == ‘smart’:

  80. if row[‘messages_amount’] > 50:

  81.             messages_extra = (row[‘messages_amount’]50)*3

  82. else:

  83.             messages_extra = 0

  84. if row[‘calls_amount’] > 500:

  85.             calls_extra = (row[‘calls_amount’]500)*3

  86. else:

  87.             calls_extra = 0

  88. if row[‘gb_used’] > 15:

  89.             gb_extra = (row[‘gb_used’]15)*200

  90. else:

  91.             gb_extra = 0

  92.         total_cost = messages_extra + calls_extra + gb_extra + 550

  93. if row[‘tariff’] == ‘ultra’:

  94. if row[‘messages_amount’] > 1000:

  95.             messages_extra = (row[‘messages_amount’]1000)*1

  96. else:

  97.             messages_extra = 0

  98. if row[‘calls_amount’] > 3900:

  99.             calls_extra = (row[‘calls_amount’]3000)*1

  100. else:

  101.             calls_extra = 0

  102. if row[‘gb_used’] > 30:

  103.             gb_extra = (row[‘gb_used’]30)*150

  104. else:

  105.             gb_extra = 0

  106.         total_cost = messages_extra + calls_extra + gb_extra + 1950

  107. return total_cost

  108. total_data[‘total_cost’] = total_data.apply(out_lim, axis=1)

  109. total_data.pivot_table(index=[‘user_id’, ‘first_name’, ‘last_name’, ‘age’, ‘city’, ‘tariff’, ‘reg_date’, ‘churn_date’, ‘month’])

  110. ## Анализ данных

  111. Посчитаем среднее, дисперсию и ст. отклонение для тарифа smart.

  112. smart_data = total_data.query(‘tariff == «smart»‘)

  113. smart_data[[‘total_cost’]].describe()

  114. #среднее равно 1171 руб

  115. # ст.откл. = 745 руб

  116. Посчитаем дисперсию и мат.ожидание для тарифв Smart:

  117. variance_smart = np.var(smart_data[[‘total_cost’]])

  118. variance_smart

  119. expectation_smart = variance_smart**0.5

  120. expectation_smart

  121. То же сделаем для тарифв Ultra:

  122. ultra_data = total_data.query(‘tariff == «ultra»‘)

  123. ultra_data[[‘total_cost’]].describe()

  124. #среднее равно 2071 руб

  125. # ст.откл. = 382 руб

  126. variance_ultra = np.var(ultra_data[[‘total_cost’]])

  127. variance_ultra

  128. expectation_ultra = variance_ultra**0.5

  129. expectation_ultra

  130. Построим диаграммы размаха для каждого тарифа:

  131. smart_data[[‘total_cost’]].boxplot(vert=False)

  132. parameters = smart_data[[‘total_cost’]].describe().T

  133. q1, q2 = parameters[‘25%’][0], parameters[‘75%’][0]

  134. iqr = q2 — q1

  135. max_value = q2 + 3*iqr

  136. max_value #макс значениие. все что больше считаем выбросами

  137. ultra_data[[‘total_cost’]].boxplot(vert=False)

  138. Видим, что в тарифе Ultra практически никто не выходит за рамки тарифа, тогда как в тарифе Smart при стоимости 550р в месяц разброс относительно большой, а мат.ожидание равно 745 руб.

  139. Нормальные значения для тарифа smart от 550руб до 1550руб, прочие можем считать выбросами. Максимально допустимое значение у тарифа smart — 4550 руб.

  140. Для тарифа Ultra нормальное значение — цена тарифа, 1950р.

Data Science

В этом репозитории собраны мои проекты из курса «Специалист по Data Science» Яндекс.Практикума

This repository contains my projects from the «Data Science Specialist» training program by Yandex.Praktikum

Содержание: / Content:

  • Модуль 01 / Module 01
    • Предобработка данных / Data Processing — Project_01
    • Исследовательский анализ данных / Exploratory data analysis — Project_02
    • Статистический анализ данных / Statistical analysis of data — Project_03
    • Сборный проект / Common project — Project_04
  • Модуль 02 / Module 02
    • Введение в машинное обучение / Introduction to machine learning — Project_05
    • Обучение с учителем / Supervised learning — Project_06
    • Машинное обучение в бизнесе / Machine learning in business — Project_07
    • Сборный проект / Common project — Project_08
  • Модуль 03 / Module 03
    • Линейная алгебра / Linear algebra — Project_09
    • Численные методы (градиентный бустинг) / Numerical analysis (gradient boosting) — Project_10
    • Временные ряды / Time series — Project_11
    • Машинное обучение для текстов / Machine learning for texts — Project_12
  • Модуль 04 / Module 04
    • Извлечение данных / Data retrieval — Project_13
    • Компьютерное зрение / Computer vision — Project_14
    • Рекомендации и обучение без учителя / Unsupervised learning
  • Выпускной проект / Final projectProject_final

Project_01

Предобработка данных

Заказчик — кредитный отдел банка. Нужно разобраться, влияет ли семейное положение и количество детей клиента на факт погашения кредита в срок. Входные данные от банка — статистика о платёжеспособности клиентов.
Результаты исследования будут учтены при построении модели кредитного скоринга — специальной системы, которая оценивает способность потенциального заёмщика вернуть кредит банку.

Data Processing

The customer is the bank’s credit department. It is necessary to find out, whether family status and number of children of the client influence on the fact of loan repayment in due time. Input data from the bank — statistics on clients’ solvency.
The results of the research will be taken into account when building a credit scoring model — a special system that evaluates the ability of a potential borrower to repay a loan to the bank.

Project_02

Исследовательский анализ данных

В вашем распоряжении данные сервиса Яндекс.Недвижимость — архив объявлений о продаже квартир в Санкт-Петербурге и соседних населённых пунктов за несколько лет. Нужно научиться определять рыночную стоимость объектов недвижимости. Ваша задача — установить параметры. Это позволит построить автоматизированную систему: она отследит аномалии и мошенническую деятельность.

Exploratory data analysis

At your disposal is the data of the service Yandex. Apartments for sale in Saint-Petersburg and neighboring settlements for several years. You need to learn how to determine the market value of real estate. Your task is to set the parameters. This will build an automated system: it will track anomalies and fraudulent activity.

Project_03

Статистический анализ данных

Вы аналитик компании «Мегалайн» — федерального оператора сотовой связи. Клиентам предлагают два тарифных плана: «Смарт» и «Ультра». Чтобы скорректировать рекламный бюджет, коммерческий департамент хочет понять, какой тариф приносит больше денег.

Statistical analysis of data

You are an analyst of Megaline, a federal mobile operator. The clients are offered two tariff plans: «Smart» and «Ultra». To adjust the advertising budget, the commercial department wants to understand which tariff brings more money.

Project_04

Сборный проект

Вы работаете в интернет-магазине «Стримчик», который продаёт по всему миру компьютерные игры. Из открытых источников доступны исторические данные о продажах игр, оценки пользователей и экспертов, жанры и платформы (например, Xbox или PlayStation). Вам нужно выявить определяющие успешность игры закономерности. Это позволит сделать ставку на потенциально популярный продукт и спланировать рекламные кампании.

Common project

You work in the online store » Streamchik «, which sells around the world computer games. Historical data on game sales, user and expert evaluations, genres and platforms (e.g. Xbox or PlayStation) are available from open sources. You need to identify patterns that determine the success of the game. This will allow you to bet on a potentially popular product and plan advertising campaigns.

Project_05

Введение в машинное обучение

Оператор мобильной связи «Мегалайн» выяснил: многие клиенты пользуются архивными тарифами. Они хотят построить систему, способную проанализировать поведение клиентов и предложить пользователям новый тариф: «Смарт» или «Ультра».

Introduction to machine learning

Mobile operator «Megaline» found out: many customers use archive tariffs. They want to build a system that can analyze customer behavior and offer users a new tariff: «Smart» or «Ultra».

Project_06

Обучение с учителем

Из «Бета-Банка» стали уходить клиенты. Каждый месяц. Немного, но заметно. Банковские маркетологи посчитали: сохранять текущих клиентов дешевле, чем привлекать новых. Нужно спрогнозировать, уйдёт клиент из банка в ближайшее время или нет. Вам предоставлены исторические данные о поведении клиентов и расторжении договоров с банком.

Supervised learning

«Beta-Bank» started leaving clients. Every month. A little, but noticeable. Banking marketers thought: it is cheaper to save current customers than to attract new ones. It is necessary to predict whether the client will leave the bank in the near future or not. You are provided with historical data on the behavior of clients and the termination of contracts with the bank.

Project_07

Машинное обучение в бизнесе

Допустим, вы работаете в добывающей компании «ГлавРосГосНефть». Нужно решить, где бурить новую скважину. Вам предоставлены пробы нефти в трёх регионах: в каждом — 100 000 месторождений, где измерили качество нефти и объём её запасов. Постройте модель машинного обучения, которая поможет определить регион, где добыча принесёт наибольшую прибыль.

Machine learning in business

Suppose you work at GlavRosGosNeft production company. We need to decide where to drill the new well. You have been given samples of oil in three regions: in each region there are 100,000 oil fields where the quality of oil and the volume of its reserves were measured. Build a model of machine training that will help you determine the region where production will bring the most profit.

Project_08

Сборный проект

Подготовьте прототип модели машинного обучения для «Цифры». Компания разрабатывает решения для эффективной работы промышленных предприятий. Модель должна предсказать коэффициент восстановления золота из золотосодержащей руды. В вашем распоряжении данные с параметрами добычи и очистки. Модель поможет оптимизировать производство, чтобы не запускать предприятие с убыточными характеристиками

Common project

Prepare a prototype machine learning model for «Numbers». The company develops solutions for efficient operation of industrial enterprises. The model must predict the recovery rate of gold from gold ore. Data with mining and cleaning parameters are at your disposal. The model will help to optimize production so as not to run a plant with loss-making characteristics.

Project_09

Линейная алгебра

Вам нужно защитить данные клиентов страховой компании «Хоть потоп». Разработайте такой метод преобразования данных, чтобы по ним было сложно восстановить персональную информацию.

Linear algebra

You need to protect your customer data from «We’re not afraid of the flood» insurance company. Develop a method to convert data so that it is difficult to recover personal information.

Project_10

Численные методы

Сервис по продаже автомобилей с пробегом «Не бит, не крашен» разрабатывает приложение для привлечения новых клиентов. В нём можно быстро узнать рыночную стоимость своего автомобиля. В вашем распоряжении исторические данные: технические характеристики, комплектации и цены автомобилей. Вам нужно построить модель для определения стоимости.

Numerical analysis

Car sales service with mileage «Not broken, not painted» develops an application to attract new customers. In it you can quickly find out the market value of your car. Historical data: technical specifications, equipment and prices of cars are at your disposal. You need to build a model to determine the price.

Project_11

Временные ряды

Компания «Чётенькое такси» собрала исторические данные о заказах такси в аэропортах. Чтобы привлекать больше водителей в период пиковой нагрузки, нужно спрогнозировать количество заказов такси на следующий час. Постройте модель для такого предсказания.

Time series

«Cool Taxi» Company has collected historical data on taxi orders at airports. To attract more drivers during the peak load, you need to predict the number of taxi orders for the next hour. Build a model for such a prediction.

Project_12

Машинное обучение для текстов

Интернет-магазин «Викишоп» запускает новый сервис. Теперь пользователи могут редактировать и дополнять описания товаров, как в вики-сообществах. То есть клиенты предлагают свои правки и комментируют изменения других. Магазину нужен инструмент, который будет искать токсичные комментарии и отправлять их на модерацию.

Обучите модель классифицировать комментарии на позитивные и негативные. В вашем распоряжении набор данных с разметкой о токсичности правок.

Machine learning for texts

Online store «Wikishop» launches a new service. Now users can edit and supplement product descriptions, as on wikis. That is, customers offer their edits and comment on changes made by others. The store needs a tool that will search for toxic comments and send them to moderation.

Teach the model to categorize comments into positive and negative. At your disposal is a data set with markings on the toxicity of edits.

Project_13

Извлечение данных

Вы аналитик российской авиакомпании F9, выполняющей внутренние пассажирские перевозки. Важно понять предпочтения пользователей, покупающих билеты на разные направления. Вам предстоит изучить базу данных и проанализировать спрос пассажиров на рейсы в города, где проходят крупнейшие культурные фестивали.

Data retrieval

You are an analyst of the Russian airline F9, which performs domestic passenger transportation. It is important to understand the preferences of users who buy tickets to different destinations. You will have to study the database and analyze passenger demand for flights to cities where major cultural festivals are held.

Project_14

Компьютерное зрение

Сетевой супермаркет «Хлеб-Соль» внедряет систему компьютерного зрения для обработки фотографий покупателей. Фотофиксация в прикассовой зоне поможет определять возраст клиентов, чтобы:

  • Анализировать покупки и предлагать товары, которые могут заинтересовать покупателей этой возрастной группы;
  • Контролировать добросовестность кассиров при продаже алкоголя.

Computer vision

Network supermarket «Bread and salt» introduces a computer vision system for processing photos of customers. Photofixing in the checkout area will help determine the age of customers to:

  • Analyze purchases and offer products that may interest customers of this age group;
  • Monitor the integrity of cashiers when selling alcohol.

Project_final

Выпускной проект

Чтобы оптимизировать производственные расходы, металлургический комбинат ООО «Так закаляем сталь» решил уменьшить потребление электроэнергии на этапе обработки стали. Вам предстоит построить модель, которая предскажет температуру стали.

Final project

In order to optimize production costs, «That’s how we temper steel» metallurgical plant decided to reduce electricity consumption at the steel processing stage. You have to build a model that predicts the temperature of steel.

sxemixa / definition-of-tarrif
Goto Github
PK

View Code? Open in Web Editor
NEW

0.0
1.0
0.0
277 KB

Вы аналитик компании «Мегалайн» — федерального оператора сотовой связи. Клиентам предлагают два тарифных плана: Смарт и Ультра. Чтобы скорректировать рекламный бюджет, коммерческий департамент хочет понять, какой тариф приносит больше денег. Вам предстоит сделать предварительный анализ тарифов на небольшой выборке клиентов. В вашем распоряжении данные 500 пользователей «Мегалайна»: кто они, откуда, каким тарифом пользуются, сколько звонков и сообщений каждый отправил за 2018 год. Нужно проанализировать поведение клиентов и сделать вывод — какой тариф лучше. **Описание тарифов** **Тариф Смарт:** — Ежемесячная плата: 550 рублей — Включено 500 минут разговора, 50 сообщений и 15 Гб интернет-трафика — Стоимость услуг сверх тарифного пакета: — минута разговора: 3 рубля — сообщение: 3 рубля — 1 Гб интернет-трафика: 200 рублей **Тариф Ультра:** — Ежемесячная плата: 1950 рублей — Включено 3000 минут разговора, 1000 сообщений и 30 Гб интернет-трафика — Стоимость услуг сверх тарифного пакета: — минута разговора: 1 рубль — сообщение: 1 рубль — 1 Гб интернет-трафика: 150 рублей *Обратите внимание: «Мегалайн» всегда округляет секунды до минут, а мегабайты — до гигабайт. Каждый звонок округляется отдельно: даже если он длился всего 1 секунду, будет засчитан как 1 минута. Для веб-трафика отдельные сессии не считаются. Вместо этого общая сумма за месяц округляется в бо́льшую сторону. Если абонент использует 1025 мегабайт в этом месяце, с него возьмут плату за 2 гигабайта.* ### Описание данных **Таблица users (информация о пользователях):** — user_id — уникальный идентификатор пользователя — first_name — имя пользователя — last_name — фамилия пользователя — age — возраст пользователя (годы) — reg_date — дата подключения тарифа (день, месяц, год) — churn_date — дата прекращения пользования тарифом (если значение пропущено, то тариф ещё действовал на момент выгрузки данных) — city — город проживания пользователя — tariff — название тарифного плана **Таблица calls (информация о звонках):** — id — уникальный номер звонка — call_date — дата звонка — duration — длительность звонка в минутах — user_id — идентификатор пользователя, сделавшего звонок **Таблица messages (информация о сообщениях):** — id — уникальный номер сообщения — message_date — дата сообщения — user_id — идентификатор пользователя, отправившего сообщение **Таблица internet (информация об интернет-сессиях):** — id — уникальный номер сессии — mb_used — объём потраченного за сессию интернет-трафика (в мегабайтах) — session_date — дата интернет-сессии — user_id — идентификатор пользователя **Таблица tariffs (информация о тарифах):** — tariff_name — название тарифа — rub_monthly_fee — ежемесячная абонентская плата в рублях — minutes_included — количество минут разговора в месяц, включённых в абонентскую плату — messages_included — количество сообщений в месяц, включённых в абонентскую плату — mb_per_month_included — объём интернет-трафика, включённого в абонентскую плату (в мегабайтах) — rub_per_minute — стоимость минуты разговора сверх тарифного пакета (например, если в тарифе 100 минут разговора в месяц, то — со 101 минуты будет взиматься плата) — rub_per_message — стоимость отправки сообщения сверх тарифного пакета — rub_per_gb — стоимость дополнительного гигабайта интернет-трафика сверх тарифного пакета (1 гигабайт = 1024 мегабайта)

Jupyter Notebook 100.00%

definition-of-tarrif’s Introduction

Определение перспективного тарифа для телеком-компании

Описание проекта

Вы аналитик компании «Мегалайн» — федерального оператора сотовой связи. Клиентам предлагают два тарифных плана: Смарт и Ультра. Чтобы скорректировать рекламный бюджет, коммерческий департамент хочет понять, какой тариф приносит больше денег. Вам предстоит сделать предварительный анализ тарифов на небольшой выборке клиентов. В вашем распоряжении данные 500 пользователей «Мегалайна»: кто они, откуда, каким тарифом пользуются, сколько звонков и сообщений каждый отправил за 2018 год. Нужно проанализировать поведение клиентов и сделать вывод — какой тариф лучше.

Описание тарифов
Тариф Смарт:

  • Ежемесячная плата: 550 рублей
  • Включено 500 минут разговора, 50 сообщений и 15 Гб интернет-трафика
  • Стоимость услуг сверх тарифного пакета:
    • минута разговора: 3 рубля
    • сообщение: 3 рубля
    • 1 Гб интернет-трафика: 200 рублей

Тариф Ультра:

  • Ежемесячная плата: 1950 рублей
  • Включено 3000 минут разговора, 1000 сообщений и 30 Гб интернет-трафика
  • Стоимость услуг сверх тарифного пакета:
    • минута разговора: 1 рубль
    • сообщение: 1 рубль
    • 1 Гб интернет-трафика: 150 рублей

Обратите внимание: «Мегалайн» всегда округляет секунды до минут, а мегабайты — до гигабайт. Каждый звонок округляется отдельно: даже если он длился всего 1 секунду, будет засчитан как 1 минута.
Для веб-трафика отдельные сессии не считаются. Вместо этого общая сумма за месяц округляется в бо́льшую сторону. Если абонент использует 1025 мегабайт в этом месяце, с него возьмут плату за 2 гигабайта.

Описание данных

Таблица users (информация о пользователях):

  • user_id — уникальный идентификатор пользователя
  • first_name — имя пользователя
  • last_name — фамилия пользователя
  • age — возраст пользователя (годы)
  • reg_date — дата подключения тарифа (день, месяц, год)
  • churn_date — дата прекращения пользования тарифом (если значение пропущено, то тариф ещё действовал на момент выгрузки данных)
  • city — город проживания пользователя
  • tariff — название тарифного плана

Таблица calls (информация о звонках):

  • id — уникальный номер звонка
  • call_date — дата звонка
  • duration — длительность звонка в минутах
  • user_id — идентификатор пользователя, сделавшего звонок

Таблица messages (информация о сообщениях):

  • id — уникальный номер сообщения
  • message_date — дата сообщения
  • user_id — идентификатор пользователя, отправившего сообщение

Таблица internet (информация об интернет-сессиях):

  • id — уникальный номер сессии
  • mb_used — объём потраченного за сессию интернет-трафика (в мегабайтах)
  • session_date — дата интернет-сессии
  • user_id — идентификатор пользователя

Таблица tariffs (информация о тарифах):

  • tariff_name — название тарифа
  • rub_monthly_fee — ежемесячная абонентская плата в рублях
  • minutes_included — количество минут разговора в месяц, включённых в абонентскую плату
  • messages_included — количество сообщений в месяц, включённых в абонентскую плату
  • mb_per_month_included — объём интернет-трафика, включённого в абонентскую плату (в мегабайтах)
  • rub_per_minute — стоимость минуты разговора сверх тарифного пакета (например, если в тарифе 100 минут разговора в месяц, то — со 101 минуты будет взиматься плата)
  • rub_per_message — стоимость отправки сообщения сверх тарифного пакета
  • rub_per_gb — стоимость дополнительного гигабайта интернет-трафика сверх тарифного пакета (1 гигабайт = 1024 мегабайта)

definition-of-tarrif’s People

Contributors

sxemixa avatar

Watchers

 avatar

Recommend Projects

  • React photo

    React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo

    Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo

    Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo

    TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo

    Django

    The Web framework for perfectionists with deadlines.

  • Laravel photo

    Laravel

    A PHP framework for web artisans

  • D3 photo

    D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Visualization

    Some thing interesting about visualization, use data art

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo

    Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo

    Microsoft

    Open source projects and samples from Microsoft.

  • Google photo

    Google

    Google ❤️ Open Source for everyone.

  • Alibaba photo

    Alibaba

    Alibaba Open Source for everyone

  • D3 photo

    D3

    Data-Driven Documents codes.

  • Tencent photo

    Tencent

    China tencent open source team.

Data Science

В репозитории собраны проекты из курса «Специалист по Data Science» Яндекс.Практикума

This repository contains projects from the «Data Science Specialist» training program by Yandex.Praktikum

Содержание: / Content:

  • Модуль 01 / Module 01
    • Предобработка данных / Data Processing — Project_01
    • Исследовательский анализ данных / Exploratory data analysis — Project_02
    • Статистический анализ данных / Statistical analysis of data — Project_03
    • Сборный проект / Common project — Project_04
  • Модуль 02 / Module 02
    • Введение в машинное обучение / Introduction to machine learning — Project_05
    • Обучение с учителем / Supervised learning — Project_06
    • Машинное обучение в бизнесе / Machine learning in business — Project_07
    • Сборный проект / Common project — Project_08
  • Модуль 03 / Module 03
    • Линейная алгебра / Linear algebra — Project_09
    • Численные методы (градиентный бустинг) / Numerical analysis (gradient boosting) — Project_10
    • Временные ряды / Time series — Project_11
    • Машинное обучение для текстов / Machine learning for texts — Project_12
  • Модуль 04 / Module 04
    • Извлечение данных / Data retrieval — Project_13
    • Компьютерное зрение / Computer vision — Project_14
    • Рекомендации и обучение без учителя / Unsupervised learning
  • Выпускной проект / Final projectProject_final

Project_01

Предобработка данных

Заказчик — кредитный отдел банка. Нужно разобраться, влияет ли семейное положение и количество детей клиента на факт погашения кредита в срок. Входные данные от банка — статистика о платёжеспособности клиентов.
Результаты исследования будут учтены при построении модели кредитного скоринга — специальной системы, которая оценивает способность потенциального заёмщика вернуть кредит банку.

Data Processing

The customer is the bank’s credit department. It is necessary to find out, whether family status and number of children of the client influence on the fact of loan repayment in due time. Input data from the bank — statistics on clients’ solvency.
The results of the research will be taken into account when building a credit scoring model — a special system that evaluates the ability of a potential borrower to repay a loan to the bank.

Project_02

Исследовательский анализ данных

В вашем распоряжении данные сервиса Яндекс.Недвижимость — архив объявлений о продаже квартир в Санкт-Петербурге и соседних населённых пунктов за несколько лет. Нужно научиться определять рыночную стоимость объектов недвижимости. Ваша задача — установить параметры. Это позволит построить автоматизированную систему: она отследит аномалии и мошенническую деятельность.

Exploratory data analysis

At your disposal is the data of the service Yandex.Nedvijimost for sale in Saint-Petersburg and neighboring settlements for several years. You need to learn how to determine the market value of real estate. Your task is to set the parameters. This will build an automated system: it will track anomalies and fraudulent activity.

Project_03

Статистический анализ данных

Вы аналитик компании «Мегалайн» — федерального оператора сотовой связи. Клиентам предлагают два тарифных плана: «Смарт» и «Ультра». Чтобы скорректировать рекламный бюджет, коммерческий департамент хочет понять, какой тариф приносит больше денег.

Statistical analysis of data

You are an analyst of «Megaline», a federal mobile operator. The clients are offered two tariff plans: «Smart» and «Ultra». To adjust the advertising budget, the commercial department wants to understand which tariff brings more money.

Project_04

Сборный проект

Вы работаете в интернет-магазине «Стримчик», который продаёт по всему миру компьютерные игры. Из открытых источников доступны исторические данные о продажах игр, оценки пользователей и экспертов, жанры и платформы (например, Xbox или PlayStation). Вам нужно выявить определяющие успешность игры закономерности. Это позволит сделать ставку на потенциально популярный продукт и спланировать рекламные кампании.

Common project

You work in the online store «Streamchik», which sells around the world computer games. Historical data on game sales, user and expert evaluations, genres and platforms (e.g. Xbox or PlayStation) are available from open sources. You need to identify patterns that determine the success of the game. This will allow you to bet on a potentially popular product and plan advertising campaigns.

Project_05

Введение в машинное обучение

Оператор мобильной связи «Мегалайн» выяснил: многие клиенты пользуются архивными тарифами. Они хотят построить систему, способную проанализировать поведение клиентов и предложить пользователям новый тариф: «Смарт» или «Ультра».

Introduction to machine learning

Mobile operator «Megaline» found out: many customers use archive tariffs. They want to build a system that can analyze customer behavior and offer users a new tariff: «Smart» or «Ultra».

Project_06

Обучение с учителем

Из «Бета-Банка» стали уходить клиенты. Каждый месяц. Немного, но заметно. Банковские маркетологи посчитали: сохранять текущих клиентов дешевле, чем привлекать новых. Нужно спрогнозировать, уйдёт клиент из банка в ближайшее время или нет. Вам предоставлены исторические данные о поведении клиентов и расторжении договоров с банком.

Supervised learning

«Beta-Bank» started leaving clients. Every month. A little, but noticeable. Banking marketers thought: it is cheaper to save current customers than to attract new ones. It is necessary to predict whether the client will leave the bank in the near future or not. You are provided with historical data on the behavior of clients and the termination of contracts with the bank.

Project_07

Машинное обучение в бизнесе

Допустим, вы работаете в добывающей компании «ГлавРосГосНефть». Нужно решить, где бурить новую скважину. Вам предоставлены пробы нефти в трёх регионах: в каждом — 100 000 месторождений, где измерили качество нефти и объём её запасов. Постройте модель машинного обучения, которая поможет определить регион, где добыча принесёт наибольшую прибыль.

Machine learning in business

Suppose you work at «GlavRosGosNeft» production company. We need to decide where to drill the new well. You have been given samples of oil in three regions: in each region there are 100,000 oil fields where the quality of oil and the volume of its reserves were measured. Build a model of machine training that will help you determine the region where production will bring the most profit.

Project_08

Сборный проект

Подготовьте прототип модели машинного обучения для «Цифры». Компания разрабатывает решения для эффективной работы промышленных предприятий. Модель должна предсказать коэффициент восстановления золота из золотосодержащей руды. В вашем распоряжении данные с параметрами добычи и очистки. Модель поможет оптимизировать производство, чтобы не запускать предприятие с убыточными характеристиками

Common project

Prepare a prototype machine learning model for «Tsifri». The company develops solutions for efficient operation of industrial enterprises. The model must predict the recovery rate of gold from gold ore. Data with mining and cleaning parameters are at your disposal. The model will help to optimize production so as not to run a plant with loss-making characteristics.

Project_09

Линейная алгебра

Вам нужно защитить данные клиентов страховой компании «Хоть потоп». Разработайте такой метод преобразования данных, чтобы по ним было сложно восстановить персональную информацию.

Linear algebra

You need to protect your customer data from «Hot potop» insurance company. Develop a method to convert data so that it is difficult to recover personal information.

Project_10

Численные методы

Сервис по продаже автомобилей с пробегом «Не бит, не крашен» разрабатывает приложение для привлечения новых клиентов. В нём можно быстро узнать рыночную стоимость своего автомобиля. В вашем распоряжении исторические данные: технические характеристики, комплектации и цены автомобилей. Вам нужно построить модель для определения стоимости.

Numerical analysis

Car sales service with mileage «Ne bit, ne krashen» develops an application to attract new customers. In it you can quickly find out the market value of your car. Historical data: technical specifications, equipment and prices of cars are at your disposal. You need to build a model to determine the price.

Project_11

Временные ряды

Компания «Чётенькое такси» собрала исторические данные о заказах такси в аэропортах. Чтобы привлекать больше водителей в период пиковой нагрузки, нужно спрогнозировать количество заказов такси на следующий час. Постройте модель для такого предсказания.

Time series

«Chetenkoye Taxi» Company has collected historical data on taxi orders at airports. To attract more drivers during the peak load, you need to predict the number of taxi orders for the next hour. Build a model for such a prediction.

Project_12

Машинное обучение для текстов

Интернет-магазин «Викишоп» запускает новый сервис. Теперь пользователи могут редактировать и дополнять описания товаров, как в вики-сообществах. То есть клиенты предлагают свои правки и комментируют изменения других. Магазину нужен инструмент, который будет искать токсичные комментарии и отправлять их на модерацию.

Обучите модель классифицировать комментарии на позитивные и негативные. В вашем распоряжении набор данных с разметкой о токсичности правок.

Machine learning for texts

Online store «Wikishop» launches a new service. Now users can edit and supplement product descriptions, as on wikis. That is, customers offer their edits and comment on changes made by others. The store needs a tool that will search for toxic comments and send them to moderation.

Teach the model to categorize comments into positive and negative. At your disposal is a data set with markings on the toxicity of edits.

Project_13

Извлечение данных

Вы аналитик российской авиакомпании F9, выполняющей внутренние пассажирские перевозки. Важно понять предпочтения пользователей, покупающих билеты на разные направления. Вам предстоит изучить базу данных и проанализировать спрос пассажиров на рейсы в города, где проходят крупнейшие культурные фестивали.

Data retrieval

You are an analyst of the Russian airline F9, which performs domestic passenger transportation. It is important to understand the preferences of users who buy tickets to different destinations. You will have to study the database and analyze passenger demand for flights to cities where major cultural festivals are held.

Project_14

Компьютерное зрение

Сетевой супермаркет «Хлеб-Соль» внедряет систему компьютерного зрения для обработки фотографий покупателей. Фотофиксация в прикассовой зоне поможет определять возраст клиентов, чтобы:

  • Анализировать покупки и предлагать товары, которые могут заинтересовать покупателей этой возрастной группы;
  • Контролировать добросовестность кассиров при продаже алкоголя.

Computer vision

Network supermarket «Hleb-Sol» introduces a computer vision system for processing photos of customers. Photofixing in the checkout area will help determine the age of customers to:

  • Analyze purchases and offer products that may interest customers of this age group;
  • Monitor the integrity of cashiers when selling alcohol.

Project_final

Выпускной проект

Оператор связи «Ниединогоразрыва.ком» хочет научиться прогнозировать отток клиентов. Если выяснится, что пользователь планирует уйти, ему будут предложены промокоды и специальные условия. Команда оператора собрала персональные данные о некоторых клиентах, информацию об их тарифах и договорах.

Final project

The operator of communication «Niedinogorazryva.com» wants to learn how to predict the outflow of customers. If it turns out that the user is planning to leave, he will be offered promo codes and special conditions. The operator’s team collected personal data about some customers, information about their tariffs and contracts.

Предложите, как улучшить StudyLib

(Для жалоб на нарушения авторских прав, используйте

другую форму
)

Ваш е-мэйл

Заполните, если хотите получить ответ

Оцените наш проект

1

2

3

4

5

Suzanne-Samoilova / how-to-learn Goto Github PK

The first educational project from Yandex.Practicum.

HTML 50.95% CSS 49.05%

how-to-learn’s Introduction

How to learn яндекс практикум git

Данный проект является учебным проектом на курсе «Веб-разработчик» от Яндекс Практикум. В нем описываются разные техники обучения, методы и подходы к изучению и усвоению новой информации.

Это одностраничный сайт, для создания которого используется HTML и CSS. Для создания гибких макетов используется технология CSS Flexbox. Файловая структура организованна по методолгии БЭМ Nested. Для установки этого сайта скопируйте файлы из корневой папки в свою, для элементов на странице используются относительные пути.

Планы по доработке проекта:

Автором является Яндекс Практикум, работу выполнил ученик Сюзанна Самойлова.

how-to-learn’s People

Contributors

Watchers

Recommend Projects

A declarative, efficient, and flexible JavaScript library for building user interfaces.

Vue.js

🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

TensorFlow

An Open Source Machine Learning Framework for Everyone

Django

The Web framework for perfectionists with deadlines.

A PHP framework for web artisans

Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

javascript

JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

Some thing interesting about web. New door for the world.

server

A server is a program made to process requests and deliver data to clients.

Machine learning

Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

Visualization

Some thing interesting about visualization, use data art

Some thing interesting about game, make everyone happy.

Recommend Org

Facebook

We are working to build community through open source technology. NB: members must have two-factor auth.

Microsoft

Open source projects and samples from Microsoft.

GPolovnev/Yandex_Praktikum

Use Git or checkout with SVN using the web URL.

Work fast with our official CLI. Learn more.

Launching GitHub Desktop

If nothing happens, download GitHub Desktop and try again.

Launching GitHub Desktop

If nothing happens, download GitHub Desktop and try again.

Launching Xcode

If nothing happens, download Xcode and try again.

Launching Visual Studio Code

Your codespace will open once ready.

There was a problem preparing your codespace, please try again.

Latest commit

Git stats

Files

Failed to load latest commit information.

README.md

В этом репозитории собраны мои проекты из курса «Специалист по Data Science» Яндекс.Практикума

This repository contains my projects from the «Data Science Specialist» training program by Yandex.Praktikum

Модуль 01 / Module 01

Модуль 02 / Module 02

Модуль 03 / Module 03

Модуль 04 / Module 04

Заказчик — кредитный отдел банка. Нужно разобраться, влияет ли семейное положение и количество детей клиента на факт погашения кредита в срок. Входные данные от банка — статистика о платёжеспособности клиентов. Результаты исследования будут учтены при построении модели кредитного скоринга — специальной системы, которая оценивает способность потенциального заёмщика вернуть кредит банку.

Исследовательский анализ данных

В вашем распоряжении данные сервиса Яндекс.Недвижимость — архив объявлений о продаже квартир в Санкт-Петербурге и соседних населённых пунктов за несколько лет. Нужно научиться определять рыночную стоимость объектов недвижимости. Ваша задача — установить параметры. Это позволит построить автоматизированную систему: она отследит аномалии и мошенническую деятельность.

Exploratory data analysis

At your disposal is the data of the service Yandex. Apartments for sale in Saint-Petersburg and neighboring settlements for several years. You need to learn how to determine the market value of real estate. Your task is to set the parameters. This will build an automated system: it will track anomalies and fraudulent activity.

Статистический анализ данных

Вы аналитик компании «Мегалайн» — федерального оператора сотовой связи. Клиентам предлагают два тарифных плана: «Смарт» и «Ультра». Чтобы скорректировать рекламный бюджет, коммерческий департамент хочет понять, какой тариф приносит больше денег.

Statistical analysis of data

You are an analyst of Megaline, a federal mobile operator. The clients are offered two tariff plans: «Smart» and «Ultra». To adjust the advertising budget, the commercial department wants to understand which tariff brings more money.

Вы работаете в интернет-магазине «Стримчик», который продаёт по всему миру компьютерные игры. Из открытых источников доступны исторические данные о продажах игр, оценки пользователей и экспертов, жанры и платформы (например, Xbox или PlayStation). Вам нужно выявить определяющие успешность игры закономерности. Это позволит сделать ставку на потенциально популярный продукт и спланировать рекламные кампании.

You work in the online store » Streamchik «, which sells around the world computer games. Historical data on game sales, user and expert evaluations, genres and platforms (e.g. Xbox or PlayStation) are available from open sources. You need to identify patterns that determine the success of the game. This will allow you to bet on a potentially popular product and plan advertising campaigns.

Введение в машинное обучение

Оператор мобильной связи «Мегалайн» выяснил: многие клиенты пользуются архивными тарифами. Они хотят построить систему, способную проанализировать поведение клиентов и предложить пользователям новый тариф: «Смарт» или «Ультра».

Introduction to machine learning

Mobile operator «Megaline» found out: many customers use archive tariffs. They want to build a system that can analyze customer behavior and offer users a new tariff: «Smart» or «Ultra».

Обучение с учителем

Из «Бета-Банка» стали уходить клиенты. Каждый месяц. Немного, но заметно. Банковские маркетологи посчитали: сохранять текущих клиентов дешевле, чем привлекать новых. Нужно спрогнозировать, уйдёт клиент из банка в ближайшее время или нет. Вам предоставлены исторические данные о поведении клиентов и расторжении договоров с банком.

«Beta-Bank» started leaving clients. Every month. A little, but noticeable. Banking marketers thought: it is cheaper to save current customers than to attract new ones. It is necessary to predict whether the client will leave the bank in the near future or not. You are provided with historical data on the behavior of clients and the termination of contracts

Машинное обучение в бизнесе

Допустим, вы работаете в добывающей компании «ГлавРосГосНефть». Нужно решить, где бурить новую скважину. Вам предоставлены пробы нефти в трёх регионах: в каждом — 100 000 месторождений, где измерили качество нефти и объём её запасов. Постройте модель машинного обучения, которая поможет определить регион, где добыча принесёт наибольшую прибыль.

Machine learning in business

Suppose you work at GlavRosGosNeft production company. We need to decide where to drill the new well. You have been given samples of oil in three regions: in each region there are 100,000 oil fields where the quality of oil and the volume of its reserves were measured. Build a model of machine training that will help you determine the region where production will bring the most profit.

Подготовьте прототип модели машинного обучения для «Цифры». Компания разрабатывает решения для эффективной работы промышленных предприятий. Модель должна предсказать коэффициент восстановления золота из золотосодержащей руды. В вашем распоряжении данные с параметрами добычи и очистки. Модель поможет оптимизировать производство, чтобы не запускать предприятие с убыточными характеристиками

Prepare a prototype machine learning model for «Numbers». The company develops solutions for efficient operation of industrial enterprises. The model must predict the recovery rate of gold from gold ore. Data with mining and cleaning parameters are at your disposal. The model will help to optimize production so as not to run a plant with loss-making characteristics.

Линейная алгебра Вам нужно защитить данные клиентов страховой компании «Хоть потоп». Разработайте такой метод преобразования данных, чтобы по ним было сложно восстановить персональную информацию.

You need to protect your customer data from «We’re not afraid of the flood» insurance company. Develop a method to convert data so that it is difficult to recover personal information.

Сервис по продаже автомобилей с пробегом «Не бит, не крашен» разрабатывает приложение для привлечения новых клиентов. В нём можно быстро узнать рыночную стоимость своего автомобиля. В вашем распоряжении исторические данные: технические характеристики, комплектации и цены автомобилей. Вам нужно построить модель для определения стоимости.

Car sales service with mileage «Not broken, not painted» develops an application to attract new customers. In it you can quickly find out the market value of your car. Historical data: technical specifications, equipment and prices of cars are at your disposal. You need to build a model to determine the price.

Компания «Чётенькое такси» собрала исторические данные о заказах такси в аэропортах. Чтобы привлекать больше водителей в период пиковой нагрузки, нужно спрогнозировать количество заказов такси на следующий час. Постройте модель для такого предсказания.

«Cool Taxi» Company has collected historical data on taxi orders at airports. To attract more drivers during the peak load, you need to predict the number of taxi orders for the next hour. Build a model for such a prediction.

Машинное обучение для текстов

Интернет-магазин «Викишоп» запускает новый сервис. Теперь пользователи могут редактировать и дополнять описания товаров, как в вики-сообществах. То есть клиенты предлагают свои правки и комментируют изменения других. Магазину нужен инструмент, который будет искать токсичные комментарии и отправлять их на модерацию.

Обучите модель классифицировать комментарии на позитивные и негативные. В вашем распоряжении набор данных с разметкой о токсичности правок.

Machine learning for texts

Online store «Wikishop» launches a new service. Now users can edit and supplement product descriptions, as on wikis. That is, customers offer their edits and comment on changes made by others. The store needs a tool that will search for toxic comments and send them to moderation.

Teach the model to categorize comments into positive and negative. At your disposal is a data set with markings on the toxicity of edits.

Вы аналитик российской авиакомпании F9, выполняющей внутренние пассажирские перевозки. Важно понять предпочтения пользователей, покупающих билеты на разные направления. Вам предстоит изучить базу данных и проанализировать спрос пассажиров на рейсы в города, где проходят крупнейшие культурные фестивали.

You are an analyst of the Russian airline F9, which performs domestic passenger transportation. It is important to understand the preferences of users who buy tickets to different destinations. You will have to study the database and analyze passenger demand for flights to cities where major cultural festivals are held.

Сетевой супермаркет «Хлеб-Соль» внедряет систему компьютерного зрения для обработки фотографий покупателей. Фотофиксация в прикассовой зоне поможет определять возраст клиентов, чтобы:

Анализировать покупки и предлагать товары, которые могут заинтересовать покупателей этой возрастной группы; Контролировать добросовестность кассиров при продаже алкоголя.

Network supermarket «Bread and salt» introduces a computer vision system for processing photos of customers. Photofixing in the checkout area will help determine the age of customers to:

Analyze purchases and offer products that may interest customers of this age group; Monitor the integrity of cashiers when selling alcohol.

Чтобы оптимизировать производственные расходы, металлургический комбинат ООО «Так закаляем сталь» решил уменьшить потребление электроэнергии на этапе обработки стали. Вам предстоит построить модель, которая предскажет температуру стали.

In order to optimize production costs, «That’s how we temper steel» metallurgical plant decided to reduce electricity consumption at the steel processing stage. You have to build a model that predicts the temperature of steel.

Источники информации:

  • http://github.com/GPolovnev/Yandex_Praktikum

Понравилась статья? Поделить с друзьями:
  • Вы сотрудник компании экстра в офисе работают около 30 сотрудников
  • Вы финансовый директор компании какой метод вы будете использовать
  • Выберите реквизиты располагающиеся в заголовочной части документов
  • Выборгский гарнизонный военный суд реквизиты для оплаты госпошлины
  • Выделите три основные причины почему необходимо планировать бизнес