Аналитик данных — Яндекс.Практикум
Аналитик данных — Яндекс.Практикум
Как выглядит программа:
Аналитик данных — программа
Проекты, выполненные в рамках обучения на курсе в хронологическом порядке:
Проект | Задачи проекта | Описание проекта | Навыки и инструменты |
---|---|---|---|
1 Исследование музыки больших городов | На реальных данных Яндекс.Музыки c помощью библиотеки Pandas и её возможностей проверить данные и сравнить поведение и предпочтения пользователей двух столиц — Москвы и Санкт-Петербурга | Сравнение Москвы и Петербурга окружено мифами: — Москва — мегаполис, подчинённый жёсткому ритму рабочей недели; — Петербург — город своеобразной культуры, непохожий на Москву. Некоторые мифы отражают действительность. Другие — пустые стереотипы. Бизнес должен отличать первые от вторых, чтобы принимать рациональные решения. На реальных данных Яндекс.Музыки я проверила данные и сравнила поведение пользователей двух столиц | Pandas, Python. Обработка данных, дубликаты, пропуски, логическая индексация, группировка, сортировка |
2 Исследование надежности заемщиков | На основе статистики о платёжеспособности клиентов исследовать влияет ли семейное положение и количество детей клиента на факт возврата кредита в срок | На основе данных кредитного отдела банка исследовала влияние семейного положения и количества детей на факт погашения кредита в срок. Была получена информация о данных. Определены и обработаны пропуски. Заменены типы данных на соответствующие хранящимся данным. Удалены дубликаты. Категоризованы данные. Один датафрейм декомпозирован на три. | Pandas, Python, предобработка данных. Обработка данных, дубликаты, пропуски, категоризация, декомпозиция |
3 Исследование объявлений о продаже квартир | Используя данные сервиса Яндекс.Недвижимость, определить рыночную стоимость объектов недвижимости и типичные параметры квартир | На основе данных сервиса Яндекс.Недвижимость определена рыночная стоимость объектов недвижимости разного типа, типичные параметры квартир, в зависимости от удаленности от центра. Проведена предобработка данных. Добавлены новые данные. Построены гистограммы, боксплоты, диаграммы рассеивания. | Matplotlib, Pandas, Python, визуализация данных, исследовательский анализ данных, предобработка данных. Обработка данных, histogram, boxplot, scattermatrix, категоризация, scatterplot, фрод-мониторинг |
4 Определение перспективного тарифа для телеком-компании | На основе данных клиентов оператора сотовой связи проанализировать поведение клиентов и поиск оптимального тарифа | Проведен предварительный анализ использования тарифов на выборке клиентов, проанализировано поведение клиентов при использовании услуг оператора и рекомендованы оптимальные наборы услуг для пользователей. Проведена предобработка данных, их анализ. Проверены гипотезы о различии выручки абонентов разных тарифов и различии выручки абонентов из Москвы и других регионов. | Matplotlib, NumPy, Pandas, Python, SciPy, описательная статистика, проверка статистических гипотез. Обработка данных, histogram, boxplot, статистический тест, критерий Стьюдента |
5 Сборный проект 1. Анализ игровой индустрии | Используя исторические данные о продажах компьютерных игр, оценки пользователей и экспертов, жанры и платформы, выявить закономерности, определяющие успешность игры | Выявлены параметры, определяющие успешность игры в разных регионах мира. На основании этого подготовлен отчет для магазина компьютерных игр для планирования рекламных кампаний. Проведена предобработка данных, анализ. Выбран актуальный период для анализа. Составлены портреты пользователей каждого региона. Проверены гипотезы: средние пользовательские рейтинги платформ Xbox One и PC одинаковые; средние пользовательские рейтинги жанров Action и Sports разные. При анализе использовал критерий Стьюдента для независимых выборок. | Matplotlib, NumPy, Pandas, Python, исследовательский анализ данных, описательная статистика, предобработка данных, проверка статистических гипотез. Обработка данных, histogram, boxplot, статистический тест, критерий Стьюдента, piechart |
6 Исследование данных об инвестиции венчурных фондов в компании-стартапы | Произвести различные выгрузки данных авиакомпаний с помощью SQL | Проект автоматически проверяется в тренажёре SQL. В самостоятельном проекте этого курса работа идёт с базой данных, которая хранит информацию о венчурных фондах и инвестициях в компании-стартапы. Эта база данных основана на датасете Startup Investments, опубликованном на популярной платформе для соревнований по исследованию данных Kaggle | PostgreSQL, SQL. Обработка данных, выгрузка данных, SQL |
7 Анализ бизнес-показателей приложения ProcrastinatePRO+ | Задача для маркетингового аналитика развлекательного приложения Procrastinate Pro+. Несмотря на огромные вложения в рекламу, последние несколько месяцев компания терпит убытки. Ваша задача — разобраться в причинах и помочь компании выйти в плюс. | Проведен анализ данных от ProcrastinatePRO+. Рассчитаны различные метрики, использован когортный анализ: LTV, CAC, Retention rate, DAU, WAU, MAU и т.д. Использованы уже написанные ранее функции расчёта метрик. Сделаны правильные выводы по полученным данным | Matplotlib, Pandas, Python, Seaborn, когортный анализ, продуктовые метрики, юнит-экономика. Обработка данных, статистический тест, LTV, CAC, когортный анализ |
8 Проверка гипотез по увеличению выручки в интернет-магазине —оценить результаты A/B теста | Используя данные интернет-магазина приоритезировать гипотезы, произвести оценку результатов A/B-тестирования различными методами | Проведена приоритизация гипотез по фреймворкам ICE и RICE. Затем провел анализ результатов A/B-теста, построил графики кумулятивной выручки, среднего чека, конверсии по группам, а затем посчитал статистическую значимость различий конверсий и средних чеков по сырым и очищенным данным. На основании анализа мной было принято решение о нецелесообразности дальнейшего проведения теста | A/B-тестирование, Matplotlib, Pandas, Python, SciPy, проверка статистических гипотез. A/B-тест, статистический тест, фреймворк, RICE, ICE |
9 Исследования рынка общепита в Москве для принятия решения об открытии нового заведения / Презентация | Исследование рынка общественного питания на основе открытых данных, подготовка презентации для инвесторов | Мною был исследован вопрос — будет ли успешным и популярным на долгое время кафе, в котором гостей обслуживают роботы-официанты. По результатам анализа подготовлена презентация для инвесторов с рекомендациями. В построении графиков я использовала библиотеки seaborn и plotly | Pandas, Plotly, Python, Seaborn, визуализация данных. Обработка данных, визуализация данных, создание презентаций |
10 Сборный проект 2. Анализ пользовательского поведения в мобильном приложении — воронки | На основе данных использования мобильного приложения для продажи продуктов питания проанализировать воронку продаж, а также оценить результаты A/A/B-тестирования | В данном проекте мной были изучены принципы событийной аналитики. Я построила воронку продаж, исследовал путь пользователей до покупки. Проанализировала результаты A/B-теста введения новых шрифтов. Сравнила 2 контрольных группы между собой, убедилась в правильном разделении трафика, а затем сравнила с тестовой группой. Выявлено, что новый шрифт значительно не повлияет на поведение пользователей | A/B-тестирование, Matplotlib, Pandas, Plotly, Python, Seaborn, визуализация данных, проверка статистических гипотез, продуктовые метрики, событийная аналитика. A/А/B-тест, визуализация, статистический тест |
11 Дашборд по пользовательским событиям для Яндекс.Дзена | Используя данные Яндекс.Дзена построить дашборд с метриками взаимодействия пользователей с карточками статей | Работу над этим проектом я провела на удаленной машине в сервисе Yandex.Cloud. Мной был установлен PostgreSQL, развернута база данных. Затем я написала скрипт пайплайна, который позволил собирать данные за определенный временной период, и настроила его автономную работу через crontab. Для визуализации собранных данных я написала скрипт дашборда с несколькими фильтрами и также запустила его на удаленной машине. По результатам была подготовлена презентация с полученными графиками | Python, SQLAlchemy, PostgreSQL, dash, Tableau, продуктовые метрики, построение дашбордов. Дашборд, пайплайн, Yandex.Cloud, удаленный сервер, виртуальная машина, cron |
12 Прогнозирование вероятности оттока пользователей для фитнес-центров | На основе данных о посетителях сети фитнес-центров спрогнозировать вероятность оттока для каждого клиента в следующем месяце, сформировать с помощью кластеризации портреты пользователей | В данном проекте использовано машинное обучение. Спрогнозирована вероятность оттока (на уровне следующего месяца) для каждого клиента; сформированы типичные портреты пользователей: выделены наиболее яркие группы, охарактеризованы их основные свойства; проанализированы основные признаки, наиболее сильно влияющие на отток. | Python, Pandas, Scikit-learn, Matplotlib, Seaborn, машинное обучение, классификация, кластеризация. KMeans, Machine Learning, дендрограмма, RandomForestClassifier, LogisticRegression |
13 Выпускной проект: Исследование, Презентация | Провести анализ ассортимента интернет-магазина товаров для дома и быта «Пока все ещё тут» на основе транзакций для отдела закупки и сформулировать рекомендации. | В данном проекте проведен исследовательский анализ данных EDA, проведена категоризация данных, использовано машинное обучение. Товары разделены на кластеры: охарактеризованы их основные свойства, проанализированы основные признаки, наиболее сильно влияющие на показатель выручки. Сформулированы и проверены статистические гипотезы. Даны рекомендации для повышения эффективности работы магазина | Python, Pandas, Scikit-learn, Matplotlib, Seaborn, машинное обучение, классификация, кластеризация, KMeans, Machine Learning, дендрограмма, RandomForestClassifier, LogisticRegression, Tableau, визуализация |
14 Выпускной проект:SQL | Проанализировать базу данных книжного сервиса (при помощи SQL-запросов) и выявить ключевые характеристики и данные, которые помогут сервису для чтения книг сформулировать ценностное предложение для нового продукта. | В ходе выполнения проекта произведена коннекция к базе данных, осмотр содержимого таблиц, написание 5 SQL-запросов. Сформулирован общий вывод по результатам запросов. | Python, Pandas, SQL, SQLAlchemy |
15 Выпускной проект: A/B тест | На основе данных о проанализировать воронку продаж, а также оценить корректность и результаты A/B-тестирования. | В рамках проекта удалось: оценить корректность проведения теста, проанализировать результаты теста. Чтобы оценить корректность проведения теста, проверено: пересечение тестовой аудитории с конкурирующим тестом, выполнение условий Технического задания, совпадение теста и маркетинговых событий, другие проблемы временных границ теста. | A/B-тестирование, Matplotlib, Pandas, NumPy, Plotly, Python, Seaborn, визуализация данных, проверка статистических гипотез, продуктовые метрики, событийная аналитика. |
-
- GitLab: the DevOps platform
- Explore GitLab
- Install GitLab
- How GitLab compares
- Get started
- GitLab docs
- GitLab Learn
- Pricing
- Talk to an expert
-
/
-
Help
- Help
- Support
-
Community forum
- Submit feedback
- Contribute to GitLab
- Switch to GitLab Next
-
Projects
Groups
Topics
Snippets -
Register - Sign in
Проекты Яндекс.Практикум
Project ID: 37125043
Star
0
Учебные проекты, созданные за время обучения на программе Аналитика данных.
Find file
Download source code
tar.gz
tar.bz2
tar
Clone
-
Clone with SSH
-
Clone with HTTPS
-
Open in your IDE
Visual Studio Code (SSH)Visual Studio Code (HTTPS)IntelliJ IDEA (SSH)IntelliJ IDEA (HTTPS)
- Copy SSH clone URLgit@gitlab.com:zhexter/yandex-praktikum-projects.git
- Copy HTTPS clone URLhttps://gitlab.com/zhexter/yandex-praktikum-projects.git
- README
Яндекс практикум, отзыв мазохиста. Курс Аналитик данных
Время на прочтение
15 мин
Количество просмотров 36K
Прелюдия.
Для справки, мазохизм — получение удовольствия человеком от унижений, мучений или насилия над собой, производимых самим собой или другим лицом.
В 2021 году имел «удовольствие» попасть на курсы от Яндекс Практикума, по гос программе от Цифровых Профессий. Теперь спустя почти год, спешу поделиться общими впечатлениями от прохождения данного курса. Не могу сказать, что курс совершенно бесполезный, но в целом, иначе, как постоянные мучением над самим собой данный курс охарактеризовать не могу. Хочу отметить, что к приверженцам мазохизма я себя не отношу, но закрадываются подобные подозрения в отношении тех, кто пишет восторженные отзывы о курсах от Яндекса. Впрочем, люди разные и о вкусах, как известно, не спорят, а вот о преимуществах и недостатках пройденного курса, я готов рассказать.
Все, что начинается хорошо заканчивается плохо, все что начинается плохо, заканчивается еще хуже. Закон Мерфи.
Рассказ достаточно подробный, если вы хотите сразу перейти к сути, можно просто прокрутить вниз, там будут мои выводы.
Знакомство.
Первое знакомство с курсами было достаточно радужным, о курсах именно от Яндекса, и именно по работе с данными, я узнал от хорошего знакомого по работе еще в 2020 году. Мы вместе работали в оптовых продажах в одной строительной сфере, знаем друг друга по работе больше десяти лет и, как это часто бывает у «продажников» в неформальной беседе за «сигаретной палкой» мы периодически делились всевозможными новостями и сплетнями. В очередной раз заведя разговор о кардинальной смене направления деятельности мы оба заговорили об IT и именно тогда, мой товарищ рассказал мне о больших данных, о том, что специалистов в этом направлении не хватает и, что это направление будет активно развиваться в ближайшее время т. к. объемы данных постоянно растут и постоянно будут нужны люди для обработки этих самых данных, не говоря уже о тех, кто может на более глубоком уровне работать с БД. В целом IT направление мне было всегда интересно, правда в тот момент я был зациклен на разработке игр и не особо смотрел на новые направления, но идея с анализом данных меня зацепила: логика проста, по сути это направление на стыке программирования и статистики. т. е. требуется не только писать код но и строить графики, делать выводы, искать закономерности и просто общаться с коллегами в конце концов, а так как люди в продажах, это мягко говоря совсем не «молчуны», возможность живого общения, а не только программирования меня сильно зацепила и как-то мысли сами-собой потекли в этом направлении: ролики на ютубе, пара статей и в целом общая моральная готовность пойти на курсы. Главное, что сильно смущало — цена курсов и необходимость платить за пол года. Двумя годами ранее я уже искал курсы по JavaScrip и тогда взял минималку от HtmlAcademy за 20000р исходя исключительно из тех соображений, что если не понравится то и не жалко. Не понравилось.
Эйфория от знакомства и первое свидание.
Поиск курсов по анализу данных начался с роликов по Python, установил платформу, начал решать задачки, чуть позже начал бесплатный ознакомительный курс от Яндекса, и как раз в этот самый момент на почтовый ящик прилетает письмо с гос услуг о том, что можно взять любой курс по обучению в IT сфере со скидкой 50% Ого! Вот это удача — сразу же подумал я. Хоть какая-то польза от нашего «любимого» государства. На выбор между Яндексом и хотя бы тем же СкилБокс я не потратил ни одной секунды, ведь Яндекс — узнаваемый бренд, думал я, полюбому любой HR знает про них даже за рубежом, а если знают про Яндекс, то и курсы от них будут некой благонадежной ассоциацией и с этим аргументом трудно поспорить.
Подача заявки на гос субсидию оказалась не такой муторной, как я ожидал: я предполагал, что потребуется гора бумажек и подача займет пару месяцев, но на деле до момента одобрения моей заявки с момента регистрации на сайте steps.2035.university прошла примерно неделя, дальше созвон с Яндексом, дружеские «похлопывания друг друга по плечу» по телефону:
-
Как здорово, что появилась эта скидка! — говорю я.
-
Как хорошо, что вы пришли именно к нам! — отвечают мне по телефону.
-
Я точно будут успевать учиться и работать?
-
Да у вас все получится, конечно будет иногда тяжеловато, но основная, часть наших студентов совмещают работу с учебой!
-
Ура!
-
Ура!
-
У нас все получится!
Радостный вешаю трубку и оплачиваю, даже не глядя в договор оферты, о котором я узнал несколько позже.
Здесь хочу отдельно обратить внимание на стоимость курсов, которая на мой взгляд сильно завышена, при таком количестве студентов в группе по 30-40 человек стоимость от яндекса как раз могла бы быть на уровне 30 000 и при этом срок обязательных курсов можно было бы с легкостью сократить до трех месяцев, разместив остальной курс в качестве дополнения, это конечно мое личное субъективное мнение.
Первая опасная близость.
Проходит две недели с момента оплаты, полная тишина: ни звонков ни писем от яндекса. Набираю сам:
-
Здрасте, я вот оплатил курсы. По телефону говорили, что сразу распределят на курс — как будто стесняясь собственных слов произношу я.
-
Да, конечно, оплату мы увидели, подождите, вам на почту придет письмо. Спасибо, что позвонили нам!
-
Постойте, а можно узнать конкретней, когда должно прийти письмо?
-
К сожалению точной информации у меня нет.
-
Хотя бы примерно, в течении недели, месяца, года?
-
К сожалению точной информации у меня нет. Ожидайте. Спасибо, что позвонили нам!
Первые тревожные мысли начали стучаться в мою бедную голову, через неделю тотальной тишины со стороны Яндекса поток тревожных мыслей стал прерываться матерными междометиями, беру трубку, звоню еще раз.
-
Добрый день! Как хорошо, что вы позвонили нам! У вас какой-то вопрос?
-
Да, хочу узнать когда начну обучение.
На мой взгляд, в 21 веке это довольно странная ситуация: звонить спустя три недели после оплаты и узнавать когда же мне окажут оплаченную услугу, но это же яндекс, прелюдии кончились, начинайте привыкать и учитесь получать удовольствие.
Ответ в трубке:
-
У меня нет точной информации, ожидайте письмо.
-
Постойте, я оплатил 3 недели назад и вы даже не можете мне сказать когда начнется обучение? У вас на сайте была информация о начале обучения через 2 недели после оплаты.
-
Да, но сейчас очень много студентов, вам нужно подождать.
-
Сколько?
-
У меня нет точной информации, ожидайте письмо.
-
Если меня это не устраивает?
-
Вы можете написать нам, мы вернем деньги.
-
Компенсация за потраченное время?
-
Нет. Спасибо что позвонили нам!
Поток моих тревожных мыслей иссяк, пошли сплошные матерные междометия.
Итог: оплатил 03.11.2021 года, по телефону после пятого раза пообещали, что курс начнется, как раз перед новым годом, за 2 недели, я радостный, как дурак, взял отпуск рассчитывая спокойно начать обучение без лишней «дерготни» по работе, потом в планах была еще пара недель Новогодних каникул, во время которых так же можно было спокойно учиться, но это же Яндекс — доступ к тренажеру открыли 20.01.2022. Элементарные извинения или предложения компенсации? Вы смеетесь, это же яндекс. Начал привыкать…
«На крючке»
Доступ к тренажеру открыли, на почту прислали инструкции по Slack, по факту первое время я всегда натыкался на одно и то же: перевод стрелок т. е. мне всегда писали к кому обратиться вместо ответа.
Процесс обучения.
Главное, что мне не понравилось — совершенно наплевательское отношение к моему времени. До сих пор не могу понять, как так получается, но факт остается фактом. Я выбираю курсы и оплачиваю их с одной главной целью получить нужную информацию в удобной для меня форме и максимально быстро. На просторах интернета есть масса информации в открытом доступе и можно самостоятельно изучить и статистику, и Tableau, и Python, но на поиски этой информации, её систематизацию нужно потратить не так уж и мало времени. По логике именно за систематизацию этих данных я и плачу, т.е. в первую очередь я плачу за экономию своего времени, по факту все получается совсем не так.
Суть тренажера построена таким образом, что не решив одной задачи ты не можешь перейти к следующей, логика проста и понятна, никто не спорит, но по факту это оборачивается массой заданий по принципу «Выведите на экран ”Hello World!”», увы это не шутка, вот пара примеров из окончания курсов, на минутку, эти задания появляются спустя 4-5 месяцев обучения:
7.Сгруппируйте данные по столбцу ‘month’ и найдите среднюю позицию в выдаче по месяцам (level). Результат группировки выведите на экран. Подсказка: Последовательно вызовите методы groupby() и mean().
Код решения:
print(position.groupby('month').mean())
>>>
level
month
2 1.750000
3 5.769231
4 6.214286
Ответ не принят. Пишу в тех поддержку, ответ спустя 20 минут:
Приветствуем! В задаче нужно найти и вывести на экран среднюю позицию в выдаче(level) по месяцам. Для этого нам нужно сгруппировать столбец level по месяцам и применить агрегирующую функцию mean().
Немного поправьте код и задача решена.
Делаю какие-то правки, тренажер опять не принимает, отсылаю код, ответ спустя еще 20 минут:
В этой задаче не нужно создавать новый датафрейм. Из группировки по столбцу ‘month’ выберите столбец ‘level’ и примените к нему метод .mean().
Методом «научного тыка» все же нашел правильное решение:
print(position.groupby(‘month’)[‘level’].mean())
>>>
month
2 1.750000
3 5.769231
4 6.214286
Name: level, dtype: float64
Конечно, кто-то может сказать, что ничего страшного, что именно так и учатся программированию, но почему за свой счет в течении часа, а то и двух я должен заниматься поиском подобных решений? На мой взгляд подобные мелочи должны решаться в течении пяти минут, и это максимум. По факту получается, что здесь час-полтора, там минут тридцать и в итоге не успевание по курсу, за которое я еще должен доплачивать. Забавно.
В курсе появился подраздел необязательный к прохождению «Продвинутый SQL» и здесь я совершенно согласен, если студенту понадобится в будущем информация по запросам, он в любой момент может открыть тренажер и не лазить по интернету в непонятном поиске. На мой взгляд половину пройденного курса можно было отправить в рекомендательный, а не обязательный раздел.
Тут же хочу отдельно отметить форму обращения в тех поддержку, никаких инструкций по данному поводу нет, и на начальном этапе на построение запросов в тех поддержку уходило немало нервов, по сути это напоминает переписку с гос органами или обычной тех поддержкой. Вполне возможно, что главный “Soft Skill” который вы можете прокачать на данном курсе это переписка с чатом поддержки. Конкретизирую:
-
Мы очень рады, что вы к нам обратились но сейчас все заняты, вам нужно подождать.
-
Пожалуйста скопируйте код и пришлите нам ссылку.
-
Пожалуйста пришлите нам номер задания.
-
Пожалуйста пришлите нам текст задания.
-
Пожалуйста пришлите нам ссылку на Ваш курс.
Плюсуйте сюда ожидания в ответах по 10-20 минут и в итоге каждый день обучения это как минимум пол часа, а то и час-полтора потраченного времени на беспомощное ожидание. Получить общее время Вашего личного простоя за пол года, думаю каждый сможет самостоятельно.
Приплюсуйте сюда время работы чат с 10 утра по Москве до 7 вечера, позже сдвинули до 10 вечера, возможно уже сейчас внесли какие-то изменения. Благодаря такому графику я не один раз натыкался на ситуации, когда не могу пройти задание в 7 или 8 утра и приходилось ждать ответа в тех поддержке или в Slack. Оперативность в Slack так же мягко говоря не блещет и здесь я задавал вопросы если например уходил от компа на сутки — это подразумевало, что к моему возвращению там будет ответ, на большую оперативность рассчитывать не приходится по определению. Добавлю сюда «косяки» когда я просыпался пораньше на выходных (в целом привычка рано вставать) и часов в 6 утра садился за тренажер, а он просто «висит» к сожалению это так же не редкость и пару раз я на такое натыкался. В лучшем случае куратор в чате, вам напишет «Команда в курсе, команда чинит!» естественно даже без извинений, это же яндекс.
Еще один «ньюанс» про потраченное впустую время, в самом конце сдал последний проект, перед финальной работой, специально торопился, т. к. было указано, что курс откроют 5 августа, контрольную к этому времени сдал, и в планах было остаться дома на выходные, что бы заняться финальным проектом, хорошо, что уехал загорать, т. к. доступ открыли 8 августа, вместо пятницы только во вторник, впрочем этому я даже не удивился, но допускаю, что на курсе уже появились те, кто начал получать удовольствие от подобных «выходок».
Monkey Job.
Отдельно хочу обратить внимание тех, кто задумывается о покупке данных курсов, будьте готовы к тому, что вы платите в том числе за подобные «мелочи»
Задача 1.
Катя случайно высыпала 123 скрепки на лист в клетку. Размер клетки — 4 × 4 см. 98 скрепок пересекли линии на листе, а остальные — нет. С какой вероятностью упавшая на такой лист скрепка пересечёт линию?
В результате метода «научного тыка» правильный ответ был найдет
98/123 = 0.796 вместо вводимых мной 79.674%
Пол часа убитого времени, т.к. решал утром и тех поддержка еще спала.
Еще один пример.
Покупаем авиабилеты.Вы покупаете авиабилеты. Цена — 30 000 рублей. Есть две возможности сэкономить:
1) Воспользоваться промокодом на 4000 рублей;
2) Купить билет с карты банка-партнёра и получить скидку в 15%.
Промокод и скидка от банка не суммируются: можно выбрать только один вариант. Карточка банка у вас уже есть, оформлять её не нужно. Не раздумывая, что вы выберете?
Правильный ответ.
Скидку от банка. Оплачу только 85% стоимости билетов. 15% от 30 000 — целых 4500. На 500 рублей выгоднее промокода.
Все здорово, но зачем подобные задания вставлять в обязательный курс?
Задания из серии ctrl-c ctrl-v, скриншот ниже, справа пропуски в которые нужно вписать правильный ответ, надеюсь, вы догадаетесь. что нужно вставить вместо
# ваш код здесь
Знакомство перешедшее в длительные отношения.
Проблема в структуре данных, а точнее, в постоянном перемешивании теории по статистике и синтаксиса Python.
Вполне возможно, что это проблема именно этого курса, т. к. переписывался с однокурсницей, которой данный курс так же крайне не понравился, хотя, до этого она проходила обучение по курсу Data Scientist и там все было ок.
Вполне очевидная на мой взгляд вещь — мухи отдельно, котлеты отдельно, но для яндекса это не так. Как итог по окончании курса мне пришлось все перепроверять исключительно для того, что бы сделать рабочий конспект по синтаксису Python. Базовые знания в теории Python так же хромают, данный вывод делаю, просто сравнивая яндекс и бесплатную лекцию в МФТИ от Тимофея Хирьянова.
Так же есть претензии к теории по статистике, например что бы понять достаточно часто используемую дисперсию пришлось залезть в гугл и найти экселевский файл с расчетами, сравните что понятней:
Определение от яндекса: Улучшенная метрика разброса — не просто среднее расстояние между значениями датасета и средним, а средний квадрат этого расстояния.
Эта величина называется дисперсия (лат. dispersio, «рассеяние»), её находят по формуле:
D(X)=M(X−M(X))2, которую также часто записывают в более удобном для расчетов виде: D(X)=M(X2)−(M(X))2
Чтобы понять, насколько сильно значения отличаются от среднего, вычисляют дисперсию. Для каждого значения находят расстояние от среднего до нужного значения, а затем возводят результат в квадрат.
Скриншот из формулы найденной на просторах интернета:
Еще один крайне негативный момент — это сам тренажер, некоторые моменты в синтаксисе описываются в ходе выполнения упражнения, а пройти упражнение второй раз нет технической возможности, скорее всего так яндекс страхует свои «научные открытия» от копипаста. Для меня же иногда появлялся пробел в данных, и спустя пару недель при необходимости еще раз разобраться во всей логике произошедшего по шагам, увы, ждало разочарование.
Да, конечно каждый может самостоятельно забраться в интернет и разобраться в тех моментах теории которые ему непонятны, но тут главный вопрос, а за что я тогда плачу?
Плюсы в курсе.
По большому счету платить приходится за три главных вещи:
-
Сертификат в котором указано яндекс.
-
Структура данных полученных на курсе и отдельно SQL
-
Выполненные проекты.
Для объективности должен сказать, что в 2020 году проходил курсы RemoteAcademy по управлению командой, цена 60000р, конечно по сравнению с Яндексом там, просто выброшенные деньги но и от яндекса ожидал большего.
В первую очередь, я ожидал комфортных условия и понимания, что ты можешь заниматься именно тогда когда тебе удобно и делать то, что тебе интересно и нужно, а не вставлять скопированный код из конспекта в задание, а потом переправлять его в чат поддержки, в случае ошибки.
Во вторую очередь, хотелось больше самостоятельности. Конечно, самостоятельных проектов достаточно много и к концу курса успеваешь набить руку, что бы чувствовать себя достаточно уверенно глядя даже на объемное задание. Мне при этом сильно не хватало неформального общения с одним наставником на протяжении всего курса, всегда при проверке получались какие-то одноразовые переписки. Хотелось заданий и возможности делать то, что на твой взгляд приведет к нужным результатам, искать ошибки, закономерности, а в замен этого получаешь палочную систему, которая очень быстро надоедает. Все проекты — это набор однотипных заданий, которые проверяются по каждому пункту, и цель этих заданий сводится к «докапаться» со стороны проверяющего и «отписаться» со стороны проверяемого, мой порыв делать аккуратные работы и искать самостоятельно какие-то закономерности и аномалии в данных был на корню подрублен уже четвертой работой, на которую я потратил больше двух недель, а в итоге получил непонятные для меня комментарии от проверяющего, на переписку с которым я потратил еще наверное неделю. В итоге довольно сильно отстал т. к. на ковыряние в проекте еще и наложился больничный. Сомневаясь в своих возможностях догнать материал, написал куратору о возможности перехода в другую, более позднюю кагорту и тут меня ждал сюрприз: да, конечно, перевести могут, но больничный не учитывается и за мое отставание мне нужно будет доплачивать. На всякий случай уточнил, почему так, почти двух месячное ожидание открытия курсов никак не компенсируется, а тут только два переноса и доплачивай, ответ думаю вы уже знаете — это же яндекс, в договоре оферты все прописано.
Справедливости ради, нужно заметить, что несколько раз одноразовые код-ревьюверы давали прямые ответы на мои вопросы, вместо отписок, чем действительно помогали в работе, в целом же на мой взгляд проверки в основном больше походили на высасывание недочетов из пальца, не говоря уже про тот момент, когда проверка проекта занимала неделю и эта «дерготня» то правки в проекте, то новая теория сильно раздражали и подкашивали. Принцип когда ты сдаешь проект, делаешь паузу, «очищаешь голову» и идешь дальше здесь явно нарушен.
Огрехи в курсе так же сводятся к непонятной информации, иногда даже для самих преподавателей, здесь просто приведу цитату из Slack.
Вопрос студента:
— Поэкспериментировал, всё отлично работает. Хотелось бы ещё понять механизм этой работы. В теории написано, что декоратор используется чтобы выполнять дополнительные действия до и после основной функции. В нашем случае, как я понял, декоратор просто передаёт в основную функцию аргументы и в конце получает от неё значения на выходе. В чём смысл его работы?
Ответ наставника:
— Я понятия не имею, как работает конкретно этот декоратор под капотом. Чтобы с этим разобраться, нужно идти на гитахб и смотреть его реализацию. Так что я не могу тебе ответить на этот вопрос. Да и, вообще говоря, вряд ли тебе вообще понадобится это знание, так как я сильно сомневаюсь, что ты будешь строить дашборды с помощью кода, а не с помощью Табло.
Какие либо комментарии на мой взгляд, тут излишни, разве что не удержусь от смайлика =)
С другой стороны этими дашбордами «с помощью кода» занимались почти месяц, получается месяц бесполезной теории, за свой же счет и смайлик тогда нужно ставить в другую сторону =(
Теория которая разбилась о практику.
Еще один немаловажный момент — зацикливание на теории, без оговорок. Подчеркну из курса фрагмент из теории, где речь идет про перцентили 90, 95, 99, очистку данных и отбрасывание выбросов. Обратился к своей знакомой из Пятерочки по данному поводу, поинтересовался, что она знает про перцентили и статистическую значимость, использует ли она эти «штуки» при расчете средних показателей и среднего чека в частности. Знакомая работает директором по рознице несколько лет, для понимания, в её подчинение было 17 директоров магазинов, и всевозможные отчеты и метрики по среднему чеку было её основной задачей, при этом про такие понятия она и не слышала.
Спрашиваю про выбросы при расчете среднего чека, в ответ получаю — нет, ничего не удаляем, просто разделяли оптовых покупателей и розницу, теперь это происходит полностью автоматически.
Вот здесь и почувствуйте разницу между отбрасыванием оптовых (аномальных) покупателей и отсеканием выбросов, про обработку которых так много было написано в курсе, а про опт и розницу, ни одной маленькой пометки. Поэтому после прохождения курсов от яндекса на собеседовании, если вы заявите что-то подобное, да еще и начнете бить себя в грудь, мол это правильно ведь так сам Великий яндекс написал, на вас могут посмотреть как минимум странно, не говоря уже о приеме на работу. Да, теория это хорошо, но на практике про статистическую значимость могут и не знать, а средний чек и сравнение средних чеков делают «по старинке» по общей выборке, сумме и количеству.
Для меня это просто яркий пример не соответствия теории и практики, не думаю, что это надо записывать исключительно на счет курса яндекса, но почему на платных(!) курсах про такой нюанс просто не упомянуть, помня о том, что на эти курсы могу попадать студенты без малейшего представления о том, как-там все происходит на работе, а не только в тренажере.
Опять же зачем в обязательном порядке убивать столько времени на подобную теорию, которая будет благополучно забыта через два месяца мне совершенно не понятно, не говоря о том, зачем за такую теорию нужно платить.
Так же отдельно хочу сказать, что данные курсы по своему духу больше напоминают платную стажировку в яндекс, что от части верно, по завершению курса вам могут предложить работу код-ревьювером за 30 000р в месяц (500 USD) с частичным трудоустройством, мне это почему-то напоминает старую шутку: ищем расклейщиков объявлений, для расклейки объявлений, о поиске расклейщиков объявлений.
На мой взгляд данные курсы так же несут крайний негатив и для преподавателей. Оклад 500$ как бы уже намекает, что преподаватели (код ревьюверы) здесь находятся на птичьих правах, что-то не нравится и сразу на выход. Преподаватели должны только монотонно выполнять свои действия, инициатива, а тем более внимание к жалобам студентов не приветствуется. Экономия времени студентов? Судя по придиркам преподавателей и отзывам в Слаке, главная задача код ревьювера, заставить студента потратить на работу, как можно больше времени.
На мой взгляд, это главная и вне гласная стратегия яндекса: Зачем получать со студента 70 000 за курс, если можно потянуть его время, сказать, что он «лошара» не успевает, а все успевают, с радостной улыбкой дать ему возможность продолжить обучение, но при этом «не забыв» получить со студента еще 12, 15, 30 к рублей за продление сроков обучения. Черный маркетинг, систему скрытых платежей никто не отменял.
Так же к черному маркетингу отнесу навязывание использование сервисом
https://cloud.yandex.ru
Это жесть, выяснилось, что я плачу за то, что бы яндекс тратил мое время на объяснение того, как правильно пользоваться их кривым интерфейсом, и если не пройдешь это «задание» тренажер дальше не пропустит. После завершения курса нужно было отдельно тратить время, что бы удалить аккаунт и отвязать карту, что бы яндекс «случайно» не слизал оплату данной услуги за месяц.
Вопрос поиска работы после курсов у меня еще не закрыт, по данному поводу постараюсь написать подробно но немного позже, т. к. эта процедура наложилась на вынужденную миграцию в Турцию.
Грустное расставание. Минусы курса.
Подведем итоги, минусы:
-
Совершенно наплевательское отношение к Вам и вашему времени.
-
Низкое качество структуры курса и представленных данных.
-
Трудности в составлении конспекта курса.
-
Большое количество бесполезной информации, которая могла быть в доступе для ознакомления, но никак не для обязательного изучения.
-
Доплата за ваше не успевание, к которому яндекс очень активно подталкивает.
-
Полное отсутствие даже намеков на компенсацию со стороны яндекса за свои «косяки».
Плюсы:
-
Большой объем полезной информации.
-
Большой опыт в написании самостоятельных работ.
-
Прокачка «SoftSkil»: большой опыт в общении с чатом поддержки и подобные прелести.
В целом, для себя сделал вывод, что единственной панацеей от подобной ситуации может быть самостоятельная учеба или учеба с репетиром, ведь по сути на таких курсах яндекс является просто прокладкой между теми, кто обладает знаниями (код ревью) и теми, кто за эти знания готов заплатить (студенты). При этом «прокладка» не просто забирает большую часть денег себе, но еще и сталкивает стороны лбами, фиксируя в крайне «неприятных позах», командуя и ограничивая в действия. Хотя, «неприятные позы» это конечно, уже дело вкуса каждого, а о вкусах, как известно, не спорят.
p/s
Добавлено 29/10/2022
Отдельно хочу обратить внимание на закрепленный комментарий от представителя яндекс, с огромной кучей оправданий и просьбой убрать опубликованные примеры, при этом представитель ни то, что про компенсацию не спросил, элементарно не посчитал нужным извиниться от лица компании, это же яндекс. Без комментариев.
Или как мы потеряли 120 000 рублей (60 000 каждый) на обучении.
Update 1:
Мы созвонились с Дианой, из команды Практикума.
В звонке нам удалось во всем разобраться и решить вопрос. Хочется поблагодарить всех людей, которые помогли нам в этой проблеме! Ребята, вы — сила 💪
В ближайшее время мы, наконец, получим дипломы. Когда это случится, сообщу в следующем апдейте.
Также нам предложили скидку 50% на два курса или 100% на один. Выбрали второе (для жены). Если в этот раз курс пройдет успешно и Яндекс действительно сделал работу над ошибками, то ждите похвальную статью уже от жены 💕
Вступление. Немного о нас.
В конце прошлого года я со своей девушкой, а ныне женой, приняли решение пройти курсы тестировщика на Яндекс.Практикум. Долго сомневались, стоит ли, хватит ли у нас терпения и не окажется ли всё это тратой денег. Спойлер: оказалось.
Учились мы на одном потоке примерно полгода. По началу было просто — всё как по маслу, и даже нравилось. Курсы с 3 по 6 (6 курс — диплом) уже тяжеловато, так как совмещали работу и учёбу. Работаем мы в одной крупной компании техническими специалистами, и, конечно же, хотим двигаться дальше. Начитавших хваленых отзывов в интернете и по советам коллег двинулись в Практикум на тестировщика.
Формат учёбы
Учёба происходила в формате спринтов с мягким и жестким дедлайном. Нам предоставили доступ в Slack, где распределили в группу с куратором и парой наставников.
Всю учёбу можно поделить на 3 блока:
- Тренажер — он же портал Яндекс.Практикум.
- Slack — с наставниками, вебинарами и флудилкой.
- Ревьюверы — с которыми особо нет взаимодействий (помимо проектов), но они играют ключевую роль.
Тренажер
Практикум пытается уместить большой объем информации в максимально сжатом виде. Причиной служит малое количество времени на обучение. Тебя постоянно подгоняют дедлайном, обосновывая это тем, что на работе так же.
Сам тренажер работает с ошибками. Студенты даже шутили на эту тему, мол, дополнительная проверка на тестировщика. Проблема с тренажером особо ощущается под конец курсов. Идеально написанный код может сработать только после обновления страницы. В некоторых случаях необходимо поставить/убрать символ там, где это не требуется в задании. Тогда всё заработает.
Старые разделы в тренажере могут обновить прямо в процессе обучения. Чаще всего это выходит боком, создавая путаницу. Быстро вернуться к пройденной теме не получится.
Slack
Толку от наставников было весьма мало, так как к вебинару они приходили чаще всего не подготовленными. Как оказалось, по причине наличия другой «основной» работы. На вопросы в группе Slack тебе отвечали в течение дня — и это в лучшем случае, иногда вообще забывали ответить.
Ревьюверы
Основная боль. Бардак и хаос.
Да, можно стерпеть сжатый тренажер с багами, редко отвечающих наставников с не информативными вебинарами. Но тебе нужно закрыть спринт, а для этого отправить работу на проверку ревьюверу. Напрямую общаться с ревьюверами не дают, что вызывает боль и недопонимание. Видимо из-за того, что они и так завалены работами (экономия на сотрудниках от Яндекса).
Время на проверку у ревьювера: ~96 часов, которое почти регулярно нарушается. Ревьюверы разные: один может не заметить ошибку в работе, а другой попросить сделать как-то иначе. В нашем потоке ревьюверы требовали от тебя того, что даже не было в тренажере или вебинаре. Опять обоснования: «А что вы хотели? Так есть и на реальной работе. Заказчик может потребовать выполнить работу другим образом». Мы поняли, это удобная отговорка от не налаженного процесса между разными отделами.
Финальная часть. Диплом.
Тотально выгоревшие. С горем пополам дошли до диплома. Их было два: первый и второй (альтернативный), но об этом чуть позже. Главная наша ошибка — мучить себя в ужасных условиях и не уйти раньше, когда была такая возможность. Этот урок был выучен на отлично.
Никаких индивидуальных созвонов с наставниками, адекватного обсуждения дипломного проекта нет и в помине. Выдали задание — разбирайтесь сами. Исходя из флудилки, даже у студентов-отличников, которые раньше щёлкали спринты как орешки, не было мотивации разбираться во всем этом месиве.
Первую дипломную работу проверяли долго. ОЧЕНЬ. ДОЛГО. Нервы у жены не выдержали, поэтому она написала в паблик потока. Куратор ответил в ЛС. Прикладываю скриншоты переписки (хорошо, что сохранили, ибо аккаунты в Slack уже удалены).
Куратор сливает работу ЧУЖОГО студента. Практически полностью готовый диплом. Спустя пару дней нам приходит ответ, что мы списали работу друг у друга 🤦♂
Скажу честно, первый дипломный проект другу друга и чужого (слитого) студента мы посмотрели, но выполняли всё самостоятельно.
Мы были в стрессе и на нервах. Нам предлагали либо уйти, либо остаться на второй (альтернативный) диплом. Выбрали второе. Ситуация повторилась, но на этот раз чужие работы мы не видели. Чуть ниже скриншот от поддержки, затем идут наши ответы.
Мой ответ был тотально проигнорирован и на просьбу детально предоставить доказательства — игнор.
Альтернативный диплом был выполнен самостоятельно. Это касается меня и моей жены. Мы в глаза не видели работы друг друга.
Увы, потраченное время и нервные клетки уже не вернуть.
TL;DR
Я с женой заплатили за курсы тестировщика в Яндекс.Практикум 120 тысяч рублей (60 каждый). Учёба была на отвратительном уровне, но мы продолжали учиться. Куратор слил работу другого студента. После сдачи дипломного проекта меня и мою жену обвинили в списывании (дважды). На просьбу детально предоставить доказательства и пересмотреть дело — игнор. Нас отчислили без возврата денег.
Recommend Projects
-
React
A declarative, efficient, and flexible JavaScript library for building user interfaces.
-
Vue.js
🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.
-
Typescript
TypeScript is a superset of JavaScript that compiles to clean JavaScript output.
-
TensorFlow
An Open Source Machine Learning Framework for Everyone
-
Django
The Web framework for perfectionists with deadlines.
-
Laravel
A PHP framework for web artisans
-
D3
Bring data to life with SVG, Canvas and HTML. 📊📈🎉
Recommend Topics
-
javascript
JavaScript (JS) is a lightweight interpreted programming language with first-class functions.
-
web
Some thing interesting about web. New door for the world.
-
server
A server is a program made to process requests and deliver data to clients.
-
Machine learning
Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.
-
Visualization
Some thing interesting about visualization, use data art
-
Game
Some thing interesting about game, make everyone happy.
Recommend Org
-
Facebook
We are working to build community through open source technology. NB: members must have two-factor auth.
-
Microsoft
Open source projects and samples from Microsoft.
-
Google
Google ❤️ Open Source for everyone.
-
Alibaba
Alibaba Open Source for everyone
-
D3
Data-Driven Documents codes.
-
Tencent
China tencent open source team.
Yandex.Practicum
Проекты, выполненные во время обучения в Яндекс.Практикум со специальности «Аналитик данных»
Название проекта | Описание | Стек |
---|---|---|
Project_01 Предобработка данных. «Исследование надежности заемщиков — анализ банковских данных» | Для кредитного отдела банка на основе статистики необходимо выяснить как семейное положение, количесвто детей, уровень дохода и цели клиента влияют на возврат кредита в срок | Pandas, PyMystem3, Python, лемматизация, предобработка данных |
Project_02 Исследовательский анализ данных. «Продажа квартир в Санкт-Петербурге — анализ рынка недвижимости» | Исходя из данных архива объявлений о продаже квартир в Санкт-Петербурге и соседних населённых пунктов за несколько лет, необходимо определить рыночную стоимость объектов недвижимости и определить зависимость стоимости квартир от различных параметров, таких как расположение обьекта, количества комнат, высоты потолков и т.д. | Python, Matplotlib, Pandas, визуализация данных, исследовательский анализ данных, предобработка данных |
Project_03 Статистический анализ данных. «Определение перспективного тарифа для телеком компании при помощи анализа поведения клиентов» | В телеком компании клиентам предлагается два тарифа: «Смарт» и «Ультра». Для корректировки рекламного бюджета необходимо определить какой тариф более перспективны и приносит больше денег | Python, Pandas, Matplotlib, NumPy, SciPy, проверка статистических гипотез |
Project_04 Сборный проект №1. «Изучение закономерностей определяющих успешность игр» | Интернет-магазину игр для платформ, нужно определить,что влияет на успешность игры. Исходя из этих данных дать рекомендации на потенциально популярную игру(в соответствии с платформой) и спланировать рекламные кампании. В распоряжении данные о продажах игр, оценки пользователей и экспертов, жанры и платформы. | Python, Matplotlib, NumPy, Pandas, исследовательский анализ данных, описательная статистика, предобработка данных, проверка статистических гипотез |
Project_05 Анализ бизнес-показателей. «Анализ окупаемости рекламы приложения» | В распоряжении есть данные о посещениях приложения новыми пользователями, выгрузка их покупок за этот период, а также статистика рекламных расходов. Предстоит изучить, как люди пользуются продуктом, с каких устройств, когда они начинают покупать, сколько денег приносит каждый клиент, когда он окупается и какие факторы отрицательно влияют на привлечение пользователей. | Python, Pandas, Matplotlib, NumPy, Seaborn, когортный анализ (удержание и конверсия), юнит-экономика(LTV, CAC, ROI) |
Project_06 Принятие решений в бизнесе. «Принятие решений в бизнесе на основе данных. Увеличение выручки интернет-магазина.A/B-тест» | Необходимо проанализировать возможности увеличения выручки интернет-магазина, на основании списка гипотез для увеличения выручки, данных о покупках и результатов A/B теста. | Python, Pandas, Matplotlib, NumPy, Seaborn, A/B тест, приоритезация гипотез, проверка статистических гипотез |
Project_07 Как рассказать историю с помощью данных. «Исследование рынка заведений общественного питания в Москве» | Для подготовки презентации исследования инвесторам для открытия кафе в Москве, необходимо подготовить исследование рынка заведений общественного питания в Москве.Вы решили открыть небольшое кафе в Москве. | Python, Pandas, Matplotlib, Seaborn, Plotly, Requests, API, HTTP, геокодирование, презентация PowerPoint |
Project_08 Сборный проект №2. «Анализ поведения пользователей в мобильном приложении» | Нужно разобраться, как ведут себя пользователи вашего мобильного приложения для покупки продуктов питания. Изучить вороку продаж. Исследовать результаты A/A/B-теста для 3 групп: 2 контрольные и одна экспериментальная (изменение шрифта приложения). | Python, Pandas, NumPy, Seaborn, Matplotlib, Plotly, SciPy, воронки событий, A/B тест |
Project_09 Автоматизация. Создание дашборда по пользовательским событиям для Яндекс.Дзен | Используя данные Яндекс.Дзена построить дашборд с метриками взаимодействия пользователей с карточками статей. Подготовить презентацию и дашборд в Tableau | Стек: SQL, Python, SQLAlchem, Tableau, построение дашбордов, подготовка презентации |
Project_10 Основы машинного обучения. Прогнозирование вероятности оттока пользователей для фитнес-центров | На основе данных о посетителях сети фитнес-центров «Культурист-датасаентист» спрогнозировать вероятность оттока для каждого клиента в следующем месяце, сформировать с помощью кластеризации портреты пользователей и подготовить план действий по удержанию клиентов | Стек: Python, Pandas, Sklearn, Matplotlib, Seaborn, машинное обучение, кластеризация |
Project_final Дипломный проект | Дипломный проект состоит из 3 частей: 1. E-commerce, анализ товарного ассортимента 2. Анализ A/B- теста 3. SQL запросы | Python, Pandas, NumPy, Seaborn, Matplotlib, Plotly, SciPy, Sklearn, машинное обучение, кластеризация, воронки событий, A/B тест, Tableau, построение дашбордов, подготовка презентации, SQLAlchem, SQL |
Data Science
В этом репозитории собраны мои проекты из курса «Специалист по Data Science» Яндекс.Практикума
This repository contains my projects from the «Data Science Specialist» training program by Yandex.Praktikum
Содержание: / Content:
- Модуль 01 / Module 01
- Предобработка данных / Data Processing — Project_01
- Исследовательский анализ данных / Exploratory data analysis — Project_02
- Статистический анализ данных / Statistical analysis of data — Project_03
- Сборный проект / Common project — Project_04
- Модуль 02 / Module 02
- Введение в машинное обучение / Introduction to machine learning — Project_05
- Обучение с учителем / Supervised learning — Project_06
- Машинное обучение в бизнесе / Machine learning in business — Project_07
- Сборный проект / Common project — Project_08
- Модуль 03 / Module 03
- Линейная алгебра / Linear algebra — Project_09
- Численные методы (градиентный бустинг) / Numerical analysis (gradient boosting) — Project_10
- Временные ряды / Time series — Project_11
- Машинное обучение для текстов / Machine learning for texts — Project_12
- Модуль 04 / Module 04
- Извлечение данных / Data retrieval — Project_13
- Компьютерное зрение / Computer vision — Project_14
- Рекомендации и обучение без учителя / Unsupervised learning
- Выпускной проект / Final project — Project_final
Project_01
Предобработка данных
Заказчик — кредитный отдел банка. Нужно разобраться, влияет ли семейное положение и количество детей клиента на факт погашения кредита в срок. Входные данные от банка — статистика о платёжеспособности клиентов.
Результаты исследования будут учтены при построении модели кредитного скоринга — специальной системы, которая оценивает способность потенциального заёмщика вернуть кредит банку.
Data Processing
The customer is the bank’s credit department. It is necessary to find out, whether family status and number of children of the client influence on the fact of loan repayment in due time. Input data from the bank — statistics on clients’ solvency.
The results of the research will be taken into account when building a credit scoring model — a special system that evaluates the ability of a potential borrower to repay a loan to the bank.
Project_02
Исследовательский анализ данных
В вашем распоряжении данные сервиса Яндекс.Недвижимость — архив объявлений о продаже квартир в Санкт-Петербурге и соседних населённых пунктов за несколько лет. Нужно научиться определять рыночную стоимость объектов недвижимости. Ваша задача — установить параметры. Это позволит построить автоматизированную систему: она отследит аномалии и мошенническую деятельность.
Exploratory data analysis
At your disposal is the data of the service Yandex. Apartments for sale in Saint-Petersburg and neighboring settlements for several years. You need to learn how to determine the market value of real estate. Your task is to set the parameters. This will build an automated system: it will track anomalies and fraudulent activity.
Project_03
Статистический анализ данных
Вы аналитик компании «Мегалайн» — федерального оператора сотовой связи. Клиентам предлагают два тарифных плана: «Смарт» и «Ультра». Чтобы скорректировать рекламный бюджет, коммерческий департамент хочет понять, какой тариф приносит больше денег.
Statistical analysis of data
You are an analyst of Megaline, a federal mobile operator. The clients are offered two tariff plans: «Smart» and «Ultra». To adjust the advertising budget, the commercial department wants to understand which tariff brings more money.
Project_04
Сборный проект
Вы работаете в интернет-магазине «Стримчик», который продаёт по всему миру компьютерные игры. Из открытых источников доступны исторические данные о продажах игр, оценки пользователей и экспертов, жанры и платформы (например, Xbox или PlayStation). Вам нужно выявить определяющие успешность игры закономерности. Это позволит сделать ставку на потенциально популярный продукт и спланировать рекламные кампании.
Common project
You work in the online store » Streamchik «, which sells around the world computer games. Historical data on game sales, user and expert evaluations, genres and platforms (e.g. Xbox or PlayStation) are available from open sources. You need to identify patterns that determine the success of the game. This will allow you to bet on a potentially popular product and plan advertising campaigns.
Project_05
Введение в машинное обучение
Оператор мобильной связи «Мегалайн» выяснил: многие клиенты пользуются архивными тарифами. Они хотят построить систему, способную проанализировать поведение клиентов и предложить пользователям новый тариф: «Смарт» или «Ультра».
Introduction to machine learning
Mobile operator «Megaline» found out: many customers use archive tariffs. They want to build a system that can analyze customer behavior and offer users a new tariff: «Smart» or «Ultra».
Project_06
Обучение с учителем
Из «Бета-Банка» стали уходить клиенты. Каждый месяц. Немного, но заметно. Банковские маркетологи посчитали: сохранять текущих клиентов дешевле, чем привлекать новых. Нужно спрогнозировать, уйдёт клиент из банка в ближайшее время или нет. Вам предоставлены исторические данные о поведении клиентов и расторжении договоров с банком.
Supervised learning
«Beta-Bank» started leaving clients. Every month. A little, but noticeable. Banking marketers thought: it is cheaper to save current customers than to attract new ones. It is necessary to predict whether the client will leave the bank in the near future or not. You are provided with historical data on the behavior of clients and the termination of contracts with the bank.
Project_07
Машинное обучение в бизнесе
Допустим, вы работаете в добывающей компании «ГлавРосГосНефть». Нужно решить, где бурить новую скважину. Вам предоставлены пробы нефти в трёх регионах: в каждом — 100 000 месторождений, где измерили качество нефти и объём её запасов. Постройте модель машинного обучения, которая поможет определить регион, где добыча принесёт наибольшую прибыль.
Machine learning in business
Suppose you work at GlavRosGosNeft production company. We need to decide where to drill the new well. You have been given samples of oil in three regions: in each region there are 100,000 oil fields where the quality of oil and the volume of its reserves were measured. Build a model of machine training that will help you determine the region where production will bring the most profit.
Project_08
Сборный проект
Подготовьте прототип модели машинного обучения для «Цифры». Компания разрабатывает решения для эффективной работы промышленных предприятий. Модель должна предсказать коэффициент восстановления золота из золотосодержащей руды. В вашем распоряжении данные с параметрами добычи и очистки. Модель поможет оптимизировать производство, чтобы не запускать предприятие с убыточными характеристиками
Common project
Prepare a prototype machine learning model for «Numbers». The company develops solutions for efficient operation of industrial enterprises. The model must predict the recovery rate of gold from gold ore. Data with mining and cleaning parameters are at your disposal. The model will help to optimize production so as not to run a plant with loss-making characteristics.
Project_09
Линейная алгебра
Вам нужно защитить данные клиентов страховой компании «Хоть потоп». Разработайте такой метод преобразования данных, чтобы по ним было сложно восстановить персональную информацию.
Linear algebra
You need to protect your customer data from «We’re not afraid of the flood» insurance company. Develop a method to convert data so that it is difficult to recover personal information.
Project_10
Численные методы
Сервис по продаже автомобилей с пробегом «Не бит, не крашен» разрабатывает приложение для привлечения новых клиентов. В нём можно быстро узнать рыночную стоимость своего автомобиля. В вашем распоряжении исторические данные: технические характеристики, комплектации и цены автомобилей. Вам нужно построить модель для определения стоимости.
Numerical analysis
Car sales service with mileage «Not broken, not painted» develops an application to attract new customers. In it you can quickly find out the market value of your car. Historical data: technical specifications, equipment and prices of cars are at your disposal. You need to build a model to determine the price.
Project_11
Временные ряды
Компания «Чётенькое такси» собрала исторические данные о заказах такси в аэропортах. Чтобы привлекать больше водителей в период пиковой нагрузки, нужно спрогнозировать количество заказов такси на следующий час. Постройте модель для такого предсказания.
Time series
«Cool Taxi» Company has collected historical data on taxi orders at airports. To attract more drivers during the peak load, you need to predict the number of taxi orders for the next hour. Build a model for such a prediction.
Project_12
Машинное обучение для текстов
Интернет-магазин «Викишоп» запускает новый сервис. Теперь пользователи могут редактировать и дополнять описания товаров, как в вики-сообществах. То есть клиенты предлагают свои правки и комментируют изменения других. Магазину нужен инструмент, который будет искать токсичные комментарии и отправлять их на модерацию.
Обучите модель классифицировать комментарии на позитивные и негативные. В вашем распоряжении набор данных с разметкой о токсичности правок.
Machine learning for texts
Online store «Wikishop» launches a new service. Now users can edit and supplement product descriptions, as on wikis. That is, customers offer their edits and comment on changes made by others. The store needs a tool that will search for toxic comments and send them to moderation.
Teach the model to categorize comments into positive and negative. At your disposal is a data set with markings on the toxicity of edits.
Project_13
Извлечение данных
Вы аналитик российской авиакомпании F9, выполняющей внутренние пассажирские перевозки. Важно понять предпочтения пользователей, покупающих билеты на разные направления. Вам предстоит изучить базу данных и проанализировать спрос пассажиров на рейсы в города, где проходят крупнейшие культурные фестивали.
Data retrieval
You are an analyst of the Russian airline F9, which performs domestic passenger transportation. It is important to understand the preferences of users who buy tickets to different destinations. You will have to study the database and analyze passenger demand for flights to cities where major cultural festivals are held.
Project_14
Компьютерное зрение
Сетевой супермаркет «Хлеб-Соль» внедряет систему компьютерного зрения для обработки фотографий покупателей. Фотофиксация в прикассовой зоне поможет определять возраст клиентов, чтобы:
- Анализировать покупки и предлагать товары, которые могут заинтересовать покупателей этой возрастной группы;
- Контролировать добросовестность кассиров при продаже алкоголя.
Computer vision
Network supermarket «Bread and salt» introduces a computer vision system for processing photos of customers. Photofixing in the checkout area will help determine the age of customers to:
- Analyze purchases and offer products that may interest customers of this age group;
- Monitor the integrity of cashiers when selling alcohol.
Project_final
Выпускной проект
Чтобы оптимизировать производственные расходы, металлургический комбинат ООО «Так закаляем сталь» решил уменьшить потребление электроэнергии на этапе обработки стали. Вам предстоит построить модель, которая предскажет температуру стали.
Final project
In order to optimize production costs, «That’s how we temper steel» metallurgical plant decided to reduce electricity consumption at the steel processing stage. You have to build a model that predicts the temperature of steel.