Для чего применяется методика data mining в системах электронного бизнеса

Термин Data Mining встречается в обиходе все чаще, но иногда его путают с Big Data. РБК Тренды объясняют, как работает добыча данных, почему это целая наука и сколько зарабатывают дата-майнеры

Что такое Data Mining

Data Mining (добыча данных, интеллектуальный анализ данных, глубинный анализ данных или просто майнинг данных) — это процесс, используемый компаниями для превращения необработанных больших данных в полезную информацию. Также для этой технологии используется менее популярный термин «обнаружение знаний в данных» или KDD (knowledge discovery in databases).

Если термином Big Data обозначают все большие данные — как обработанные, так и нет, то Data Mining представляет собой процесс глубокого погружения в эти данные для извлечения ключевых знаний.

Фото:Mint Images / Shutterstock

Автор термина Data Mining Григорий Пятецкий-Шапиро определял его как процесс обнаружения в сырых данных ранее неизвестных, нетривиальных, практически полезных и доступных интерпретации знаний, необходимых для принятия решений в различных сферах человеческой деятельности.

Используя программное обеспечение для поиска закономерностей в больших пакетах данных, предприятия могут выстраивать маркетинговые стратегии, управлять кредитными рисками, обнаруживать мошенничество, фильтровать спам или даже выявлять настроения пользователей.

Интеллектуальный анализ данных зависит от эффективного сбора, хранения и компьютерной обработки данных. Data Mining считается отдельной дисциплиной в области науки о данных.

Термин «интеллектуальный анализ данных» фигурировал в академических журналах еще в 1970 году, но по-настоящему популярным он стал только в 1990-х после появления интернета. Тогда компаниям потребовалось анализировать большие объемы разнородных данных, чтобы отыскать нетривиальные паттерны и научиться предсказывать поведение клиентов. Обычные модели статистики оказались неспособны справиться с этой задачей.

Первые системы Data Mining предназначались для обработки данных о продажах в супермаркетах по нескольким параметрам, включая их объем по регионам и тип продукта.

Задачи Data Mining

Модели интеллектуального анализа данных применяются для нескольких типов задач:

  • прогнозирование: оценка продаж, предсказание нагрузки сервера или его времени простоя;
  • риск и вероятность: выбор подходящих заказчиков для целевой рассылки, определение точки баланса для рискованных сценариев, назначение вероятностей по диагнозам или другим результатам;
  • рекомендации: определение продуктов, которые будут продаваться вместе, создание рекомендательных сообщений;
  • поиск последовательностей: анализ выбора заказчиков во время совершения покупок, прогнозирование их поведения;
  • группирование: разделение заказчиков или событий на кластеры, анализ и прогнозирование общих черт этих кластеров.

Где применяют Data Mining

Интеллектуальный анализ данных в основном используется отраслями, обслуживающими потребителей, в том числе в сфере розничной торговли, в финансах и маркетинге. Например, у Сбера существует сервис «Сбор Аналитика», который предоставляет данные по отраслям рынка или территориям на основе анализа денежных потоков населения, продаж товаров и услуг и прочих параметров. Его могут использовать как компании, так и госорганы, чтобы оценить потенциал развития региона.

Торговля

Торговым сетям Data Mining позволяет анализировать покупательские корзины, чтобы улучшать рекламу, создавать запасы товаров на складах и планировать, как их разложить на витринах, открывать новые магазины и выявлять потребности разных категорий клиентов.

Российская сеть «Лента» проанализировала данные карт лояльности более 90% своих покупателей и поделила аудиторию на определенные сегменты по покупательскому поведению. В частности, ретейлер выделил сегмент покупающих только базовые продукты и мужчин, которые чаще приобретали только напитки и снеки. Это позволило оптимизировать ассортимент и управлять выкладкой и ценами. А Amazon в октябре 2021 года анонсировала инструмент, который предоставит продавцам доступ к информации о том, что в настоящее время ищут покупатели, и тем самым поможет упростить выбор продуктов для продажи.

Банки и телеком

Кредитным организациям Data Mining позволяет выявлять мошенничество с кредитными карточками путем анализа подобных транзакций, а также предлагать различные виды услуг разным группам клиентов. Телеком использует анализ данных, чтобы бороться со спамом и разрабатывать новые тарифы для различных групп абонентов.

Российские сотовые операторы применяют Data Mining для внутренних целей, а также предлагают анализ данных как продукт. Так, «Билайн» в 2020 году запустил новый сервис, который позволяет компаниям получить демографические данные своих клиентов путем дата-майнинга по базам, которые собирает «Вымпелком».

Страхование

Страховые компании анализируют большие объемы данных, чтобы выявлять риски и уменьшать свои потери по обязательствам, а также предлагать клиентам релевантные услуги.

Так, австралийской частной страховой компании HCF анализ больших данных позволил за четыре месяца сократить расходы на рекламные рассылки на 25%. Аналитики точно определили тех клиентов, которые с наибольшей вероятностью готовы приобрести более дорогую услугу, и сделали для них отдельную рассылку.

Производство

Предприятиям анализ больших данных позволяет согласовывать планы поставок с прогнозами спроса, а также обнаруживать проблемы производства на ранних стадиях и успешно инвестировать в бренд. Кроме того, производители могут спрогнозировать износ производственных активов и запланировать техническое обслуживание и ремонт, чтобы не останавливать линию выпуска продукции. Пример применения Data Mining в промышленности — прогнозирование качества изделия в зависимости от параметров технологического процесса.

Российская «Инфосистемы Джет» предлагает интеллектуальную систему поддержки принятия решений Jet Galatea. Она анализирует технологические инструкции и данные, поступающие с датчиков на оборудовании, а затем формирует и выдает рекомендации технологам по оптимальному ведению производственного процесса. Jet Galatea применяют в металлургии, деревообработке, агропроме и добыче полезных ископаемых, чтобы уменьшить расход сырья и увеличить объем продукции.

Социология

Анализ настроений на основе данных социальных сетей позволяет понять, как определенная группа людей относится к конкретной теме. C 2016 года российская полиция использует в некоторых регионах страны систему «Зеус». Она позволяет отслеживать поведение пользователя в соцсети и строит график окружения, устанавливая возможную связь между пользователями на базе анализа друзей, родственников, опосредованных друзей, мест проживания, общих групп, лайков и репостов.

Медицина

Системы Data Mining используются и для постановки медицинских диагнозов. Они построены на основе правил, описывающих сочетания симптомов различных заболеваний. Правила помогают выбирать средства лечения. Например, британский стартап Babylon Heath собирает всю информацию о здоровье клиентов, их образе жизни и привычках, а затем алгоритм строит гипотезы и предлагает варианты обследования, лечения и даже рекомендует конкретных врачей и клиники.

Пример общения программы Babylon Heath с клиентом

Пример общения программы Babylon Heath с клиентом

(Фото: babylonhealth.com)

Рекомендательные системы

Подобные системы предназначены для предложения товаров или услуг, которые с большой вероятностью могут быть интересными людям, а также используются для поддержки клиентов. Они работают благодаря дата-майнингу, который осуществляется в реальном времени. Проще говоря, модель постоянно обновляется. Так работают голосовые помощники Alexa от Amazon, Siri от Apple и «Алиса» от «Яндекса». В качестве примера можно привести также службу поддержки такси DiDi, где алгоритм решает до 60% запросов пользователей, поскольку чаще всего они похожи.

Технология и методы Data Mining

Выделяют несколько этапов добычи данных.

  • Постановка задачи. Этот шаг включает анализ бизнес-требований, определение области проблемы, метрик, по которым будет выполняться оценка модели, а также определение задач для проекта анализа.
  • Подготовка данных: объединение и очистка. Эта работа включает не только удаление ненужных данных, но и поиск в них скрытых зависимостей, определение источников самых точных данных и создание таблицы для анализа.
  • Изучение данных.
  • Построение моделей.
  • Исследование и проверка моделей. Точность их прогнозов можно проверить при помощи специальных средств.
  • Развертывание и обновление моделей. Когда модель заработала, ее нужно обновлять по мере поступления новых данных, а затем выполнять их повторную обработку.

Этапы Data Mining

Этапы Data Mining

(Фото: predictivesolutions.ru)

Что должен знать и уметь дата-майнер

Специалист по интеллектуальной обработке данных должен иметь глубокие знания в сфере математической статистики, владеть иностранными языками, а также языками программирования. Он обрабатывает большие объемы информации и занимается поиском связей в ней. Специалист использует методики машинного обучения, создает алгоритмы, работает со статистическим анализом. Затем дата-майнер представляет организации результаты своей работы в понятном формате. Исходя из этих презентаций, компания принимает решения.

Работодатели предпочитают специалистов Data Mining с техническим, математическим или естественнонаучным образованием. Университеты предлагают соответствующие направления обучения: «Математика и компьютерные науки», «Прикладная математика и информатика», «Прикладная информатика» и «Системный анализ и управление». Кроме того, азы Data Mining можно изучить на курсах, например, Coursera.

По данным портала HeadHunter, в октябре 2021 года зарплаты дата-майнеров в России составляли от ₽28 тыс. до ₽250 тыс.

Программы для Data Mining

Существует множество программ, которые могут выполнять задачи Data Mining. Вот некоторые примеры.

  • SAS Enterprise Miner — набор методов интеллектуального анализа данных, который применяется для решения таких задач, как обнаружение случаев мошенничества, минимизация финансовых рисков, оценка и прогнозирование потребностей в ресурсах, повышение эффективности маркетинговых кампаний и снижение оттока клиентов. Имеет удобный и понятный интерфейс, позволяющий пользователям самостоятельно создавать модели анализа и прогнозирования. Показывает высокую производительность даже при работе с огромным массивом разрозненных данных.
  • Microsoft Analysis Services — предназначен для приложений бизнес-аналитики, анализа данных и создания отчетов. Службы доступны на разных платформах, в том числе на облаке Azure. Предусмотрен механизм для создания собственных алгоритмов и добавления их в качестве новой функции интеллектуального анализа данных.
  • SAS Customer Intelligence 360 — это платформа, которая позволяет бизнесу планировать и реализовывать маркетинговые кампании, анализировать их итоги и отслеживать потоки клиентов. Она в реальном времени собирает подробную информацию о действиях клиентов на веб-страницах, в том числе анонимных пользователей, учитывая контекст. Затем платформа дает рекомендации о времени и месте размещения контента на страницах и в мобильных приложениях для конкретного клиента.

Многоканальная доставка контента в SAS Customer Intelligence 360

Многоканальная доставка контента в SAS Customer Intelligence 360

(Фото: blogs.sas.com)

  • SAS Credit Scoring — система оценки кредитных рисков и кредитоспособности клиентов. Особенно полезна для банков, компаний финансового сектора и телекома. SAS Credit Scoring анализирует данные потенциального заемщика и представляет готовые рекомендации по выдаче кредита или предоставлению услуги с учетом возможных рисков.
  • Board — сочетает функции бизнес-аналитики и корпоративного управления эффективностью. Позволяет предприятиям разрабатывать и поддерживать сложные аналитические и плановые приложения. Также инструмент удобен для составления отчетов, если есть доступ к нескольким источникам данных.
  • SAS Revenue Optimization — это набор решений для оптимизации розничных цен, который позволяет определить оптимальную цену в конкретном месте и в конкретное время для формирования конкурентоспособных продаж, запуска промоакций и массовых распродаж. Применяется в ретейле.
  • RapidMiner — это открытая платформа для добычи данных с возможностью глубокого обучения алгоритмов, анализа текстов и машинного обучения. RapidMiner можно использовать как на локальных серверах компании, так и в облаке. Платформа популярна в энергетике и промышленности, машиностроении и других отраслях.

Будущее Data Mining

Рынок систем Data Mining растет. Этому способствует деятельность крупных корпораций: SAS, IBM, Microsoft, Oracle и других. Ожидается, что к 2027 году объем глобального рынка расширенной аналитики вырастет на 23,1% и достигнет отметки в $56,2 млрд.

Последние тенденции в Data Mining включают развитие методов анализа с элементами виртуальной и дополненной реальности, их интеграцию с системами баз данных, добычу биологических данных для инноваций в медицине, веб-майнинг (анализ данных в интернете), анализ данных в реальном времени, а также меры по защите конфиденциальности при добыче данных. Лидеры отрасли считают, что в будущем майнинг данных будет применяться в интеллектуальных приложениях, которые будут встроены в корпоративные хранилища данных.

Главной проблемой обнаружения закономерностей в данных является время, которое требуется для перебора информационных массивов. Известные методы либо искусственно ограничивают такой перебор, либо строят целые деревья решений, которые снижают эффективность поиска. Решение этой проблемы остается главной целью разработчиков продуктов для Data Mining.

Применение Data Mining для решения бизнес-задач

Банковское дело

Технология Data Mining используется в банковской сфере для решения ряда типичных задач.

Задача «Выдавать ли кредит клиенту?»

Классический пример применения Data Mining в банковском деле — решение задачи определения возможной некредитоспособности клиента банка. Эту задачу также называют анализом кредитоспособности клиента или «Выдавать ли кредит клиенту?».

Без применения технологии Data Mining задача решается сотрудниками банковского учреждения на основе их опыта, интуиции и субъективных представлений о том, какой клиент является благонадежным. По похожей схеме работают системы поддержки принятия решений и на основе методов Data Mining. Такие системы на основе исторической (ретроспективной) информации и при помощи методов классификации выявляют клиентов, которые в прошлом не вернули кредит.

Задача «Выдавать ли кредит клиенту?» при помощи методов Data Mining решается следующим образом. Совокупность клиентов банка разбивается на два класса (вернувшие и не вернувшие кредит); на основе группы клиентов, не вернувших кредит, определяются основные «черты» потенциального неплательщика; при поступлении информации о новом клиенте определяется его класс («вернет кредит», «не вернет кредит»).

Задача привлечения новых клиентов банка.

С помощью инструментов Data Mining возможно провести классификацию на «более выгодных» и «менее выгодных» клиентов. После определения наиболее выгодного сегмента клиентов банку есть смысл проводить более активную маркетинговую политику по привлечению клиентов именно среди найденной группы.

Другие задачи сегментации клиентов.

Разбивая клиентов при помощи инструментов Data Mining на различные группы, банк имеет возможность сделать свою маркетинговую политику более целенаправленной, а потому — эффективной, предлагая различным группам клиентов именно те виды услуг, в которых они нуждаются.

Задача управления ликвидностью банка. Прогнозирование остатка на счетах клиентов.

Проводя прогнозирования временного ряда с информацией об остатках на счетах клиентов за предыдущие периоды, применяя методы Data Mining, можно получить прогноз остатка на счетах в определенный момент в будущем. Полученные результаты могут быть использованы для оценки и управления ликвидностью банка.

Задача выявления случаев мошенничества с кредитными карточками.

Для выявления подозрительных операций с кредитными карточками применяются так называемые «подозрительные стереотипы поведения», определяемые в результате анализа банковских транзакций, которые впоследствии оказались мошенническими. Для определения подозрительных случаев используется совокупность последовательных операций на определенном временном интервале. Если система Data Mining считает очередную операцию подозрительной, банковский работник может, ориентируясь на эту информацию, заблокировать операции с определенной карточкой.

Страхование

Страховой бизнес связан с определенным риском. Здесь задачи, решаемые при помощи Data Mining, сходны с задачами в банковском деле.

Информация, полученная в результате сегментации клиентов на группы, используется для определения групп клиентов. В результате страховая компания может с наибольшей выгодой и наименьшим риском предлагать определенные группы услуг конкретным группам клиентов.

Задача выявление мошенничества решается путем нахождения некого общего стереотипа поведения клиентов-мошенников.

Телекоммуникации

В сфере телекоммуникаций достижения Data Mining могут использоваться для решения задачи, типичной для любой компании, которая работает с целью привлечения постоянных клиентов, — определения лояльности этих клиентов. Необходимость решения таких задач обусловлена жесткой конкуренцией на рынке телекоммуникаций и постоянной миграцией клиентов от одной компании в другую. Как известно, удержание клиента намного дешевле его возврата. Поэтому возникает необходимость выявления определенных групп клиентов и разработка наборов услуг, наиболее привлекательных именно для них. В этой сфере, так же как и во многих других, важной задачей является выявление фактов мошенничества.

Помимо таких задач, являющихся типичными для многих областей деятельности, существует группа задач, определяемых спецификой сферы телекоммуникаций.

Электронная коммерция

В сфере электронной коммерции Data Mining применяется для формирования рекомендательных систем и решения задач классификации посетителей Web-сайтов. Такая классификация позволяет компаниям выявлять определенные группы клиентов и проводить маркетинговую политику в соответствии с обнаруженными интересами и потребностями клиентов. Технология Data Mining для электронной коммерции тесно связана с технологией Web Mining [28].

Промышленное производство

Особенности промышленного производства и технологических процессов создают хорошие предпосылки для возможности использования технологии Data Mining в ходе решения различных производственных задач. Технический процесс по своей природе должен быть контролируемым, а все его отклонения находятся в заранее известных пределах;

т.е. здесь мы можем говорить об определенной стабильности, которая обычно не присуща большинству задач, встающих перед технологией Data Mining.

Основные задачи Data Mining в промышленном производстве [29]:

  • комплексный системный анализ производственных ситуаций;
  • краткосрочный и долгосрочный прогноз развития производственных ситуаций;
  • выработка вариантов оптимизационных решений;
  • прогнозирование качества изделия в зависимости от некоторых параметров технологического процесса;
  • обнаружение скрытых тенденций и закономерностей развития производственных процессов;
  • прогнозирование закономерностей развития производственных процессов;
  • обнаружение скрытых факторов влияния;
  • обнаружение и идентификация ранее неизвестных взаимосвязей между производственными параметрами и факторами влияния;
  • анализ среды взаимодействия производственных процессов и прогнозирование изменения ее характеристик;
  • выработку оптимизационных рекомендаций по управлению производственными процессами;
  • визуализацию результатов анализа, подготовку предварительных отчетов и проектов допустимых решений с оценками достоверности и эффективности возможных реализаций.

Маркетинг

В сфере маркетинга Data Mining находит очень широкое применение.

Основные вопросы маркетинга «Что продается?», «Как продается?», «Кто является потребителем?»

В лекции, посвященной задачам классификации и кластеризации, подробно описано использование кластерного анализа для решения задач маркетинга, как, например, сегментация потребителей.

Другой распространенный набор методов для решения задач маркетинга — методы и алгоритмы поиска ассоциативных правил.

Также успешно здесь используется поиск временных закономерностей.

Розничная торговля

В сфере розничной торговли, как и в маркетинге, применяются:

  • алгоритмы поиска ассоциативных правил (для определения часто встречающихся наборов товаров, которые покупатели покупают одновременно). Выявление таких правил помогает размещать товары на прилавках торговых залов, вырабатывать стратегии закупки товаров и их размещения на складах и т.д.
  • использование временных последовательностей, например, для определения необходимых объемов запасов товаров на складе.
  • методы классификации и кластеризации для определения групп или категорий клиентов, знание которых способствует успешному продвижению товаров.

Фондовый рынок

Вот список задач фондового рынка, которые можно решать при помощи технологии Data Mining [30]:

  • прогнозирование будущих значений финансовых инструментов и индикаторов по их прошлым значениям;
  • прогноз тренда (будущего направления движения — рост, падение, флэт) финансового инструмента и его силы (сильный, умеренно сильный и т.д.);
  • выделение кластерной структуры рынка, отрасли, сектора по некоторому набору характеристик;
  • динамическое управление портфелем;
  • прогноз волатильности;
  • оценка рисков;
  • предсказание наступления кризиса и прогноз его развития;
  • выбор активов и др.

Кроме описанных выше сфер деятельности, технология Data Mining может применяться в самых разнообразных областях бизнеса, где есть необходимость в анализе данных и накоплен некоторый объем ретроспективной информации.

Применение Data Mining в CRM

Одно из наиболее перспективных направлений применения Data Mining — использование данной технологии в аналитическом CRM.

CRM (Customer Relationship Management) — управление отношениями с клиентами.

При совместном использовании этих технологий добыча знаний совмещается с «добычей денег» из данных о клиентах.

Важным аспектом в работе отделов маркетинга и отдела продаж является составление целостного представления о клиентах, информация об их особенностях, характеристиках, структуре клиентской базы. В CRM используется так называемое профилирование клиентов, дающее полное представление всей необходимой информации о клиентах. Профилирование клиентов включает следующие компоненты: сегментация клиентов, прибыльность клиентов, удержание клиентов, анализ реакции клиентов. Каждый из этих компонентов может исследоваться при помощи Data Mining, а анализ их в совокупности, как компонентов профилирования, в результате может дать те знания, которые из каждой отдельной характеристики получить невозможно.

В результате использования Data Mining решается задача сегментации клиентов на основе их прибыльности. Анализ выделяет те сегменты покупателей, которые приносят наибольшую прибыль. Сегментация также может осуществляться на основе лояльности клиентов. В результате сегментации вся клиентская база будет поделена на определенные сегменты, с общими характеристиками. В соответствии с этими характеристиками компания может индивидуально подбирать маркетинговую политику для каждой группы клиентов.

Также можно использовать технологию Data Mining для прогнозирования реакции определенного сегмента клиентов на определенный вид рекламы или рекламных акций — на основе ретроспективных данных, накопленных в предыдущие периоды.

Таким образом, определяя закономерности поведения клиентов при помощи технологии Data Mining, можно существенно повысить эффективность работы отделов маркетинга, продаж и сбыта. При объединении технологий CRM и Data Mining и грамотном их внедрении в бизнес компания получает значительные преимущества перед конкурентами.

Исследования для правительства

В планах правительства США стоит создание системы, которая позволит отслеживать всех иностранцев, приезжающих в страну. Задача этого комплекса: начиная с пограничного терминала, на основе технологии биометрической идентификации личности и различных других баз данных контролировать, насколько реальные планы иностранцев соответствуют заявленным ранее (включая перемещения по стране, сроки отъезда и др.). Предварительная стоимость системы составляет более 10 млрд. долларов, разработчик комплекса — компания Accenture.

По данным аналитического отчета Главного контрольного управления американского Конгресса, правительственные ведомства США участвуют приблизительно в двухстах проектах на основе анализа данных ( Data Mining ), собирающих разнообразную информацию о населении. Более ста из этих проектов направлены на сбор персональной информации (имена, фамилии, адреса e-mail, номера соцстрахования и удостоверений водительских прав), и на основе этой информации осуществляют предсказания возможного поведения людей. Поскольку в упомянутом отчете не приведена информация о секретных отчетах, надо полагать, что общее число таких систем значительно больше.

Несмотря на пользу, которую приносят системы отслеживания, эксперты упомянутого управления, так же как и независимые эксперты, предупреждают о значительном риске, с которым связаны подобные проекты. Причина опасений — проблемы, которые могут возникнуть при управлении и надзоре за такими базами.

Data Mining

24.04.2020

Data Mining — это способ анализа данных, предназначенный для поиска ранее неизвестных закономерностей в больших массивах информации. Эти закономерности дают возможность принятия эффективных управленческих решений и оптимизации бизнес-процессов.

В данной статье будет рассказано о сферах применения технологии Data Mining.

Области применения методов Data Mining 

Методы Data Mining активно применяются в сфере e-commerce, финтехе, IT. Владение инструментами Data Mining дает аналитикам возможность решать самые разнообразные проблемы, например:

  • определения потребностей и желаний клиентов;

  • идентификации клиентов, приносящих максимальную прибыль;

  • повышения лояльности, привлечения и удержание клиентов;

  • анализа эффективности расходов на продвижения товаров и услуг.

Задачи технологии Data Mining

Технология Data Mining выполняет следующие задачи:

задача классификации — определение категории для каждого объекта исследования. В сфере финтеха такой задачей будет оценка кредитоспособности потенциальных заемщиков. Это поможет снизить риски потери средств при работе с некредитоспособными клиентами;

задача прогнозирования, то есть выявление новых возможных значений в определенной числовой последовательности. В e-commerce такая задача решается для предварительной установки цен в зависимости от сезонов и трендов. Благодаря этому можно прогнозировать уровень продаж;

задача кластеризации (сегментации) — разбивка множества объектов на группы по каким-либо признакам. Так, например, сегментация данных о покупателях интернет-магазина по возрасту, полу или предпочтениям помогает формировать для каждой группы специальные предложения;

задача определения взаимосвязей — выявление частоты встречающихся наборов объектов среди множества наборов. Этот способ помогает, в частности, определить состав потребительской корзины и оптимизировать размещение информации о сопутствующих товарах в интернет-магазине;

задача анализа последовательностей — выявление закономерностей в последовательностях событий. Этот анализ можно применять для отслеживания страниц, на которых чаще всего посетители прерывают просмотр сайта. Такой способ работы с данными позволяет устранить недостатки сайтов и повысить его посещаемость;

задача анализа отклонений — определение данных, значительно отличающихся от нормы. Данный анализ используется в финтехе для выявления мошеннических операций с банковскими картами. Он позволяет обеспечить надежную защиту клиентов.

Обучение Data Mining

Анализ данных по технологии Data Mining — это один из необходимых для ведения управленческой деятельности навыков, поэтому ВШБИ НИУ ВШЭ приглашает всех, кто хочет повысить свой профессиональный уровень, пройти переподготовку по программе «Инструментальные средства бизнес-аналитики», в рамках которой проводится теоретическое и практическое обучение сбору и обработке данных с помощью современных цифровых технологий для получения эффективных и нетривиальных управленческих решений.

Записаться на обучение по данной программе можно на нашем сайте.

← Назад к списку

!!! Полезный материал! Сборник статей по пяти ключевым темам системного менеджмента. Скачать >

Data Mining переводится как “добыча” или “раскопка данных”. Нередко рядом с Data Mining встречаются слова “обнаружение знаний в базах данных” (knowledge discovery in databases) и “интеллектуальный анализ данных”. Их можно считать синонимами Data Mining. Возникновение всех указанных терминов связано с новым витком в развитии средств и методов обработки данных.

До начала 90-х годов, казалось, не было особой нужды переосмысливать ситуацию в этой области. Все шло своим чередом в рамках направления, называемого прикладной статистикой (см. например, [1]). Теоретики проводили конференции и семинары, писали внушительные статьи и монографии, изобиловавшие аналитическими выкладками.

Вместе с тем, практики всегда знали, что попытки применить теоретические экзерсисы для решения реальных задач в большинстве случаев оказываются бесплодными. Но на озабоченность практиков до поры до времени можно было не обращать особого внимания – они решали главным образом свои частные проблемы обработки небольших локальных баз данных.

И вот прозвенел звонок. В связи с совершенствованием технологий записи и хранения данных на людей обрушились колоссальные потоки информационной руды в самых различных областях. Деятельность любого предприятия (коммерческого, производственного, медицинского, научного и т.д.) теперь сопровождается регистрацией и записью всех подробностей его деятельности. Что делать с этой информацией” Стало ясно, что без продуктивной переработки потоки сырых данных образуют никому не нужную свалку.

Специфика современных требований к такой переработке следующие:

  • Данные имеют неограниченный объем
  • Данные являются разнородными (количественными, качественными, текстовыми)
  • Результаты должны быть конкретны и понятны
  • Инструменты для обработки сырых данных должны быть просты в использовании

Традиционная математическая статистика, долгое время претендовавшая на роль основного инструмента анализа данных, откровенно спасовала перед лицом возникших проблем. Главная причина – концепция усреднения по выборке, приводящая к операциям над фиктивными величинами (типа средней температуры пациентов по больнице, средней высоты дома на улице, состоящей из дворцов и лачуг и т.п.). Методы математической статистики оказались полезными главным образом для проверки заранее сформулированных гипотез (verification-driven data mining) и для “грубого” разведочного анализа, составляющего основу оперативной аналитической обработки данных (online analytical processing, OLAP).

В основу современной технологии Data Mining (discovery-driven data mining) положена концепция шаблонов (паттернов), отражающих фрагменты многоаспектных взаимоотношений в данных. Эти шаблоны представляют собой закономерности, свойственные подвыборкам данных, которые могут быть компактно выражены в понятной человеку форме. Поиск шаблонов производится методами, не ограниченными рамками априорных предположений о структуре выборке и виде распределений значений анализируемых показателей. Примеры заданий на такой поиск при использовании Data Mining приведены в табл. 1.

Таблица 1. Примеры формулировок задач при использовании методов OLAP и Data Mining [2]

OLAP Data Mining
Каковы средние показатели травматизма для курящих и некурящих? Какие факторы лучше всего предсказывают несчастные случаи?
Каковы средние размеры телефонных счетов существующих клиентов в сравнении со счетами бывших клиентов (отказавшихся от услуг телефонной компании)? Какие характеристики отличают клиентов, которые, по всей вероятности, собираются отказаться от услуг телефонной компании?
Какова средняя величина ежедневных покупок по украденной и не украденной кредитной карточке? Какие схемы покупок характерны для мошенничества с кредитными карточками?

Важное положение Data Mining – нетривиальность разыскиваемых шаблонов. Это означает, что найденные шаблоны должны отражать неочевидные, неожиданные (unexpected) регулярности в данных, составляющие так называемые скрытые знания (hidden knowledge). К обществу пришло понимание, что сырые данные (raw data) содержат глубинный пласт знаний, при грамотной раскопке которого могут быть обнаружены настоящие самородки (рис.1).

Data Mining - интеллектуальный анализ данных

Рисунок 1. Уровни знаний, извлекаемых из данных

В целом технологию Data Mining достаточно точно определяет Григорий Пиатецкий-Шапиро – один из основателей этого направления:

Data Mining – это процесс обнаружения в сырых данных

  • ранее неизвестных
  • нетривиальных
  • практически полезных
  • и доступных интерпретации знаний,
  • необходимых для принятия решений в различных сферах
  • человеческой деятельности.

G. Piatetsky-Shapiro, Knowledge Stream Partners

2. Кому это нужно”

Сфера применения Data Mining ничем не ограничена – она везде, где имеются какие-либо данные. Но в первую очередь методы Data Mining сегодня, мягко говоря, заинтриговали коммерческие предприятия, развертывающие проекты на основе информационных хранилищ данных (Data Warehousing). Опыт многих таких предприятий показывает, что отдача от использования Data Mining может достигать 1000%. Например, известны сообщения об экономическом эффекте, в 10-70 раз превысившем первоначальные затраты от 350 до 750 тыс. дол. [3]. Известны сведения о проекте в 20 млн. дол., который окупился всего за 4 месяца. Другой пример – годовая экономия 700 тыс. дол. за счет внедрения Data Mining в сети универсамов в Великобритании.

Data Mining представляют большую ценность для руководителей и аналитиков в их повседневной деятельности. Деловые люди осознали, что с помощью методов Data Mining они могут получить ощутимые преимущества в конкурентной борьбе. Кратко охарактеризуем некоторые возможные бизнес-приложения Data Mining [2].

2.1. Некоторые бизнес-приложения Data Mining

Розничная торговля

Предприятия розничной торговли сегодня собирают подробную информацию о каждой отдельной покупке, используя кредитные карточки с маркой магазина и компьютеризованные системы контроля. Вот типичные задачи, которые можно решать с помощью Data Mining в сфере розничной торговли:

  • анализ покупательской корзины (анализ сходства) предназначен для выявления товаров, которые покупатели стремятся приобретать вместе. Знание покупательской корзины необходимо для улучшения рекламы, выработки стратегии создания запасов товаров и способов их раскладки в торговых залах.
  • исследование временных шаблонов помогает торговым предприятиям принимать решения о создании товарных запасов. Оно дает ответы на вопросы типа “Если сегодня покупатель приобрел видеокамеру, то через какое время он вероятнее всего купит новые батарейки и пленку””
  • создание прогнозирующих моделей дает возможность торговым предприятиям узнавать характер потребностей различных категорий клиентов с определенным поведением, например, покупающих товары известных дизайнеров или посещающих распродажи. Эти знания нужны для разработки точно направленных, экономичных мероприятий по продвижению товаров.

!!! Полезный материал! Сборник статей по пяти ключевым темам системного менеджмента. Скачать >

Банковское дело

Достижения технологии Data Mining используются в банковском деле для решения следующих распространенных задач:

  • выявление мошенничества с кредитными карточками. Путем анализа прошлых транзакций, которые впоследствии оказались мошенническими, банк выявляет некоторые стереотипы такого мошенничества.
  • сегментация клиентов. Разбивая клиентов на различные категории, банки делают свою маркетинговую политику более целенаправленной и результативной, предлагая различные виды услуг разным группам клиентов.
  • прогнозирование изменений клиентуры. Data Mining помогает банкам строить прогнозные модели ценности своих клиентов, и соответствующим образом обслуживать каждую категорию.

Телекоммуникации

В области телекоммуникаций  методы Data Mining помогают компаниям более энергично продвигать свои программы маркетинга и ценообразования, чтобы удерживать существующих клиентов и привлекать новых. Среди типичных мероприятий отметим следующие:

  • анализ записей о подробных характеристиках вызовов.Назначение такого анализа – выявление категорий клиентов с похожими стереотипами пользования их услугами и разработка привлекательных наборов цен и услуг;
  • выявление лояльности клиентов.  Data Mining можно использовать для определения характеристик клиентов, которые, один раз воспользовавшись услугами данной компании, с большой долей вероятности останутся ей верными. В итоге средства, выделяемые на маркетинг, можно тратить там, где отдача больше всего.

Страхование

Страховые компании в течение ряда лет накапливают большие объемы данных. Здесь обширное поле деятельности для методов Data Mining:

  • выявление мошенничества. Страховые компании могут снизить уровень мошенничества, отыскивая определенные стереотипы в заявлениях о выплате страхового возмещения, характеризующих взаимоотношения между юристами, врачами и заявителями.
  • анализ риска. Путем выявления сочетаний факторов, связанных с оплаченными заявлениями, страховщики могут уменьшить свои потери по обязательствам. Известен случай, когда в США крупная страховая компания обнаружила, что суммы, выплаченные по заявлениям людей, состоящих в браке, вдвое превышает суммы по заявлениям одиноких людей. Компания отреагировала на это новое знание пересмотром своей общей политики предоставления скидок семейным клиентам.

Другие приложения в бизнесе

Data Mining может применяться во множестве других областей:

  • развитие автомобильной промышленности. При сборке автомобилей производители должны учитывать требования каждого отдельного клиента, поэтому им нужны возможность прогнозирования популярности определенных характеристик и знание того, какие характеристики обычно заказываются вместе;
  • политика гарантий. Производителям нужно предсказывать число клиентов, которые подадут гарантийные заявки, и среднюю стоимость заявок;
  • поощрение часто летающих клиентов. Авиакомпании могут обнаружить группу клиентов, которых данными поощрительными мерами можно побудить летать больше. Например, одна авиакомпания обнаружила категорию клиентов, которые совершали много полетов на короткие расстояния, не накапливая достаточно миль для вступления в их клубы, поэтому она таким образом изменила правила приема в клуб, чтобы поощрять число полетов так же, как и мили.

2.2. Специальные приложения

Медицина

Известно много экспертных систем для постановки медицинских диагнозов. Они построены главным образом на основе правил, описывающих сочетания различных симптомов различных заболеваний. С помощью таких правил узнают не только, чем болен пациент, но и как нужно его лечить. Правила помогают выбирать средства медикаментозного воздействия, определять показания – противопоказания, ориентироваться в лечебных процедурах, создавать условия наиболее эффективного лечения, предсказывать исходы назначенного курса лечения и т. п. Технологии Data Mining позволяют обнаруживать в медицинских данных шаблоны, составляющие основу указанных правил.

Молекулярная генетика и генная инженерия

Пожалуй, наиболее остро и вместе с тем четко задача обнаружения закономерностей в экспериментальных данных стоит в молекулярной генетике и генной инженерии. Здесь она формулируется как определение так называемых маркеров, под которыми понимают генетические коды, контролирующие те или иные фенотипические признаки живого организма. Такие коды могут содержать сотни, тысячи и более связанных элементов.

На развитие генетических исследований выделяются большие средства. В последнее время в данной области возник особый интерес к применению методов Data Mining. Известно несколько крупных фирм, специализирующихся на применении этих методов для расшифровки генома человека и растений.

Прикладная химия

Методы Data Mining находят широкое применение в прикладной химии (органической и неорганической). Здесь нередко возникает вопрос о выяснении особенностей химического строения тех или иных соединений, определяющих их свойства. Особенно актуальна такая задача при анализе сложных химических соединений, описание которых включает сотни и тысячи структурных элементов и их связей.

Можно привести еще много примеров различных областей знания, где методы Data Mining играют ведущую роль. Особенность этих областей заключается в их сложной системной организации. Они относятся главным образом к надкибернетическому уровню организации систем [4], закономерности которого не могут быть достаточно точно описаны на языке статистических или иных аналитических математических моделей [5]. Данные в указанных областях неоднородны, гетерогенны, нестационарны и часто отличаются высокой размерностью.

3. Типы закономерностей

Выделяют пять стандартных типов закономерностей, которые позволяют выявлять  методы Data Mining: ассоциация, последовательность, классификация, кластеризация и прогнозирование (рис. 2).

Data Mining - интеллектуальный анализ данных

Рисунок 2. Типы закономерностей, выявляемых методами Data Mining

Ассоциация имеет место в том случае, если несколько событий связаны друг с другом. Например, исследование, проведенное в супермаркете, может показать, что 65% купивших кукурузные чипсы берут также и “кока-колу”, а при наличии скидки за такой комплект “колу” приобретают в 85% случаев. Располагая сведениями о подобной ассоциации, менеджерам легко оценить, насколько действенна предоставляемая скидка.

Если существует цепочка связанных во времени событий, то говорят о последовательности. Так, например, после покупки дома в 45% случаев в течение месяца приобретается и новая кухонная плита, а в пределах двух недель 60% новоселов обзаводятся холодильником.

С помощью классификации выявляются признаки, характеризующие группу, к которой принадлежит тот или иной объект. Это делается посредством анализа уже классифицированных объектов и формулирования некоторого набора правил.

!!! Полезный материал! Сборник статей по пяти ключевым темам системного менеджмента. Скачать >

Кластеризация отличается от классификации тем, что сами группы заранее не заданы. С помощью кластеризации средства Data Mining самостоятельно выделяют различные однородные группы данных.

Основой для всевозможных систем прогнозирования служит историческая информация, хранящаяся в БД в виде временных рядов. Если удается построить найти шаблоны, адекватно отражающие динамику поведения целевых показателей, есть вероятность, что с их помощью можно предсказать и поведение системы в будущем.

4. Классы систем Data Mining

Data Mining является мультидисциплинарной областью, возникшей и развивающейся на базе достижений прикладной статистики, распознавания образов, методов искусственного интеллекта, теории баз данных и др. (рис. 3). Отсюда обилие методов и алгоритмов, реализованных в различных действующих системах Data Mining. Многие из таких систем интегрируют в себе сразу несколько подходов. Тем не менее, как правило, в каждой системе имеется какая-то ключевая компонента, на которую делается главная ставка. Ниже приводится классификация указанных ключевых компонент на основе работы [6]. Выделенным классам дается краткая характеристика.

Data Mining - интеллектуальный анализ данных

Рисунок 3. Data Mining – мультидисциплинарная область

Data Mining - интеллектуальный анализ данных

Рисунок 4. Популярные продукты для Data Mining

4.1. Предметно-ориентированные аналитические системы

Предметно-ориентированные аналитические системы очень разнообразны. Наиболее широкий подкласс таких систем, получивший распространение в области исследования финансовых рынков, носит название “технический анализ”. Он представляет собой совокупность нескольких десятков методов прогноза динамики цен и выбора оптимальной структуры инвестиционного портфеля, основанных на различных эмпирических моделях динамики рынка. Эти методы часто используют несложный статистический аппарат, но максимально учитывают сложившуюся своей области специфику (профессиональный язык, системы различных индексов и пр.). На рынке имеется множество программ этого класса. Как правило, они довольно дешевы (обычно $300-1000).

4.2. Статистические пакеты

Последние версии почти всех известных статистических пакетов включают наряду с традиционными статистическими методами также элементы Data Mining. Но основное внимание в них уделяется все же классическим методикам – корреляционному, регрессионному, факторному анализу и другим. Самый свежий детальный обзор пакетов для статистического анализа приведен на страницах ЦЭМИ. Недостатком систем этого класса считают требование к специальной подготовке пользователя. Также отмечают, что мощные современные статистические пакеты являются слишком “тяжеловесными” для массового применения в финансах и бизнесе. К тому же часто эти системы весьма дороги – от $1000 до $15000.

Есть еще более серьезный принципиальный недостаток статистических пакетов, ограничивающий их применение в Data Mining. Большинство методов, входящих в состав пакетов опираются на статистическую парадигму, в которой главными фигурантами служат усредненные характеристики выборки. А эти характеристики, как указывалось выше, при исследовании реальных сложных жизненных феноменов часто являются фиктивными величинами.

В качестве примеров наиболее мощных и распространенных статистических пакетов можно назвать SAS (компания SAS Institute), SPSS (SPSS), STATGRAPICS (Manugistics), STATISTICA, STADIA и другие.

4.3. Нейронные сети

Это большой класс систем, архитектура которых имеет аналогию (как теперь известно, довольно слабую) с построением нервной ткани из нейронов. В одной из наиболее распространенных архитектур, многослойном перцептроне с обратным распространением ошибки, имитируется работа нейронов в составе иерархической сети, где каждый нейрон более высокого уровня соединен своими входами с выходами нейронов нижележащего слоя. На нейроны самого нижнего слоя подаются значения входных параметров, на основе которых нужно принимать какие-то решения, прогнозировать развитие ситуации и т. д. Эти значения рассматриваются как сигналы, передающиеся в следующий слой, ослабляясь или усиливаясь в зависимости от числовых значений (весов), приписываемых межнейронным связям. В результате на выходе нейрона самого верхнего слоя вырабатывается некоторое значение, которое рассматривается как ответ – реакция всей сети на введенные значения входных параметров. Для того чтобы сеть можно было применять в дальнейшем, ее прежде надо “натренировать” на полученных ранее данных, для которых известны и значения входных параметров, и правильные ответы на них. Тренировка состоит в подборе весов межнейронных связей, обеспечивающих наибольшую близость ответов сети к известным правильным ответам.

Основным недостатком нейросетевой парадигмы является необходимость иметь очень большой объем обучающей выборки. Другой существенный недостаток заключается в том, что даже натренированная нейронная сеть представляет собой черный ящик. Знания, зафиксированные как веса нескольких сотен межнейронных связей, совершенно не поддаются анализу и интерпретации человеком (известные попытки дать интерпретацию структуре настроенной нейросети выглядят неубедительными – система “KINOsuite-PR”).

Примеры нейросетевых систем – BrainMaker (CSS), NeuroShell (Ward Systems Group), OWL (HyperLogic). Стоимость их довольно значительна: $1500-8000.

Data Mining - интеллектуальный анализ данных

Рисунок 5. Полиномиальная нейросеть

!!! Полезный материал! Сборник статей по пяти ключевым темам системного менеджмента. Скачать >

4.4. Системы рассуждений на основе аналогичных случаев

Идея систем case based reasoning – CBR – на первый взгляд крайне проста. Для того чтобы сделать прогноз на будущее или выбрать правильное решение, эти системы находят в прошлом близкие аналоги наличной ситуации и выбирают тот же ответ, который был для них правильным. Поэтому этот метод еще называют методом “ближайшего соседа” (nearest neighbour). В последнее время распространение получил также термин memory based reasoning, который акцентирует внимание, что решение принимается на основании всей информации, накопленной в памяти.

Системы CBR показывают неплохие результаты в самых разнообразных задачах. Главным их минусом считают то, что они вообще не создают каких-либо моделей или правил, обобщающих предыдущий опыт, – в выборе решения они основываются на всем массиве доступных исторических данных, поэтому невозможно сказать, на основе каких конкретно факторов CBR системы строят свои ответы.

Другой минус заключается в произволе, который допускают системы CBR при выборе меры “близости”. От этой меры самым решительным образом зависит объем множества прецедентов, которые нужно хранить в памяти для достижения удовлетворительной классификации или прогноза [7].

Примеры систем, использующих CBR, – KATE tools (Acknosoft, Франция), Pattern Recognition Workbench (Unica, США).

4.5. Деревья решений (decision trees)

Деревья решения являются одним из наиболее популярных подходов к решению задач Data Mining. Они создают иерархическую структуру классифицирующих правил типа “ЕСЛИ… ТО…” (if-then), имеющую вид дерева. Для принятия решения, к какому классу отнести некоторый объект или ситуацию, требуется ответить на вопросы, стоящие в узлах этого дерева, начиная с его корня. Вопросы имеют вид “значение параметра A больше x””. Если ответ положительный, осуществляется переход к правому узлу следующего уровня, если отрицательный – то к левому узлу; затем снова следует вопрос, связанный с соответствующим узлом.

Популярность подхода связана как бы с наглядностью и понятностью. Но деревья решений принципиально не способны находить “лучшие” (наиболее полные и точные) правила в данных. Они реализуют наивный принцип последовательного просмотра признаков и “цепляют” фактически осколки настоящих закономерностей, создавая лишь иллюзию логического вывода.

Вместе с тем, большинство систем используют именно этот метод. Самыми известными являются See5/С5.0 (RuleQuest, Австралия), Clementine (Integral Solutions, Великобритания), SIPINA (University of Lyon, Франция), IDIS (Information Discovery, США), KnowledgeSeeker (ANGOSS, Канада). Стоимость этих систем варьируется от 1 до 10 тыс. долл.

Data Mining - интеллектуальный анализ данных

Рисунок 6. Система KnowledgeSeeker обрабатывает банковскую информацию

4.6. Эволюционное программирование

Проиллюстрируем современное состояние данного подхода на примере системы PolyAnalyst – отечественной разработке, получившей сегодня общее признание на рынке Data Mining. В данной системе гипотезы о виде зависимости целевой переменной от других переменных формулируются в виде программ на некотором внутреннем языке программирования. Процесс построения программ строится как эволюция в мире программ (этим подход немного похож на генетические алгоритмы). Когда система находит программу, более или менее удовлетворительно выражающую искомую зависимость, она начинает вносить в нее небольшие модификации и отбирает среди построенных дочерних программ те, которые повышают точность. Таким образом система “выращивает” несколько генетических линий программ, которые конкурируют между собой в точности выражения искомой зависимости. Специальный модуль системы PolyAnalyst переводит найденные зависимости с внутреннего языка системы на понятный пользователю язык (математические формулы, таблицы и пр.).

Другое направление эволюционного программирования связано с поиском зависимости целевых переменных от остальных в форме функций какого-то определенного вида. Например, в одном из наиболее удачных алгоритмов этого типа – методе группового учета аргументов (МГУА) зависимость ищут в форме полиномов. В настоящее время из продающихся в России систем МГУА реализован в системе NeuroShell компании Ward Systems Group.

Стоимость систем до $ 5000.

4.7. Генетические алгоритмы

Data Mining не основная область применения генетических алгоритмов. Их нужно рассматривать скорее как мощное средство решения разнообразных комбинаторных задач и задач оптимизации. Тем не менее генетические алгоритмы вошли сейчас в стандартный инструментарий методов Data Mining, поэтому они и включены в данный обзор.

Первый шаг при построении генетических алгоритмов – это кодировка исходных логических закономерностей в базе данных, которые именуют хромосомами, а весь набор таких закономерностей называют популяцией хромосом. Далее для реализации концепции отбора вводится способ сопоставления различных хромосом. Популяция обрабатывается с помощью процедур репродукции, изменчивости (мутаций), генетической композиции. Эти процедуры имитируют биологические процессы. Наиболее важные среди них: случайные мутации данных в индивидуальных хромосомах, переходы (кроссинговер) и рекомбинация генетического материала, содержащегося в индивидуальных родительских хромосомах (аналогично гетеросексуальной репродукции), и миграции генов. В ходе работы процедур на каждой стадии эволюции получаются популяции со все более совершенными индивидуумами.

Генетические алгоритмы удобны тем, что их легко распараллеливать. Например, можно разбить поколение на несколько групп и работать с каждой из них независимо, обмениваясь время от времени несколькими хромосомами. Существуют также и другие методы распараллеливания генетических алгоритмов.

Генетические алгоритмы имеют ряд недостатков. Критерий отбора хромосом и используемые процедуры являются эвристическими и далеко не гарантируют нахождения “лучшего” решения. Как и в реальной жизни, эволюцию может “заклинить” на какой-либо непродуктивной ветви. И, наоборот, можно привести примеры, как два неперспективных родителя, которые будут исключены из эволюции генетическим алгоритмом, оказываются способными произвести высокоэффективного потомка. Это особенно становится заметно при решении высокоразмерных задач со сложными внутренними связями.

Примером может служить система GeneHunter фирмы Ward Systems Group. Его стоимость – около $1000.

4.8. Алгоритмы ограниченного перебора

Алгоритмы ограниченного перебора были предложены в середине 60-х годов М.М. Бонгардом для поиска логических закономерностей в данных. С тех пор они продемонстрировали свою эффективность при решении множества задач из самых различных областей.

Эти алгоритмы вычисляют частоты комбинаций простых логических событий в подгруппах данных. Примеры простых логических событий: X = a; X < a; X a; a < X < b и др., где X – какой либо параметр, “a” и “b” – константы. Ограничением служит длина комбинации простых логических событий (у М. Бонгарда она была равна 3). На основании анализа вычисленных частот делается заключение о полезности той или иной комбинации для установления ассоциации в данных, для классификации, прогнозирования и пр.

Наиболее ярким современным представителем этого подхода является система WizWhy предприятия WizSoft. Хотя автор системы Абрахам Мейдан не раскрывает специфику алгоритма, положенного в основу работы WizWhy, по результатам тщательного тестирования системы были сделаны выводы о наличии здесь ограниченного перебора (изучались результаты, зависимости времени их получения от числа анализируемых параметров и др.).

!!! Полезный материал! Сборник статей по пяти ключевым темам системного менеджмента. Скачать >

Автор WizWhy утверждает, что его система обнаруживает ВСЕ логические if-then правила в данных. На самом деле это, конечно, не так. Во-первых, максимальная длина комбинации в if-then правиле в системе WizWhy равна 6, и, во-вторых, с самого начала работы алгоритма производится эвристический поиск простых логических событий, на которых потом строится весь дальнейший анализ. Поняв эти особенности WizWhy, нетрудно было предложить простейшую тестовую задачу, которую система не смогла вообще решить. Другой момент – система выдает решение за приемлемое время только для сравнительно небольшой размерности данных.

Тем не менее, система WizWhy является на сегодняшний день одним из лидеров на рынке продуктов Data Mining. Это не лишено оснований. Система постоянно демонстрирует более высокие показатели при решении практических задач, чем все остальные алгоритмы. Стоимость системы около $ 4000, количество продаж – 30000.

Data Mining - интеллектуальный анализ данных

Рисунок 7. Система WizWhy обнаружила правила, объясняющие низкую урожайность некоторых сельскохозяйственных участков

4.9. Системы для визуализации многомерных данных

В той или иной мере средства для графического отображения данных поддерживаются всеми системами Data Mining. Вместе с тем, весьма внушительную долю рынка занимают системы, специализирующиеся исключительно на этой функции. Примером здесь может служить программа DataMiner 3D словацкой фирмы Dimension5 (5-е измерение).

В подобных системах основное внимание сконцентрировано на дружелюбности пользовательского интерфейса, позволяющего ассоциировать с анализируемыми показателями различные параметры диаграммы рассеивания объектов (записей) базы данных. К таким параметрам относятся цвет, форма, ориентация относительно собственной оси, размеры и другие свойства графических элементов изображения. Кроме того, системы визуализации данных снабжены удобными средствами для масштабирования и вращения изображений. Стоимость систем визуализации может достигать нескольких сотен долларов.

Data Mining - интеллектуальный анализ данных

Рисунок 8. Визуализация данных системой DataMiner 3D

5. Резюме

  1. Рынок систем Data Mining экспоненциально развивается. В этом развитии принимают участие практически все крупнейшие корпорации. В частности, Microsoft непосредственно руководит большим сектором данного рынка (издает специальный журнал, проводит конференции, разрабатывает собственные продукты).
  2. Системы Data Mining применяются по двум основным направлениям: 1) как массовый продукт для бизнес-приложений; 2) как инструменты для проведения уникальных исследований (генетика, химия, медицина и пр.). В настоящее время стоимость массового продукта от $1000 до $10000. Количество инсталляций массовых продуктов, судя по имеющимся сведениям, сегодня достигает десятков тысяч. Лидеры Data Mining связывают будущее этих систем с использованием их в качестве интеллектуальных приложений, встроенных в корпоративные хранилища данных.
  3. Несмотря на обилие методов Data Mining, приоритет постепенно все более смещается в сторону логических алгоритмов поиска в данных if-then правил. С их помощью решаются задачи прогнозирования, классификации, распознавания образов, сегментации БД, извлечения из данных “скрытых” знаний, интерпретации данных, установления ассоциаций в БД и др. Результаты таких алгоритмов эффективны и легко интерпретируются.
  4. Вместе с тем, главной проблемой логических методов обнаружения закономерностей является проблема перебора вариантов за приемлемое время. Известные методы либо искусственно ограничивают такой перебор (алгоритмы КОРА, WizWhy), либо строят деревья решений (алгоритмы CART, CHAID, ID3, See5, Sipina и др.), имеющих принципиальные ограничения эффективности поиска if-then правил. Другие проблемы связаны с тем, что известные методы поиска логических правил не поддерживают функцию обобщения найденных правил и функцию поиска оптимальной композиции таких правил. Удачное решение указанных проблем может составить предмет новых конкурентоспособных разработок.

!!! Полезный материал! Сборник статей по пяти ключевым темам системного менеджмента. Скачать >

Литература

  1.  Айвазян С. А., Бухштабер В. М., Юнюков И. С., Мешалкин Л. Д. Прикладная статистика: Классификация и снижение размерности. – М.: Финансы и статистика, 1989.
  2.  Knowledge Discovery Through Data Mining: What Is Knowledge Discovery” – Tandem Computers Inc., 1996.
  3.  Кречетов Н.. Продукты для интеллектуального анализа данных. – Рынок программных средств, N14-15_97, c. 32-39.
  4.  Boulding K. E. General Systems Theory – The Skeleton of Science//Management Science, 2, 1956.
  5.  Гик Дж., ван. Прикладная общая теория систем. – М.: Мир, 1981.
  6.  Киселев М., Соломатин Е.. Средства добычи знаний в бизнесе и финансах. – Открытые системы, ” 4, 1997, с. 41-44.
  7.  Дюк В.А. Обработка данных на ПК в примерах. – СПб: Питер, 1997.

Автор: В.Дюк

Время на прочтение
8 мин

Количество просмотров 11K

Два этих модных слова, связанных с Data Science, сбивают с толку многих людей. Data Mining часто неправильно понимают как извлечение и получение данных, но на самом деле все намного сложнее. В этом посте давайте расставим точки над Mining и выясним разницу между Data Mining и Data Extraction.


Что такое Data Mining?


Data mining, также называемый Обнаружение знаний в базе данных (KDD), представляет собой метод, часто используемый для анализа больших массивов данных с помощью статистических и математических методов для поиска скрытых закономерностей или тенденций и извлечения из них ценности.

Что можно сделать с помощью Data Mining?


Автоматизируя процесс, инструменты data mining могут просматривать базы данных и эффективно выявлять скрытые закономерности. Для предприятий data mining часто используется для выявления закономерностей и взаимосвязей в данных, помогающих принимать оптимальные решения в бизнесе.

Примеры применения


После того, как в 1990-х годах data mining получил широкое распространение, компании в широком спектре отраслей, включая розничную торговлю, финансы, здравоохранение, транспорт, телекоммуникации, электронную коммерцию и т.д., начали использовать методы data mining для получения информации на основе данных. Data mining может помочь сегментировать клиентов, выявить мошенничество, прогнозировать продажи и многое другое.

  • Сегментация клиентов
    Благодаря анализу данных о клиентах и выявлению черт целевых клиентов, компании могут выстраивать их в отдельную группу и предоставлять отвечающие их потребностям специальные предложения.
  • Анализ рыночной корзины
    Эта методика основана на теории, что если вы покупаете определенную группу товаров, вы, скорее всего, купите другую группу товаров. Один известный пример: когда отцы покупают подгузники для своих младенцев, они, как правило, покупают пиво вместе с подгузниками.
  • Прогнозирование продаж
    Это может показаться похожим на анализ рыночной корзины, но на этот раз анализ данных используется для прогнозирования того, когда покупатель снова купит продукт в будущем. Например, тренер покупает банку протеина, которой должно хватит на 9 месяцев. Магазин, продающий этот протеин, планирует выпустить новый через 9 месяцев, чтобы тренер снова его купил.
  • Обнаружение мошенничества
    Data mining помогает в построении моделей для обнаружения мошенничества. Собирая образцы мошеннических и правдивых отчетов, предприятия получают право определять, какие операции являются подозрительными.
  • Обнаружение паттернов в производстве
    В обрабатывающей промышленности data mining используется, чтобы помочь в проектировании систем, путем выявления взаимосвязи между архитектурой продукта, профилем и потребностями клиентов. Добыча данных также может предсказать сроки разработки продукции и затраты.

И это лишь несколько сценариев использования data mining.

Этапы Data Mining


Data mining — это целостный процесс сбора, отбора, очистки, преобразования и извлечения данных для оценки закономерностей и, в конечном итоге, для извлечения ценности.

Как правило, весь процесс добычи данных можно обобщить до 7 этапов:

  1. Очистка данных
    В реальном мире данные не всегда очищаются и структурируются. Часто они шумные, неполные и могут содержать ошибки. Чтобы удостовериться, что результат data mining точный, сначала необходимо очистить данные. Некоторые методы очистки включают заполнение недостающих значений, автоматический и ручной контроль и т.д.
  2. Интеграция данных
    Это этап, на котором данные из разных источников извлекаются, комбинируются и интегрируются. Источниками могут быть базы данных, текстовые файлы, электронные таблицы, документы, многомерные массивы данных, интернет и так далее.
  3. Выборка данных
    Обычно не все интегрированные данные необходимы в data mining. Выборка данных — это этап, в котором из большой базы данных выбираются и извлекаются только полезные данные.
  4. Преобразование данных
    После выбора данных они преобразуются в подходящие для добычи формы. Этот процесс включает в себя нормализацию, агрегирование, обобщение и т.д.
  5. Интеллектуальный анализ данных
    Здесь наступает самая важная часть data mining — использование интеллектуальных методов для поиска закономерностей в них. Процесс включает регрессию, классификацию, прогнозирование, кластеризацию, изучение ассоциаций и многое другое.
  6. Оценка модели
    Этот этап направлен на выявление потенциально полезных, простых в понимании шаблонов, а также шаблонов, подтверждающих гипотезы.
  7. Представление знаний
    На заключительном этапе полученная информация представлена в привлекательном виде с применением методов представления знаний и визуализации.

Недостатки Data Mining

  • Большие вложения времени и труда
    Поскольку добыч данных — это длительный и сложный процесс, он требует большой работы продуктивных и квалифицированных людей. Специалисты по интеллектуальному анализу данных могут воспользоваться мощными инструментами добычи данных, однако им требуются специалисты для подготовки данных и понимания результатов. В результате на обработку всей информации может потребоваться некоторое время.
  • Приватность и безопасность данных
    Поскольку data mining собирает информацию о клиентах с помощью рыночных методов, она может нарушить конфиденциальность пользователей. Кроме того, хакеры могут получить данные, хранящиеся в системах добычи данных. Это представляет угрозу для безопасности данных клиентов. Если украденные данные используются не по назначению, это может легко навредить другим.

Выше приведено краткое введение в data mining. Как я уже упоминала, data mining содержит процесс сбора и интеграции данных, который включает в себя процесс извлечения данных (data extraction). В этом случае можно с уверенностью сказать, что data extraction может быть частью длительного процесса data mining.

Что такое Data Extraction?


Также известное как «извлечение веб-данных» и «веб-скрепинг», этот процесс представляет собой акт извлечения данных из (обычно неструктурированных или плохо структурированных) источников данных в централизованные места и централизацию в одном месте для хранения или дальнейшей обработки. В частности, к неструктурированным источникам данных относятся веб-страницы, электронная почта, документы, файлы PDF, отсканированный текст, отчеты мейнфреймов, катушечные файлы, объявления и т.д. Централизованные хранилища могут быть локальными, облачными или гибридными. Важно помнить, что извлечение данных не включает в себя обработку или другой анализ, который может произойти позже.

Что можно сделать с помощью Data Extraction?


В основном цели извлечения данных делятся на 3 категории.

  • Архивация
    Извлечение данных может преобразовать данные из физических форматов: книг, газет, счетов-фактур в цифровые форматы, например, базы данных для хранения или резервного копирования.
  • Изменение формата данных
    Когда вы хотите перенести данные с вашего текущего сайта на новый, находящийся в стадии разработки, вы можете собрать данные с вашего собственного сайта, извлекая их.
  • Анализ данных
    Распространен дополнительный анализ извлеченных данных для получения представления о них. Это может показаться похожим на анализ данных при data mining, но учтите, что анализ данных — это цель их извлечения, но не его часть. Более того, данные анализируются иначе. Один из примеров: владельцы интернет-магазинов извлекают информацию о продукте с сайтов электронной коммерции, таких как Amazon, для мониторинга стратегий конкурентов в режиме реального времени. Как и data mining, data extraction — это автоматизированный процесс, имеющий множество преимуществ. Раньше люди копировали и вставляли данные вручную из одного места в другое, что занимало очень много времени. Извлечение данных ускоряет сбор и значительно повышает точность извлекаемых данных.

Некоторые примеры применения Data Extraction


Подобно data mining, извлечение данных широко используется в различных отраслях промышленности. Помимо мониторинга цен в электронной коммерции, извлечение данных может помочь в собственном исследовании, агрегировании новостей, маркетинге, в работе с недвижимостью, путешествиях и туризме, в консалтинге, финансах и во многом другом.

  • Лидогенерация
    Компании могут извлекать данные из каталогов: Yelp, Crunchbase, Yellowpages и генерировать лидов для развития бизнеса. Вы можете посмотреть видео ниже, чтобы узнать, как извлечь данные из Yellowpages с помощью шаблона веб-скрепинга.
  • Агрегация контента и новостей
    Агрегирующие контент веб-сайты могут получать регулярные потоки данных из нескольких источников и поддерживать свои сайты в актуальном состоянии.
  • Анализ настроений
    После извлечения обзоров, комментариев и отзывов из социальных сетей, таких как Instagram и Twitter, специалисты могут проанализировать лежащие в их основе взгляды и получить представление о том, как воспринимается бренд, продукт или некое явление.

Шаги Data Extraction


Извлечение данных — первый этап ETL (аббревиатура Extract, Transform, Load: извлечение, преобразование, загрузка) и ELT (извлечение, загрузка и преобразование). ETL и ELT сами по себе являются частью завершенной стратегии интеграции данных. Другими словами, извлечение данных может быть частью их добычи.

Извлечение, преобразование, загрузка

В то время как data mining — это получение информации из больших массивов данных, data extraction — это гораздо более короткий и простой процесс. Его можно свести к трем этапам:

  1. Выбор источника данных
    Выберите источник, данные из которого вы хотите извлечь, например, веб-сайт.
  2. Сбор данных
    Отправьте «GET» запрос на сайт и проанализируйте полученный документ HTML с помощью языков программирования, таких как Python, PHP, R, Ruby и др.
  3. Хранение данных
    Сохраните данные в своей локальной базе данных или в облачном хранилище для будущего использования. Если вы опытный программист, который хочет извлечь данные, вышеуказанные шаги могут показаться вам простыми. Однако, если вы не программируете, есть короткий путь — использовать инструменты извлечения данных, например Octoparse. Инструменты data extraction, так же как и инструменты data mining, разработаны для того, чтобы сэкономить энергию и сделать обработку данных простой для всех. Эти инструменты не только экономичны, но и удобны для начинающих. Они позволяют пользователям собирать данные в течение нескольких минут, хранить их в облаке и экспортировать их во многие форматы: Excel, CSV, HTML, JSON или в базы данных на сайте через API.

Недостатки Data Extraction

  • Сбой сервера
    При извлечении данных в больших масштабах веб-сервер целевого сайта может быть перегружен, что может привести к поломке сервера. Это нанесет ущерб интересам владельца сайта.
  • Бан по IP
    Когда человек слишком часто собирает данные, веб-сайты могут заблокировать его IP-адрес. Ресурс может полностью запретить IP-адрес или ограничить доступ, сделав данные неполными. Чтобы извлекать данные и избегать блокировки, нужно делать это с умеренной скоростью и применять некоторые методы антиблокировки.
  • Проблемы с законом
    Извлечение данных из веба попадает в серую зону, когда дело касается законности. Крупные сайты, такие как Linkedin и Facebook, четко заявляют в своих условиях использования, что любое автоматическое извлечение данных запрещено. Между компаниями было много судебных исков из-за деятельности ботов.

Ключевые различия между Data Mining и Data Extraction

  1. Data mining также называется обнаружением знаний в базах данных, извлечением знаний, анализом данных/шаблонов, сбором информации. Data extraction используется взаимозаменяемо с извлечением веб-данных, сканированием веб-страниц, сбором данных и так далее.
  2. Исследования data mining в основном основаны на структурированных данных, тогда как при извлечении данных они обычно извлекаются из неструктурированных или плохо структурированных источников.
  3. Цель data mining — сделать данные более полезными для анализа. Data extraction — это сбор данных в одно место, где они могут быть сохранены или обработаны.
  4. Анализ при data mining основан на математических методах выявления закономерностей или тенденций. Data extraction базируется на языках программирования или инструментах извлечения данных для обхода источников.
  5. Цель data mining — найти факты, которые ранее не были известны или игнорировались, тогда как data extraction имеет дело с существующей информацией.
  6. Data mining сложнее и требует больших вложений в обучение людей. Data extraction при использовании подходящего инструмента может быть чрезвычайно простым и экономичным.

Мы помогаем начинающим не запутаться в Data. Специально для хабравчан мы сделали промокод HABR, дающий дополнительную скидку 10% к скидке указанной на баннере.

image

  • Обучение профессии Data Science с нуля
  • Онлайн-буткемп по Data Science
  • Обучение профессии Data Analyst с нуля
  • Онлайн-буткемп по Data Analytics
  • Курс «Python для веб-разработки»

Рекомендуемые статьи

  • Как стать Data Scientist без онлайн-курсов
  • 450 бесплатных курсов от Лиги Плюща
  • Как изучать Machine Learning 5 дней в неделю 9 месяцев подряд
  • Сколько зарабатывает аналитик данных: обзор зарплат и вакансий в России и за рубежом в 2020
  • Machine Learning и Computer Vision в добывающей промышленности

Алгоритмы Data Mining в сочетании с решениями класса Business Intelligence позволяют выделять самое важное из огромных массивов неструктурированной информации и делают их доступными для бизнес-аналитиков и топ-менеджеров. Насколько полезным может оказаться использование алгоритмов Data Mining в бизнесе, расскажем на конкретных примерах. 

  1. Введение
  2. Что такое алгоритмы Data Mining?
  3. Задачи бизнеса
    1. 3.1. Data Mining для банков
    2. 3.2. Data Mining для провайдеров
    3. 3.3. Data Mining для страховых компаний
  4. Зачем нужны решения класса Business Intelligence?
  5. Выводы

Введение

В современном мире с каждым годом объем информации увеличивается. На сегодняшний день существует масса теорий, когда произойдет информационный взрыв. Динамика последних лет показывает цикличный рост количества информации и увеличение данных в два раза в течение каждых двух лет. В текущих реалиях компании средних размеров начинают сталкиваться с проблемой обработки большого потока данных, которые к тому же представляют собой довольно разрозненную и неструктурированную информацию. Внедряя системы хранения данных, Hadoop-экосистемы, компании учатся хранить данные, но не получать из них выгоду. В этой статье мы хотели бы ответить на следующие актуальные вопросы: «Что такое алгоритмы Data Mining?», «Какие задачи бизнеса способны решать алгоритмы Data Mining?», «Зачем нужны решения класса Business Intelligence?»

Что такое алгоритмы Data Mining?

Основу алгоритмов Data Mining составляют методы из раздела машинного обучения, такие как решающие деревья, нейросети, временные ряды и линейные модели. Решающие деревья наиболее часто применяются при решении задач классификации, нейросети отвечают за задачи прогнозирования и распознавание образов, анализ временных рядов предназначен для выявления структуры временных рядов и для их прогнозирования, а линейные модели чаще всего применимы для задач регрессии. Также к алгоритмам Data Mining относятся статистические методы, такие как дескриптивный, дисперсионный, факторный анализ. Аналитические методы, использующиеся в технологии Data Mining, – это известные математические алгоритмы. Однако новизной является недавно появившаяся возможность их практического применения для решения конкретных бизнес-задач в современном мире в условиях постоянного роста информационных систем и объемов данных. На рисунке 1 представлена диаграмма, отображающая наиболее популярные и эффективные алгоритмы Data Mining.

Рисунок 1. Алгоритмы DataMining

Алгоритмы DataMining

Задачи бизнеса

Как уже было сказано, объем информации постоянно растет. Тем не менее, бизнес должен учиться взаимодействовать с современными объемами массивов данных, чтобы повышать свою эффективность и быть конкурентоспособным на рынке. В этом разделе мы расскажем о конкретных сценариях применения технологий Data Mining в некоторых сферах бизнеса.

Data Mining для банков

Одной из наиболее обширных областей бизнеса, где актуально применение алгоритмов Data Mining, является банковский сектор. Рассмотрим ряд практических сценариев:

  1. Удержание клиента / прогнозирование оттока клиентов. Классическая задача бинарной классификации, которая имеет следующую формулировку: «Имея обогащенные исторические данные о транзакциях клиента, необходимо спрогнозировать, покинет ли клиент компанию в ближайший месяц или нет». Можно проецировать задачу на некоторые разрезы: например, банк решил провести акцию по привлечению клиентов — 3 месяца льготного периода. В данной ситуации требуется спрогнозировать, продолжит ли клиент пользоваться услугами на общих условиях или покинет банк.
  2. Предсказание объема POS-транзакций в следующем месяце для каждого клиента. Задача регрессии, в которой требуется спрогнозировать объем транзакций через POS-терминал для каждого клиента. Решение этой задачи позволяет сегментировать клиентов и заранее планировать и корректировать персональные предложения и новые акции для клиентов.

Data Mining для провайдеров

Провайдеры связи и интернета также являются компаниями, в которых применение алгоритмов Data Mining актуально и эффективно. Ниже представлены некоторые из практических сценариев:

  1. Предсказание объема трафика и минут разговора в следующем месяце для клиента. Задача регрессии. Располагая информацией об активностях клиента (связь/интернет), можно предсказать объем трафика и минут разговора, а также количество SMS-сообщений в следующем месяце. Например, с помощью алгоритма Data Mining было выявлено, что клиент в следующем месяце превысит норму по своему тарифу. Эта информация позволит заранее предложить корректировки тарифа для клиента.
  2. Анализ «холодной» базы звонков для выявления потенциально возможных клиентов. Задача классификации. В зависимости от количества звонков, их продолжительности и других известных данных о клиенте возможно классифицировать клиентов на категории по эффективности «холодных» звонков. Полученная информация позволит более качественно осуществлять поиск клиентов, не тратя время на заведомо неуспешные варианты. 

Data Mining для страховых компаний

Рассмотрим возможность применения алгоритмов Data Mining в страховых компаниях:

  1. Прогнозирование проблем в определенных страховых сегментах. Задача классификации. На основании исторических данных об активностях клиента, таких как страхование автомобиля/жизни/дома, наличия страховых выплат возможно спрогнозировать и сегментировать аудиторию. В результате с помощью полученных профилей можно будет корректировать условия страхования и давать оценку «доверия» каждому клиенту.
  2. Анализ эффективности информирования клиентов. Задача классификации. С помощью исторических данных об использовании телефонной связи для техподдержки, использования смс-сервисов и онлайн-приложений, необходимо классифицировать клиентов на категории, склонные получать информацию через предпочтительный канал связи. Полученные результаты позволят адаптировать информирование и техподдержку клиентов, учитывая их предпочтения в способе получения информации, что качественно улучшит сервис.

Зачем нужны решения класса Business Intelligence?

В предыдущем разделе мы разобрались, насколько полезным может оказаться использование алгоритмов Data Mining в бизнесе. Однако на этапе применения моделей и получения результатов выходной информацией все равно являются «сухие» массивы данных. Прибавим к этому зачастую отсутствие технического бэкграунда у бизнес-аналитиков и топ-менеджеров, которые будут взаимодействовать с выходными данными после алгоритмов Data Mining. Для того чтобы полученную информацию использовать в полной мере, требуются инструменты, которые могут эти данные предобрабатывать и визуализировать. На этом этапе для решения вышеописанных проблем на помощь приходят системы класса решений Business Intelligence.

Business Intelligence — это инструменты по обработке, анализу и визуализации данных, которые, в конечном счете, представляют собой платформу для поддержки принятия управленческих решений. Структура баз данных в таких платформах ориентирована на быструю аналитику данных любых объемов. Хранение же данных происходит в уже предобработанном формате для дальнейшей аналитики. Такой подход дает возможность в реальном времени получать репрезентативные отчеты за любой временной срез. После внедрения решений BI машинные данные принимают совершенно иной вид — огромные массивы данных превращаются в наглядные линейные графики или круговые диаграммы. В таком формате с большими данными могут работать не только профильные инженеры, но и бизнес-аналитики и лица, отвечающие за принятие решений.

Системы бизнес-аналитики позволяют людям, отвечающим за развитие бизнеса, использовать полезные данные, полученные с помощью алгоритмов Data Mining, которые в исходном виде являются бесполезными для топ-менеджмента.

Выводы

Ни для кого не секрет, что технологии развиваются семимильными шагами, следствием чего является увеличение объемов информации. Компании среднего и крупного размера должны понимать это и адаптироваться к работе и взаимодействию с большими данными. Алгоритмы Data Mining в симбиозе с решениями класса Business Intelligence позволяют получать полезные знания из огромных массивов неструктурированной информации и делают их доступными для бизнес-аналитиков, топ-менеджеров и директоров.

Автор благодарит своего коллегу Никиту Андреянова за активное участие в создании статьи.

1. Определение

Технология Data mining – интеллектуальная обработка данных с использованием методов машинного обучения, математической статистики и теории баз данных. 

2. История создания и развития

Термин «data mining» появился в 1990-х годах, но как таковая обработка данных возникла в 18 веке, основываясь на теореме Байеса, чуть позже на регрессионном анализе. 

По мере того как количество данных росло, изобретались новые технологии в области информатики (нейронные сети, генетические алгоритмы, метод деревьев решений и т.д.), появлялась возможность хранения большого количества данных и увеличение скорости обработки информации компьютерами интерес к data mining стремительно рос и вскоре обработка данных стала считаться отдельной дисциплиной. Сейчас data mining включает в себя обработку не только текстовых данных (text data mining), но и графических и мультимедийных(web mining).

Устоявшегося перевода словосочетания «data mining» на русский язык нет, дословно это переводится как «добыча данных». Но чаще всего используют формулировку «интеллектуальная обработка данных».

В настоящее время data mining является частью большего понятия – Big data, которое помимо обработки данных включает в себя их сбор и хранение.

3. Технические характеристики

Фундаментально data mining основывается на 3-х понятиях:

  • Математическая статистика – является основой большинства технологий, используемых для data mining, например, кластерный анализ, регрессионный анализ, дискриминирующий анализ и пр.;

  • Искусственный интеллект – воспроизведение нейронной сети мышления человека в цифровом виде;

  • Машинное обучение – совокупность статистики и искусственного интеллекта, способствующая пониманию компьютерами данных, которые они обрабатывают для выбора наиболее подходящего метода или методов анализа.

В data mining используются следующие основные классы задач:·   

  • обнаружение отклонений – выявление данных, отличающихся по каким-либо параметрам из общей массы;

  • обучение ассоциациям – поиск взаимосвязей между событиями;

  • кластеризация – группирование наборов данных, без заранее известных шаблонов;

  • классификация – обобщение известного шаблона для применения к новым данным;

  • регрессия – поиск функции, отображающей набор данных с наименьшим отклонением;

  • подведение итогов – отображение в сжатом виде исходной информации, включая предоставление отчетов и визуализацию.

4. Кейсы применения

Сегодня data mining широко используется в бизнесе, науке, технике,
медицине, телекоммуникациях и т.п. Анализ данных по операциям с кредитными
картами, анализ данных ЖКХ, программы карт лояльности в магазинах с учетом
предпочтения покупателей, национальная безопасность (обнаружение вторжений), исследование
генома человека – всего лишь небольшая часть возможных вариантов применения data mining.

5. Узнайте больше о решениях в области data mining

Для того, чтобы ознакомиться с решениями в области data mining от ведущих российских поставщиков — свяжитесь с нами по номеру 8 (921) 781 24-49 — звонок, Telegram, Whatsapp или оставьте короткую заявку по ссылке.

Data mining.png

6. Полезные ссылки

Источники:

  1. http://www.intuit.ru/studies/courses/6/6/info 
  2. https://www.matillion.com/insights/5-real-life-applications-of-data-mining-and-business-intelligence…
  3. http://opensourceforu.com/2017/03/top-10-open-source-data-mining-tools/

Понравилась статья? Поделить с друзьями:

Другие крутые статьи на нашем сайте:

  • Доверенность на отгрузку товара через транспортную компанию деловые линии
  • Доверенность на получение товара в транспортной компании физическим лицом
  • Доверенность на транспортную компанию на забор груза у поставщика образец
  • Доверенность образец на получение товара на транспортную компанию образец
  • Доверять страховым компаниям нельзя что все они рано или поздно разорятся

  • 0 0 голоса
    Рейтинг статьи
    Подписаться
    Уведомить о
    guest

    0 комментариев
    Старые
    Новые Популярные
    Межтекстовые Отзывы
    Посмотреть все комментарии