Big data в медицине: прогноз заболеваний и сбор данных о пациентах
В медицинской сфере большие данные в перспективе можно использовать для диагностики и лечения, большинство интересных проектов пока находятся на стадии разработки или тестирования, но есть и уже реализованные.
Прогнозирование заболеваний. Если собрать достаточно данных о пациентах, можно делать предположения о том, чем они больны сейчас или могут заболеть в ближайшее время.
Так, в детской больнице Торонто внедрили проект Artemis. Больничная система собирает и анализирует данные по новорожденным — она каждую секунду анализирует 1260 показателей. На основе этих данных система может предсказать нестабильное состояние ребенка, чтобы ему смогли вовремя помочь.
Ведение базы пациентов. У многих пациентов длинная история болезни, которая часто хранится в разных больницах и у разных врачей. Чтобы увидеть полную картину, нужно собрать данные в единую базу. С помощью технологий big data можно не только организовать такую базу, но и настроить в ней удобный поиск и аналитику.
Например, в Массачусетской больнице общего профиля создали систему QPID, которая собирает электронные данные о пациентах и быстро предоставляет нужную информацию: и пациентам, и врачам. К примеру, пациент может посмотреть информацию по своей болезни: анализы, диагнозы, снимки, назначенные лекарства. А врач может увидеть информацию о хронических заболеваниях и прошлом лечении.
Big data в образовании: помощь в выборе курсов и предотвращение отчислений
Помощь в выборе курсов. В образовании проекты big data помогают студентам с профориентацией: анализируют их способности и помогают выбрать направление обучения и будущую профессию.
Так, в американском университете Остин Пии разработали рекомендательную систему подбора курсов. Она собирает данные об успеваемости, находит «похожих» студентов, и на основе этого подбирает курсы для конкретного человека. Предсказания устраивают студентов в 90% случаев.
Предотвращение отчислений. В США из университетов отчисляются 400 тысяч студентов в год. Чтобы решить эту проблему, в Университете Содружества Виргинии проанализировали данные об отчислениях и построили алгоритм, который выявляет студентов в группе риска.
Система оповещает, когда студент становится проблемным. И тогда с ним работают индивидуально, например, предлагают перевод на другой курс или помощь репетитора. По итогам семестра число студентов, закончивших курс, увеличилось на 16%.
Big data в маркетинге: повышение прибыли и привлечение клиентов
Создание коммерчески успешных продуктов. Большие данные о поведении клиентов помогут предсказывать спрос и позволяют до вывода продукта на рынок понять, будет ли он успешным.
Например, такие технологии использует Netflix. Этой платформой для просмотра фильмов и сериалов пользуются более 150 миллионов человек. В компании анализируют поведение клиентов: какие сериалы они смотрят, какие бросают, какие моменты перематывают. Это помогает лучше понимать психологию зрителей и грамотно рекомендовать им новые сериалы.
Еще Netflix анализирует поведение зрителей, чтобы снимать успешные сериалы и эффективно их продвигать. Например, перед созданием «Карточного домика» в компании проанализировали 30 миллионов сценариев, 4 миллиона зрительских оценок и 3 миллиона поисковых запросов.
Таргетированная реклама и снижение стоимости привлечения клиента. Big data помогает лучше настраивать целевые аудитории и показывать таргетированную рекламу более точечно.
Например, ритейлер Ozon использует большие данные для таргетированной рекламы и рекомендации товаров. Для этого на сайте и в мобильном приложении собирают логи пользователей — фиксируют всё, что они просмотрели, пролистали, на что кликнули. На основе данных составляют прогноз: планирует ли пользователь покупку, товар какой категории, скорее всего, его заинтересует. Релевантные товары показывают в таргетированной рекламе.
Также в Ozon тестировали полки рекомендаций для различных товаров. Пользователей разделили на две группы: для первой рекомендации вручную составили эксперты, для второй — собрали автоматически на основе данных логов. В итоге во второй группе продажи оказались в 10 раз ваше.
В компании Nestle Purina начали использовать платформу для сбора данных о клиентах. Они проанализировали поведение покупателей и выделили в отдельную категорию людей, которые недавно искали в интернете щенков. С помощью таргетированной рекламы в Facebook этим клиентам показывали товары для щенков. Благодаря такому подходу конверсия выросла на 300%, а стоимость привлечения клиента снизилась на 90%.
- Авторы
- Резюме
- Файлы
- Ключевые слова
- Литература
Федорова Л.А.
1
Ху Гуйюй
1
Хуан Сяоянь
1
Землякова С.А.
1
1 ФГАОУ ВО «Российский университет дружбы народов»
В настоящее время применение Big Data или технологий больших данных в деятельности экономических субъектов стало особо актуальной темой в управлении бизнесом. Сегодня существует большое количество разнородной информации, источников ее появления, инструментов систематизации, способов хранения, мониторинга, обработки и анализа, и в сложившихся условиях важно разобраться зачем современным предприятиям нужны технологии больших данных, как их применение повлияет на уровень конкурентоспособности предприятий. В настоящем исследовании нами выявлены преимущества применения технологий Big Data, проанализированы основные проблемы применения технологий сбора, обработки, хранения и оценки их влияния на процесс управления инновациями и экономическую эффективность предприятий, в соответствии с выявленными проблемами авторами предложено несколько способов дальнейшего развития указанных технологий, а также представлен обзор основных ограничений применения технологии больших данных на современных предприятиях.
большие данные
big data
технологии
принятие решений
управление
методы продвижения
преимущества
ограничения
1. Cadogan G. (1987). Unsteady date of a big bang. Nature, 328(6130), 473–473. DOI: 10.1038/328473a0.
2. Wang C. (2015). SODA: Software Defined FPGA based Accelerators for Big Data. Design, Automation & Test in Europe Conference & Exhibition (DATE), 22-26. DOI: 10.7873/date.2015.0536.
3. Duan W. (2019). Psychological contract differences for different groups of employees: big date analysis from China. Information Systems and e-Business Management, 10-15. DOI: 10.1007/s10257-019-00403-0.
4. Holmes D.E. (2017). Big data, big business. Big Data: A Very Short Introduction, 75–89. DOI: 10.1093/actrade/9780198779575.003.0006.
5. Zhang L. (2015). Analysis of the influencing factors of enterprise supply chain management [J]. Journal of Beijing Institute of Industrial Technology, 15-21.
6. Wu G. (2017). On the logistics lean management of tobacco enterprises. Logistics Engineering and Management,50-65.
7. Xie X. (2015). On the application of big data and cloud computing technology in enterprise financial management. Financial Economy: Second Half of the Month, 204-205.
Введение
Большие данные, представляя собой огромные объемы разнородной быстро поступающей цифровой информации, обработка которой традиционными способами не представляется возможной, тем не менее, позволяют определить закономерности между событиями, которые не могут быть найдены человеком. При правильно построенном запросе можно получить отличный результат для оптимизации любой сферы деятельности. Это во многом является причиной того, что большие данные за последнее десятилетие стали наиболее ценным экономическим ресурсом, что можно отследить по изменению списка самых дорогих компаний мира по рыночной капитализации. Сегодня информация является еще одним важным национальным стратегическим ресурсом в дополнение к трем основным ресурсам: земле, воздуху и воде. Страны по всему миру постепенно осознают наступление эры больших данных и создают индустрию Big Data. Правительство РФ также, учитывая данный тренд, одним из ключевых направлений развития выделяет направление работы и использования больших данных, о чем свидетельствует Национальная программа «Цифровая экономика» Российской Федерации, где большие данные характеризуются как одна из сквозных прорывных цифровых технологий. Развитие цифровой экономики в Российской Федерации является стратегически значимой задачей и соответствует целям определенным Указом Президента Российской Федерации от 07.05.2018 г. № 204 в части решения задач и достижения целей по направлению «Цифровая экономика». Значимость больших данных для поддержания конкурентоспособности предприятий не ограничена направлениями генерации, хранения, управления, анализа и их использования, т.к. особую важность здесь может представлять инструменты обработки и классификации, с целью формирования представления о будущих тенденциях принятия управленческих решений.
Цель исследования выявить преимущества и ограничения в деятельности предприятий при использовании технологий Big Data, сделав особый акцент на оценку степени их влияния на управление инновациями и экономическую эффективность рассматриваемых предприятий.
Материал и методы исследования
Рост индустрии больших данных ускорил процесс модернизации промышленности и структурных преобразований в экономике. С наступлением эры больших данных некоторые отрасли постепенно переключили свое внимание на модель развития, которая объединяет традиционные отрасли и отрасли больших данных [1]. В традиционных отраслях использование методов обработки больших данных для изучения новых потребностей, а также исследований и разработок новых материалов может как сократить расходы на НИОКР, так и повысить точность исследований и разработок новых продуктов.
Не зависимо от отраслевой специфики у каждой компании существует два направления для внедрения применения технологий основанных на анализе больших данных, это внутреннее и внешнее взаимодействие.
В рамках исследований внешнего взаимодействия интерес вызывает накопленный клиентский опыт, а именно, понимание клиентов через анализ социальных сетей, их социальный статус, возраст, предпочтения и т.п., информацию о регионах, рыночных сегментах, удовлетворенности товаром или услугой, способах продвижения, а также способах контакта и т.д. Также к внешним взаимодействиям можно отнести все что связано с бизнес-моделью и структурой бизнеса и ее взаимодействием с внешним миром, например, поставщиками, партнерами и каналами сбыта.
Исследование внутреннего взаимодействия направлено на изучение и оптимизацию операционных процессов в компании, целью которого является повышение производительности труда не только оборудования, но и сотрудников, а также рациональное использование ресурсов. Стоит отметить, что основное конкурентное преимущество предприятия смогут получить, не столько за счет сбора данных, сколько за счет возможности оперативного извлечения полезной информации из общего огромного объема сгенерированных больших данных.
Рассмотрим преимущества применения больших данных в управлении предприятием:
- Во-первых, это помогает повысить эффективность принятия решений. Платформа больших данных имеет функцию сбора ресурсов данных в режиме реального времени и может извлекать ключевую информацию на основе быстрой обработки и анализа массивных данных, которые могут лучше удовлетворять насущные потребности предприятий.
- Во-вторых, продвигать все более разнообразные инструменты принятия решений.
- В-третьих, это повышает убедительность и качества принятых решений, т.к. они опираются большую статистическую базы исходной информации, что существенно укрепляет доверие к схемам принятия решений.
- В-четвертых, технологии больших данных также служат ориентиром для операционной стратегии компании [2].
Оценивая направления влияния технологий Big Data на процесс принятия управленческих решений, следует сделать акцент на следующих:
1) Влияние на среду принятия управленческих решений. Среда больших данных, основанная на облачных вычислениях, оказывает большое влияние на процесс сбора информации для принятия решений на предприятии, принятия планов, контроля их исполнения и оценки планов, что привело к значительным изменениям в среде принятия решений [3]. В то же время решения по управлению предприятием с точки зрения больших данных демонстрируют четкие управляемые данными функции, то есть развитие бизнеса на основе данных, обеспечивающие активное и надежное руководство для улучшения бизнеса и инноваций.
2) Воздействие на участников управленческого решения. Продвижение и применение больших данных полностью подрывает традиционную эмпирическую модель принятия решений, и основная часть процесса принятия решений расширена от высшего руководства до непосредственных сотрудников [4]. Участники принятия решений, могут гибко использовать такие технологии, как машинное обучение, статистический анализ и распределенную обработку, для извлечения ценных данных из массивных данных.
3) Влияние на процесс принятия управленческих решений организацией. Участие всех сотрудников в процессе принятия решений приводит к перераспределению полномочий предприятия по принятию решений, и изменение полномочий по принятию решений в конечном итоге повлияет на организационную структуру корпоративного управления и культуру принятия решений. В среде принятия решений, связанных с большими данными, основная проблема, которую должна решить организационная структура, заключается в том, как распределить полномочия по принятию решений и выбрать правильный метод принятия решений.
4) Влияние на технологии принятия управленческих решений. В контексте больших данных данные в основном представлены в виде потоков данных. Необходимо использовать технологию интеллектуального анализа, чтобы изучить потенциальную связь между фрагментами данных и получить реальную информацию. Поэтому предприятиям необходимо ускорить технологические инновации и использовать новейшие технологии для обслуживания процесса принятия управленческих решений.
Говоря о влиянии больших данных на экономическую эффективность предприятия, не вызывает сомнения, что во многих областях применение технологий Big Data может способствовать росту производительности, созданию дополнительных ценностей и расширению потоков доходов. Поскольку большие данные имеют потенциал для повышения эффективности и результативности, компании могут не только производить больше продукции с меньшими затратами, но и увеличивать добавленную стоимость продуктов и услуг.
Однако при исследовании степени влияния больших данных на уровень экономической эффективности предприятия важно, чтобы управленческие решения были максимально направлены на достижение нескольких обязательных ориентиров. Во-первых, технологии Big Data – это способ понять клиента, изучив все его предпочтения. Кроме того, сегодняшние клиенты сильно отличаются от прежних. Рост больших данных позволяет им исследовать продукты, понять объем потребления и исследовать их потребительские преимущества, прежде чем покупать их. Используя большие данные, взаимодействия между производителями и потребителями возможно персонализировать, тем самым производя управляемые потребителем продукты и предоставляя ориентированные на клиента услуги. И на основе данных можно найти социальные и бизнес-формы, подходящие для среды разработки предприятия, использовать эти данные для анализа и понимания отношения пользователей и клиентов к продуктам, а также точно обнаруживать и интерпретировать многие новые потребности и поведенческие характеристики пользователей.
Во-вторых, с помощью технологий больших данных компании могут собирать и анализировать добычу ресурсов, конкретные условия и распределение резервов, необходимые в режиме работы предприятия, чтобы сформировать карту распределения ресурсов на уровне предприятия, подобно «электронной карте». Различными преимуществами будут «точка-точка» данных и графическое отображение, так что руководители предприятий смогут более интуитивно просматривать свои собственные предприятия и лучше использовать различные существующие и потенциальные ресурсы [5]. Без больших данных будет трудно найти корреляцию между поведением, которое когда-то считалось совершенно не связанным.
В-третьих, технологии Big Data могут быть использованы для планирования технологий производства. Большие данные не только изменяют способ объединения данных, но также влияют на производство и предоставление корпоративных продуктов и услуг. Используя данные для планирования производственной архитектуры и процессов, они могут не только помочь им обнаружить методы комбинирования значений, которые не известны в традиционных данных, но также предоставить соответствующие, индивидуальные решения для детальных проблем объединения для предприятий. Функция виртуализации больших данных значительно снижает бизнес-риски предприятия, позволяет предприятию давать соответствующие детерминированные ответы до запуска производства или обслуживания, а также позволяет ориентироваться на производство и обслуживание.
В-четвертых, благодаря корреляционному анализу больших данных, в соответствии с пересечением и совпадением данных различных рынков брендов, направление метода работы компании станет интуитивно понятным и легко идентифицируемым, а также будет более уверенным в продвижении бренда, выборе местоположения и стратегическом подходе. планирование. Кроме того, технологии больших данных может способствовать интеллектуальной деятельности предприятий. Интеллектуальное управление операциями предприятия в основном нацелено на динамическую связь между ним и пользователями и предоставляет пользователям более динамичные и приемлемые по качеству услуги на основе отзывов пользователей. С помощью интернет-каналов современные предприятия могут лучше общаться с пользователями, пользователи могут использовать Интернет, чтобы использовать больше ресурсов оборудования и получать более качественные услуги благодаря своевременной обратной связи с их опытом. С одной стороны, это гарантирует эффективность управления работой предприятия; с другой стороны, он также предоставляет мощную гарантию для управления пользовательским опытом и прогнозирования потребления пользователем.
В-пятых, посредством расчета больших данных, данных социальной информации, данных о взаимодействии с клиентами предприятие может провести горизонтальный дизайн и сегментацию информации о бренде. Программное обеспечение для бизнес-аналитики Инструменты Yixin BI и опыт розничной торговли также могут помочь компаниям лучше понять процесс увеличения продаж и устранения ненужных затрат.
В-шестых, большие данные создают дифференцированные преимущества, которые в основном отражаются на стратегическом уровне бизнес-модели. Большие данные могут помочь компаниям улучшить свои стратегические возможности принятия решений. Благодаря анализу данных компании могут быстро сформулировать стратегические планы, которые соответствуют рынку. Благодаря оптимизации процессов для повышения экономической эффективности большие данные могут позволить компаниям получать информацию о рынке и клиентах более интуитивно и быстро, а исследования рынка и исследования спроса клиентов – более быстрые и эффективные.
Однако говоря о неоспоримых преимуществах применения технологий Big Data на современных предприятиях, не стоит забывать об существующих ограничениях применения этих технологий в современных условиях. Сегодня все отрасли и отрасли в разной степени подвергаются воздействию больших данных и используют их. Однако многие предприятия или организации, которые внедряют большие данные, не имеют успеха. Существует еще много ограничений и проблем в применении больших данных внутри предприятия. Согласно исследованию, есть общие проблемы с неудачной реализацией больших данных. Наиболее типичными и серьезными проблемами являются следующие.
Проблема обработки данных в компании. Сегодня большинство компаний могут обрабатывать только структурированные данные, а структурированные данные составляют только 15 % от общего объема данных, а технологии обработки более 85 % полуструктурированных и неструктурированных данных недостаточно. Зрелые, улучшенные технологии обработки и анализа данных являются сложной задачей для предприятий. Вновь генерируемые данные в мире увеличиваются на 40 % ежегодно. Общий объем глобальной информации может удваиваться каждые два года. Увеличение коэффициента использования составляет менее 5 %, 90 % существующего цифрового контента неструктурированы.
Форма больших данных имеет важное значение при определении инструментов для обработки и принятия решения относительно визуализации облика решения. Более того, большая часть информации о компании хранится в нескольких базах данных, при этом данными между различными бизнес-модулями трудно обмениваться и коррелировать. Достижение корреляции и интеграции информации о данных между бизнес-платформами, также является серьезной задачей, стоящей перед предприятиями. Бизнес-аналитика является основной технологией в эпоху больших данных, однако это направление не получило широкого распространения и используется только в отраслях, тесно связанных с ИТ (финансы, телекоммуникации, сети, электронная коммерция и т.д.).
Кроме того, в эпоху больших данных компании сталкиваются с огромными объемами данных, защита которых становится чрезвычайно сложной. Эти данные включают в себя не только коммерческую тайну предприятия, но и частную конфиденциальность. Некоторые недобросовестные «хакеры» используют его, чтобы нанести ущерб интересам предприятий. Предприятия занимаются вопросами информационной безопасности, что является еще одной серьезной проблемой.
Также к ограничению, связанному с проблемами обработки данных внутри предприятия можно отнести достаточно высокую стоимость решений, которые при этом нередко сопровождаются отсутствием быстрых результатов. Предприятия, особенно в масштабах среднего бизнеса не придерживаются стратегии развития рынка и ограничивают бюджетные расходы на информационных технологии. Инструменты обработки больших данных требуют больших вычислительных мощностей и дороги в закупке, установке и использовании. Владельцы бизнеса хотят видеть возврат инвестиций в короткие сроки, а такие системы как большие данные и их применение это долгосрочный процесс и сказать точно, что от применения таких технологий можно получить быстрый ожидаемый результат нельзя. Применение технологий больших данных относится к инновационным проектам, а как известно, они сложны с точки зрения оценки эффективности вложений и гарантированного результата, поэтому далеко не все компании стремятся внедрять их в свои операционные процессы. Однако если говорить, о компаниях близких к государственному сектору, то там дела обстоят проще, ввиду общей направленности государства на развитие таких технологий и распределение бюджетов там строиться на несколько ином понимании процесса.
Проблема формирования хранилища данных внутри предприятия. Наиболее важной задачей для предприятий при запуске технологий больших данных является фрагментация данных. На многих предприятиях, особенно на крупных, данные часто размещены по разным отделам, соответственно хранятся в разных хранилищах, а технология обработки данных в разных отделах также может быть разной, что приводит к неспособности компании получить доступ к собственным данным. Если предприятия не могут своевременно воспользоваться этими данными, их ценность теряется.
Проблема «неповоротливости» систем управления предприятиями. В настоящее время только некоторые высокотехнологичные предприятия придают большое значение применению больших данных при принятии решений. Большинство руководителей предприятий не осознают ценность больших данных. Некоторые руководители предприятий считают, что большие данные – это просто ввод и сопоставление данных, и их использование не может принести прямой выгоды предприятию. Однако известно, что чем больше данных у предприятия и чем эффективнее они интегрируют между собой, тем конкурентоспособней предприятие.
Хотя некоторые компании собирают и анализируют данные, их менеджеры по-прежнему следуют традиционной модели управления и слишком следят за причинно-следственными связями. В эпоху больших данных мы не преследуем причинности, а коррелируем. В массивных данных, пока факторы, которые имеют большее отношение к улучшению корпоративных прибылей, выкопаны, это может обеспечить стратегическую поддержку для управления корпоративными решениями в определенной степени. Для этого необходимо, чтобы руководители предприятий обладали глубоким пониманием, что создает новую проблему для стиля мышления лиц, принимающих управленческие решения.
Проблема учета влияния больших данных на качество и своевременность принятия управленческих решений предприятия. Принятие управленческих решений на предприятии становится все более сложным, затруднительно анализировать ценность информации, связанной с принятием решений, что в определенной степени определяет уровень развития системных компетенций лиц, принимающих решения. При этом следует отметить, что, к примеру, на российском рынке до сих пор сохраняется дефицит специалистов, нет сформированного профессионального сообщества, которое бы выполняло функцию по информированию рынка изнутри. Поэтому многие компании готовят себе профессиональные кадры самостоятельно, однако этих мер все равно недостаточно. Следует учитывать, что скорость принятия корпоративных решений не так быстра, как рыночные изменения. Кроме того, предприятия сталкиваются с проблемой диверсификации субъектов принятия решений. При этом предприятиям необходимо создать иерархическую систему управления решениями для повышения научного уровня управления.
Проблема обеспечения хранения данных. Сегодня большие данные – это информация об исследуемых явлениях, полученная из разных источников, разные стандарты, большие объемы данных, множественные структурные формы и требования в реальном времени [6]. Эти проблемы, несомненно, увеличивают сложность сбора и интеграции данных, особенно в части предварительной обработки и фильтрации данных. Если фильтрация слишком тонкая, легко отфильтровать полезную информацию, а степень детализации скрининга слишком грубая, и желаемый эффект анализа не может быть достигнут. Проблемы в вопросах обеспечения безопасности и конфиденциальности данных возникают ввиду отсутствия стопроцентного доверия со стороны заказчика в отношении технологий больших данных в сфере конфиденциальности данных и персональной информации. В целом оно подогревается отсутствием полноценного нормативно-правового регулирования в области больших данных.
Результаты исследования и их обсуждение
Формируя направления совершенствования процессов использования технологий больших данных, следует сделать акцент на следующих:
Во-первых, необходимо повысить безопасность сбора, использования и хранения больших данных. Вопрос защиты конфиденциальности данных, вызванный управлением предприятием, становится все более и более важным. Отчет Verizon по исследованию утечки данных за 2015 год показывает, что более половины из 500 крупнейших компаний пострадали от «хакерских» атак [7]. В ответ на эту проблему предприятия должны создавать хранилища больших данных, осуществлять мониторинг информационной безопасности в режиме реального времени и оптимизировать процедуры принятия решений. Национальное правительство должно также совершенствовать нормативно-правовую основу существования Big Data и ужесточить наказание за неправомерные действия с ними.
Во-вторых, необходимо развивать профессиональные таланты. В эпоху больших данных проблема нехватки талантов постепенно становится заметной. В академических исследованиях McAfeeA и другие отмечали, что талант является важным фактором, влияющим на решения корпоративного управления. В связи с этим предприятия могут выбирать высококвалифицированных специалистов для непрерывного образования посредством внутреннего обучения; правительственные ведомства должны поощрять колледжи сосредоточиться на обучении талантов в этой области; колледжи и университеты должны также изменить традиционную модель образования и сосредоточиться на инновациях и практических связях в системе учебных программ, чтобы обеспечить достаточное количество квалифицированных специалистов.
В-третьих, необходимо унифицировать и систематизировать модель данных. К примеру, все данные хранятся в одной базе данных. Анализ больших данных сильно отличается от традиционного анализа данных. Платформы больших данных и их анализ будут использоваться для оцифровки фрагментированного рынка, а затем данные клиентов будут быстро формировать данные решений, чтобы компании могли своевременно отслеживать изменения в рыночной среде и быстро реагировать на них. Создание единой модели данных может помочь компаниям интегрировать различные предприятия и сформировать действенный круг операций.
В-четвертых, необходимо создать открытую систему обмена данными. Будущие компании с большими данными должны иметь общую миссию. Данные предприятия часто ограничены, и часто требуется, чтобы кто-то делился ими, чтобы обогатить свою форму данных. Это требует от предприятий не только непредвзятости, но и способности обмениваться данными.
В-пятых, необходимо рассматривать большие данные как стратегический ресурс. Данные похожи на нефть, и это неисчерпаемое масло, помещаемое в рог изобилия, если оно хранится. Предприятия со стратегическим видением могут судить о ценности данных в будущем и готовы потратить некоторые затраты на хранение некоторых потенциально ценных данных.
В-шестых, необходимо разработать и внедрить на государственном уровне систему поддержки и поощрения применения больших данных. Технология обработки данных всегда рассматривалась как важный фактор, влияющий на широкое использование больших данных. Без стабильной и безопасной технологии обработки данных она не сможет использовать огромную коммерческую ценность, которую содержит. Поэтому стоит обратить внимание на разработку соответствующих технологий для анализа и обработки данных. Правительство должно активно поощрять смежные технологии, уделять внимание исследованиям и разработкам технологий обработки данных в университетах, на предприятиях и в исследовательских организациях.
Заключение
Технологические изменения, происходящие в рамках общемировой цифровой трансформации, происходящие на уровне мирового масштаба, привносят в деятельность компаний и жизнь людей огромное количество возможностей. Использование больших данных это одна из составляющих цифровой трансформации. Мир меняется и уже никогда не будет прежним. Вопрос лишь во времени, насколько быстро устареет процесс или бизнес-модель, в которой компания существует. В ходе данного процесса, границы отраслей стираются и то, что ранее являлось преимуществом компании может вообще потерять значимость, а вместо существующих возникнут совершенно новые направления, которые ранее были незамеченными, именно эти теневые зоны роста компания может выявить с помощью применения технологий использования больших данных.
Информация – это ключевое конкурентное преимущество в современных условиях развития мировой экономики. Феномен Big Data характеризуется существенным увеличением количества информации, ее разнородностью и не структурированностью, а также ростом скорости ее появления и возрастающей потребностью ее обработки и использования.
Технологии Big Data – это и вызов, и возможность. Полнота управления данными, возможности многоканальной интеграции данных и возможности анализа данных станут способностью предприятий к достижению устойчивого развития. Понимание того, как большие данные увеличивают конкурентное преимущество компании и трансформирует бизнес-модели, является незаменимым процессом для реализации ценности больших данных.
Статья написана при финансовой поддержке в рамках проекта № 201369-0-000 «Оценка экономической эффективности применения технологий анализа больших данных (Big Data) на предприятиях с государственным участием», Российский университет дружбы народов».
Библиографическая ссылка
Федорова Л.А., Ху Гуйюй, Хуан Сяоянь, Землякова С.А. ПРИМЕНЕНИЕ ТЕХНОЛОГИЙ BIG DATA В ДЕЯТЕЛЬНОСТИ СОВРЕМЕННЫХ ПРЕДПРИЯТИЙ // Вестник Алтайской академии экономики и права. – 2020. – № 9-2.
– С. 322-329;
URL: https://vaael.ru/ru/article/view?id=1337 (дата обращения: 22.03.2023).
Технологии Big Data: как использовать Большие данные в маркетинге
Big Data — это сложные и объёмные наборы разной информации. Они представлены в «сыром виде» и требуют предварительной обработки, чтобы получить из них ценные сведения, которые могут принести пользу предприятиям и организациям.
В этой статье вы узнаете:
Что такое Big Data?
Термин Big Data появился в 2008 году. Впервые его употребил редактор журнала Nature — Клиффорд Линч. Он рассказывал про взрывной рост объемов мировой информации и отмечал, что освоить их помогут новые инструменты и более развитые технологии.
Чтобы понять Big Data, необходимо определиться с понятием и его функцией в маркетинге. В наши дни пользователи генерируют данные регулярно: когда они открывают какое-либо приложение, ищут информацию в Google, совершают покупки в интернете или просто путешествуют со смартфоном в кармане. В результате возникают огромные массивы ценной информации, которую компании собирают, анализируют и визуализируют.
Big Data буквально переводится на русский язык как «Большие данные». Этим термином определяют массивы информации, которые невозможно обработать или проанализировать при помощи традиционных методов с использованием человеческого труда и настольных компьютеров. Особенность Big Data еще и в том, что массив данных со временем продолжает экспоненциально расти, поэтому для оперативного анализа собранных материалов необходимы вычислительные мощности суперкомпьютеров. Соответственно, для обработки Big Data необходимы экономичные, инновационные методы обработки информации и предоставления выводов.
Но зачем прилагать столько усилий для систематизации и анализа Big Data? Аналитику Больших данных используют, чтобы понять привлекательность товаров и услуг, спрогнозировать спрос на рынке и реакцию на рекламную кампанию. Работа с Big Data помогает фирмам привлечь больше потенциальных клиентов и увеличить доходы, использовать ресурсы рационально и строить грамотную бизнес-стратегию.
А это значит, что аналитики, умеющие извлекать полезную информацию из больших данных, сейчас нарасхват. Научиться этому можно, даже если вы никогда не работали в IT. Например, «Факультет аналитики Big Data» от GeekBrains предлагает удобные онлайн-занятия и десяток кейсов в портфолио. Кстати, первые шесть месяцев обучения бесплатно. Успешно прошедших курс обязательно трудоустроят – это прописано в договоре.
Разница подходов
Функции и задачи больших данных
Анализ Больших данных начинается с их сбора. Информацию получают отовсюду: с наших смартфонов, кредитных карт, программных приложений, автомобилей. Веб-сайты способны передавать огромные объемы данных. Из-за разных форматов и путей возникновения Big Data отличаются рядом характеристик:
Volume. Огромные «объемы» данных, которые организации получают из бизнес-транзакций, интеллектуальных (IoT) устройств, промышленного оборудования, социальных сетей и других источников, нужно где-то хранить. В прошлом это было проблемой, но развитие систем хранения информации облегчило ситуацию и сделало информацию доступнее.
Velocity. Чаще всего этот пункт относится к скорости прироста, с которой данные поступают в реальном времени. В более широком понимании характеристика объясняет необходимость высокоскоростной обработки из-за темпов изменения и всплесков активности.
Variety. Разнообразие больших данных проявляется в их форматах: структурированные цифры из клиентских баз, неструктурированные текстовые, видео- и аудиофайлы, а также полуструктурированная информация из нескольких источников. Если раньше данные можно было собирать только из электронных таблиц, то сегодня данные поступают в разном виде: от электронных писем до голосовых сообщений.
В России под Big Data подразумевают также технологии обработки, а в мире — лишь сам объект исследования.
Big Data характеризует большой объем структурированных и неструктурированных данных, которые ежеминутно образуется в цифровой среде. IBM утверждает, что в мире предприятия ежедневно генерируют почти 2,5 квинтиллиона байтов данных! А 90% глобальных данных получено только за последние 2 года.
Но важен не объем информации, а возможности, которые даёт её анализ. Одно из основных преимуществ Big Data — предиктивный анализ. Инструменты аналитики Больших данных прогнозируют результаты стратегических решений, что оптимизирует операционную эффективность и снижает риски компании.
Big Data объединяют релевантную и точную информацию из нескольких источников, чтобы наиболее точно описать ситуацию на рынке. Анализируя информацию из социальных сетей и поисковых запросов, компании оптимизируют стратегии цифрового маркетинга и опыт потребителей. Например, сведения о рекламных акциях всех конкурентов, позволяют руководство фирмы предложить более выгодный «персональный» подход клиенту.
Компании, правительственные учреждения, поставщики медицинских услуг, финансовые и академические учреждения — все используют возможности Больших данных для улучшения деловых перспектив и качества обслуживания клиентов. Хотя исследования показывают, что еще почти 43% коммерческих организаций до сих пор не обладают необходимыми инструментами для фильтрации нерелевантных данных, теряя потенциальную прибыль. Поэтому сегодня на рынке наметился курс на модернизацию бизнес-процессов, освоение новых технологий и внедрение Big Data.
Блокчейн и Биг Дата: потенциал объединенной технологии
Блокчейн — это децентрализованная система транзакций, где каждую транзакцию проверяет каждый элемент сети. Такая система гарантирует неизменность и невозможность манипуляции данными.
Криптовалюты и другие технологии блокчейн становятся все более популярными. Только в Японии почти 50 банков вступили в партнерские отношения с Ripple, сетью блокчейнов с открытым исходным кодом и с третьей по величине рыночной капитализацией криптовалютой в мире. Для банков сотрудничество обеспечит мгновенные безрисковые транзакции по низкой цене. Интерес к подобным операциям проявляют финансовые структуры в других странах, что означает дальнейшее развитие новых технологий в банковской сфере.
Популярность технологии предвещает рост объема транзакционных данных, записанных в регистрах, в геометрической прогрессии. К 2030 году информация, содержащаяся в реестре блокчейн, составит до 20% мирового рынка Больших данных и будет генерировать до 100 миллиардов долларов годового дохода. Хранение этих «озер данных» у традиционных поставщиков облачных хранилищ (AWS или Azure) обойдется в целое состояние. Своевременно на рынке появились поставщики децентрализованных хранилищ данных, предлагающие экономию затрат до 90%. Их работа облегчает внедрение блокчейн по всему миру и гарантирует развитие сферы.
Если большие данные — это количество, то блокчейн — это качество.
Использование блокчейна открывает новый уровень аналитики Big Data. Такая информация структурирована, полноценна и безопасна, так как ее невозможно подделать из-за сетевой архитектуры. Анализируя ее, алгоритмы смогут проверять каждую транзакцию в режиме реального времени, что практически уничтожит мошенничество в цифровой сфере. Вместо анализа записей о махинациях, которые уже имели место, банки могут мгновенно выявлять рискованные или мошеннические действия и предотвращать их.
Технология блокчейн применима не только к финансовому сектору. Неизменяемые записи, контрольные журналы и уверенность в происхождении данных — всё это применимо в любых бизнес-сферах. Уже сейчас компании внедряют блокчейн при торговле продуктами питания, а с другой стороны — изучают перспективы технологии при освоении космоса. Ожидается, что будущие решения в сфере Big Data и блокчейн радикально изменят способы ведения бизнеса.
Машинное обучение
Сегодня во многих отраслях внедряют машинное обучение для автоматизации бизнес-процессов и модернизации экономической сферы. Концепция предусматривает обучение и управление искусственным интеллектом (ИИ) с помощью специальных алгоритмов. Они учат систему на основе открытых данных или полученного опыта. Со временем такое приложение способно прогнозировать развитие событий без явного программирования человеком и часов потраченных на написание кода.
Например, с помощью машинного обучения можно создать алгоритм технического анализа акций и предполагаемых цен на них. Используя регрессионный и прогнозный анализы, статистическое моделирование и анализа действий, эксперты создают программы, которые рассчитывают время выгодных покупок на фондовом рынке. Они анализируют открытые данные с бирж и предлагают наиболее вероятное развитие событий.
При работе с Большими данными машинное обучение выполняет сходную функцию: специальные программы анализируют внушительные объемы информации без вмешательства человека. Все, что требуется от оператора «научить» алгоритм отбирать полезные данные, которые нужны компании для оптимизации процессов. Благодаря этому аналитики составляют отчеты за несколько кликов мыши, высвобождая своё время и ресурсы для более продуктивных задач: обработки результатов и поиск наиболее эффективных стратегий.
В динамично развивающемся мире, где ожидания клиентов всё выше, а человеческие ресурсы всё ценнее, машинное обучение и наука о данных играют решающую роль в развитии компании. Цифровая технологизация рабочего процесса жизненно необходима для сохранения лидирующих позиций в конкурентной среде.
Большие данные в бизнесе
Всех, кто имеет дело с большими данным, можно условно разделить на несколько групп:
Датамайнеры — разработчики алгоритмов, которые помогают заказчикам извлекать ценные сведения. Среди них: Yandex Data Factory, «Алгомост», Glowbyte Consulting, CleverData и др.
Поставщики инфраструктуры — решают задачи хранения и предобработки данных. Например: IBM, Microsoft, Oracle, Sap и другие.
Системные интеграторы — компании, которые внедряют системы анализа больших данных на стороне клиента. К примеру: «Форс», «Крок» и др.
Потребители — компании, которые покупают программно-аппаратные комплексы и заказывают алгоритмы у консультантов. Это «Сбербанк», «Газпром», «МТС», «Мегафон» и другие компании из отраслей финансов, телекоммуникаций, ритейла.
Разработчики готовых сервисов — предлагают готовые решения на основе доступа к большим данным. Они открывают возможности Big Data для широкого круга пользователей.
Основные поставщики больших данных в России — поисковые системы. Они имеют доступ к массивам данных, а кроме того, обладают достаточной технологической базой для создания новых сервисов.
На рынке бизнес-аналитики с 2012 года, когда компания запустила Google BigQuery — облачный сервис для анализа Big Data в режиме реального времени. Через год его интегрировали в Google Analytics Premium — платную версию счетчика. Недавно Google представила Cloud Bigtable — масштабируемый, облачный сервис баз данных.
Большинство сервисов компании построено на анализе больших данных: поисковый алгоритм на основе нейросетей «Палех», машинный перевод, фильтрация спама, таргетинг в контекстной рекламе, предсказание пробок и погоды, распознавание речи и образов, управление беспилотными автомобилями.
Некоторое время в «Яндексе» существовало отдельное подразделение Yandex Data Factory, которое оказывало консультационные услуги крупным компаниям. Но впоследствии эта структура была внедрена в отдел поиска.
Система веб-аналитики «Рейтинг Mail.Ru» — первый проект, который начал применять технологии обработки больших данных. Сейчас Big Data используется практически во всех сервисах компании — «Таргет.Mail.Ru», «Почта Mail.Ru», «Одноклассники», «Мой Мир», «Поиск Mail.Ru» и других.
С помощью анализа больших данных Mail.Ru таргетирует рекламу, оптимизирует поиск, ускоряет работу техподдержки, фильтрует спам, изучает поведение пользователей и т.д.
Сначала медиахолдинг использовал большие данные только в поиске, а затем в компании появилось направление датамайнинга. «Рамблер» применяет технологии для персонализации контента, блокировки ботов и спама, обработки естественного языка.
Выгоды использования технологии в бизнесе
Повышаются шансы проекта на востребованность.
Увеличивается скорость запуска новых проектов.
Можно оценить степень удовлетворенности пользователей.
Проще найти и привлечь целевую аудиторию.
Ускоряется взаимодействие с клиентами и контрагентами.
Оптимизируются интеграции в цепи поставок.
Повышается качество клиентского сервиса, скорость взаимодействия.
Повышается лояльность текущих клиентов.
Интерес к технологиям больших данных в России растет, но у Big Data есть как драйверы, так и ограничители.
Big Data в маркетинге
Зачем нужны большие данные в маркетинге? Анализ массивов информации о компании открывает новые возможности:
Понять работу бизнеса в цифрах.
Маркетинг сможет выйти на новый уровень понимания и аналитики, что позволит снизить издержки и увеличить продажи.
Выгоды использования технологии в маркетинге
Максимальная персонализация рекламных сообщений.
Предсказание реакции потребителей на маркетинговые сообщения.
Создание точных портретов целевых потребителей.
Увеличение кросс-продаж, повторных продаж, ремаркетинга.
Поиск и определение причин популярности востребованных товаров и продуктов.
Совершенствование продуктов и услуг, повышение лояльности клиентов.
Повышение качества обслуживания.
Предупреждение мошенничества.
Снижение издержек в работе с поставщиками и клиентами.
Благодаря специальным сервисам технологии больших данных, Big Data найдется применение в любом отделе маркетинга, в том числе среднего и малого бизнеса. Вам не потребуется устанавливать и обслуживать дорогостоящее оборудование и содержать специалиста.
Сервисы Big Data
«1С-Битрикс BigData»
Облачный сервис для персонализации торговых предложений, встроенный в систему управления сайтом. Позволяет повысить качество управления и эффективность рекламы, увеличить средний чек, объемы продаж и конверсию за счет персональных предложений, которые создаются на основе знаний о пользователе.
RTB Media
Сервис по управлению закупками цифровой рекламы, который помогает эффективно участвовать в RTB-аукционах. Использует большие данные для привлечения нужных покупателей. С помощью сервиса можно настроить кросс-канальный, поисковый и товарный ретаргетинг.
Alytics
Система сквозной аналитики с автоматизацией контекстной рекламы и интерактивными отчетами. Возможности: аналитика, интерактивные дашборды, коллтрекинг, автоматическое управление контекстной рекламой. Позволяет эффективно управлять рекламными бюджетами, предоставляет отчет о таких показателях, как CPA, ROI, выручка и др. Внедряется в несколько кликов, подойдет для специалистов по контекстной рекламе, маркетологов и руководителей.
Интерфейс раздела аналитики
Crossss
Сервис для мультиканальной персонализации интернет-магазинов, своеобразный мерчендайзинг для e-commerce. Сервис собирает информацию об интересах пользователей, анализирует ее и помогает предугадывать желания покупателя. Crossss может перестроить контент сайта лично на каждого пользователя на основе его поведения: выстроить выкладку товаров в каталоге, создать персонализированные и таргетированные почтовые рассылки.
Раздел аналитики в сервисе
Технологии Big Data уже обыденность — множество компаний использует их для решения задач своего бизнеса, наряду с автоматизацией и CRM. Будущее больших данных — применение технологий Blockchain, глубокое внедрение искусственного интеллекта, повсеместный переход на облачные сервисы и платформы для самостоятельной работы, а также анализ Dark Data — всей неоцифрованной информации о компании.
Читайте по теме
Подпишитесь на нашу рассылку
Мы отправляем полезные материалы, которые помогут вам в работе
Другие статьи
20 декабря 2018
15 мин.
19054
Маркетинг в Instagram: 3 совета для лидогенерации
21 марта 2019
20 мин.
3459
Как оценить эффективность дизайн-системы? Пример расчета ROI
27 мая 2021
Не просто интранет: зачем компаниям корпоративные приложения
Услуги
Сайты и сервисы
Создаем удобные и эффективные сайты, которые нравятся пользователям и хорошо продвигаются в поисковых системах.
Дизайн
Сервисный дизайн на основе аналитики, метрик и пользовательского опыта — продуктовый подход для создания привлекательных и эффективных решений.
Аналитика
Изучаем бизнес клиента и его конкурентов, подбираем инструменты и способы продвижения.
SEO-продвижение
Увеличиваем органический трафик на сайте и снижаем затраты на привлечение клиентов.
Время на прочтение
5 мин
Количество просмотров 15K
Хабр, привет! На сегодняшний день технологии Big Data нашли свое применение практически в любых отраслях: ритейл, банкинг, здравоохранение, и, в свою очередь, сфера производства не стала исключением. Оптимизация производственной цепочки, выявление дефектов и контроль качества продукции, улучшение удобства использования продукта на основе поведения потребителей – неполный список результатов, которых можно достичь в производственной сфере благодаря Big Data. Рассмотрим несколько кейсов зарубежных и отечественных компаний, внедривших технологии больших данных в свою деятельность.
Зарубежные компании
1. Apple
Цель внедрения Big Data: использование данных о поведении потребителей для улучшения дизайна и удобства использования продукта.
Компания Apple всегда находилась на вершине технологического прогресса, поэтому неудивительно, что она повсеместно использует технологии Big Data. Более того, компания изначально находится в выигрышном положении, не только в связи с огромной популярностью ее продукции, но и потому что все девайсы Apple буквально созданы для того, чтобы собирать ценную информацию. Сейчас Apple имеет огромное количество данных о том, как мы используем Iphone, Ipad и Macbook, и может делать выводы о том, каким должен быть дизайн и характеристики последней версии девайса.
Более того, кардинальным образом меняется подход к дизайну приложений: теперь не приложение диктует пользователю условия его использования, а потребители дают компании знать, что именно требует исправления в новой версии.
Кульминацией успешного использования Big Data компанией Apple является распространение Apple Watch, ведь теперь возможности сбора данных о пользователе становятся практически безграничными: в компании знают, что носитель часов ел, сколько шагов он прошел, какая у него температура. На данный момент эти данные используются в основном для улучшения здоровья потребителей.
Компания IBM также выразила заинтересованность в данной технологии и заключила с Apple партнёрское соглашение. Вместе компании собираются использовать Big Data для предотвращения распространения болезней, их лечения и профилактики.
Результат: повышение лояльности и уровня удовлетворенности клиентов.
2. GE Oil & Gas
Цель внедрения Big Data: минимизация времени «простоя» производства.
General Electric Oil & Gas – одно из подразделений многоотраслевой корпорации GE, которое занимается производством высокотехнологичного оборудования для нефтегазового сектора. В условиях, когда снижаются цены на энергоресурсы, а сутки «простоя» могут обойтись в 7 миллионов долларов, жизненно важно минимизировать время незапланированной остановки производства, необходимо увеличивать эффективность нефтедобычи.
Благодаря сенсорам, установленным на продаваемом оборудовании, аналитики компании получают оперативную информацию о состоянии нефтедобычи, а для анализа массивов данных в 2012 году была разработана облачная платформа Predix, которая, используя алгоритмы машинного обучения, позволяла инженерам составлять расписания диагностических проверок, улучшать эффективность использования оборудования и снижать время «простоя», выявляя возможные неисправности до того, как они произойдут.
Результат: увеличение ежегодной добычи энергоресурсов и снижение убытков от неэффективного использования оборудования.
3. Nestlé
Цель внедрения Big Data: оптимизация производственной цепочки.
Nestlé — швейцарская компания, крупнейший в мире производитель продуктов питания. Для фабрик Nestlé очень важно соблюдать точность в планировании поставок, так как любое несовпадение во времени либо количестве приобретаемого сырья может привести к задержке производства продукции и неудовлетворенному спросу. Менеджер по продажам компании Davis Wu говорит: “Мы должны точнее планировать поставки, для того, чтобы наша продукция была как можно более свежей, когда она попадет на прилавки магазинов“.
Именно поэтому, компания обратилась к SAS для совместного внедрения SAS Forecast Server, который, используя данные по продажам за предыдущие периоды и оптимизационные алгоритмы, автоматически определяет спрос на материалы и формирует логистические цепочки поставок.
Результат: снижение ошибки при прогнозировании спроса на материалы вдвое, снижение убытков от хранения избыточных оборотных средств, убытков от задержек в производстве и т.д.
4. Intel
Цель внедрения Big Data: снижение себестоимости продукции.
Компания Intel занимается производством компьютерных компонентов, в частности, микропроцессоров, каждый из которых, перед тем как выйти на рынок, должен пройти около 19000 тестов. Анализируя данные по всему производственному процессу, аналитическая платформа способна выявлять, какие тесты проводить не потребуется, оставляя лишь часть необходимых проверок. Таким образом, существенно уменьшилось время тестирования микропроцессоров, а также затраты на проведение тестов.
Результат: экономия 3 миллионов долларов на одной линейке процессоров Intel Core. За счет увеличения использования технологии Big Data в производстве компания ожидает сэкономить еще 30 млн долларов.
Отечественные компании
1. Магнитогорский металлургический комбинат (ММК)
Цель внедрения Big Data: оптимизация расходов материалов при производстве стали.
ОАО «Магнитогорский металлургический комбинат» входит в число крупнейших мировых производителей стали и занимает лидирующие позиции среди предприятий черной металлургии России. В конце июня 2016 года в опытнопромышленную эксплуатацию был внедрен рекомендательный сервис от Yandex Data Factory – «Снайпер», который предназначается для оптимизации расхода ферросплавов и добавочных материалов при производстве стали. Аналитическая платформа обрабатывает параметры плавки: данные по исходному составу и массе шихты, требования по содержанию химических элементов в готовой стали и другие, а затем выдает соответствующие рекомендации.
Результат: предварительное тестирование сервиса показало, что экономия при его использовании составляет в среднем 5% или 275 млн рублей в год.
2. Газпром нефть
Цель внедрения Big Data: выявление причин сбоя работы оборудования.
«Газпром нефть» совместно с Teradata (американская компания специализируется на программно-аппаратных комплексах для обработки и анализа данных) реализовали проект внедрения предиктивной аналитики в процессы управления электроцентробежными насосами. Целью проекта, интеграция которого завершилась в августе 2015 г., стало выявление причин сбоя автоматического перезапуска насосов после аварийного отключения электропитания. В процессе анализа были использованы более 200 млн записей с контроллеров систем управления на 1649 скважинах и, в результате были созданы визуализированные модели цепочек событий, влияющие на самозапуск насосов и карты вероятностного распределения причинно-следственных связей.
Результат: получение информации о ранее неизвестных взаимосвязях в работе насосного оборудования и устранение возникших неполадок.
3. Сургутнефтегаз
Цель внедрения Big Data: оптимизация бизнес-процессов, сокращение времени подготовки отчетов и обработки данных.
«Сургутнефтегаз» — одно из крупнейших предприятий российской нефтегазовой отрасли, первым из российских компаний в 2012 году перешел на SAP HANA — платформу данных и приложений «in-memory» для ведения бизнеса в реальном времени. В результате, внедрение данной платформы привело к масштабным изменениям бизнес-процессов кампании. Разработчикам удалось автоматизировать учет продукции, расчет скользящих цен онлайн, обеспечив специалистов наиболее актуальной информацией, при этом запросы, которые ранее обрабатывались несколько часов, SAP HANA выполняет за несколько секунд. Также происходит значительная экономия аппаратных ресурсов благодаря вышеуказанному in-memory computing, при котором основным хранилищем данных является центральная память сервера, обеспечивающая значительно более высокую скорость операций чем отдельные диски, а также линейной масштабируемости, позволяющей параллельно обрабатывать запросы пользователей в оперативной памяти всех серверов.
Результат: Значительное увеличение эффективности бизнес-процессов в компании.
21 сентября стартует программа «Специалист по большим данным», при предоплате до 21 мая вы получите скидку 15% на обучение.
Big Data (большие данные) стали наступившим будущем. Одни определяют их как революцию, другие отводят им роль оптимизаторов бизнес-процессов. Но все сходятся в одном: большие данные важны. Встает главный вопрос — как можно эффективно применять большие данные в бизнесе?
Weerapatkiatdumrong
Что говорит статистика?
Последние 10 лет происходит непрерывный рост числа компаний, использующих большие данные.
В 2015 г. доля компаний, использующих большие данные, составляла 17% в мире.
Сегодня доля таких компаний — 50%.
И это неудивительно — сбор и анализ больших данных дает важные преимущества:
-
Информация поступает из разных источников, что делает ее достоверней;
- Информация поступает постоянно, что делает ее актуальной;
-
Данные не анализируются вручную, что уменьшает количество ошибок и увеличивает объем информации, возможный для обработки;
-
У компании есть централизованный доступ к информации.
Что происходит на российском рынке?
Российский рынок больших данных уступает своим масштабом западному, но 55,4% отечественных компаний уже начали инвестировать в аналитику Big Data. На практике мы видим не один пример успешной попытки интегрировать большие данные в бизнес. Например, Сбербанк с его ботами-операторами, заменяющими консультантов. Или гипермаркет Hoff, который на основе больших данных формирует персональные предложения клиентам.
С малым бизнесом и большими данными сложнее. Процесс интеграции больших данных в бизнес — удовольствие дорогое и сложное. Встает вопрос, способен ли малый бизнес на такие подвиги? Что говорят специалисты?
Малый бизнес может данные купить, интегрировать и экстраполировать в свои задачи. Например, есть сеть магазинов по продаже настольных игр «Мосигра». Каждая торговая точка продаж — отдельный малый бизнес. В своей работе они используют big data от торгового центра, где представлен магазин. На основе этих данных корректируют продажи и способы привлечении аудитории. У каждого ТЦ эти данные разные, что позволяет каждому магазину быть востребованным.
Дмитрий Спиридонов, Сооснователь, генеральный директор CloudPayments
Есть смысл с самого старта бизнеса собирать максимальное количество данных, накопить как можно больше метрик. Когда бизнес начнет стагнировать, будет достаточно информации, чтобы понять, что происходит.
Константин Баев,
IT-директор компании Domino’s Pizza
Малый бизнес более динамичен, конкуренция в разы больше, чем «у больших». Сложность вызывает стоимость, которую малый бизнес не готов платить за собственную платформу. Поэтому вариант для небольших компаний — покупать сервисы, которые продают готовую аналитику.
Сергей Чернов, Директор по разработке программного обеспечения компании CTI
Что показывает практика?
Кейс Hoff
Сервис: Google BigQuery + Alytics
Бизнес-задачи:
- Рост конверсии внутри сайта;
-
Увеличение узнаваемости бренда онлайн;
- Увеличение доли мультиканальных покупателей.
Способ: все данные были собраны в одном месте, на их основе по собственным параметрам были построены необходимые отчеты, затем полученные данные были переданы в Alytics для управления ставками.
Результат: показатель ROI вырос в нескольких категориях товаров до 17%. Показатели Email-рассылки продемонстрировали, что на 1 руб. онлайн-выручки приходится 4 руб. в оффлайне. Роль мультиканальных пользователей увеличилась, а 1/3 прибыли московских гипермаркетов приходятся на посетителей сайта Hoff.ru.
Кейс CarPrice
Сервис: Mail.ru Cloud Solutions
Бизнес-задачи:
- Оптимизация расходов на трафик;
-
Увеличения скорости передачи контента.
Способы: все данные были собраны в одном месте, а оперативность службы поддержки позволяла быстро решить все технические вопросы и проблемы сервиса.
Результат: расходы на сервис сократились примерно в 4 раза, при этом возросло его качество. Пользователи благодаря быстрой загрузке контента сократили время на принятие решений.
Кейс Zarina
Бизнес-задачи:
- Персонализация разделов сайта интернет-магазина;
-
Создание персонализированных рекомендаций дополнительных товаров.
Способы: на основе анализа больших данных были персонализированы рекомендации в категориях товаров, корзине, были созданы карточки товаров и персонализированы рекомендации в них.
Результат: выручка увеличилась более чем на 28%.
Кейс S7 Airlines
Бизнес-задачи:
- Увеличение конверсий;
-
Снижение стоимости расходов на конверсии.
Способы: на основе больших данных были созданы персонализированные креативы. Накапливание информации позволило системе увеличить точность прогнозов.
Результат: увеличились в 2 раза конверсии (за тот же бюджет), при этом стоимость конверсии снизилась на 40 %.
Кейс AllTime.ru
Бизнес-задачи:
-
Увеличение интереса пользователей к карточкам товаров и странице поиска;
-
Создание разнообразных персонализированных предложений;
- Увеличение вовлеченности пользователи, что должно привести к росту ключевых метрик.
Способы: на основе больших данных были созданы персонализированные карточки товаров, подобрано оптимальное расположение блоков, персонализированы страница поиска, рекомендации сопутствующих товаров.
Результат: каждое действие дало рост конверсии и прирост среднего чека:
-
Блоки рекомендаций: 3,1% (конверсия) + 1,5 (ср. чек) = рост выручки на 4,7%.
-
Сопутствующие товары: 2,4% (конверсия) + 10,6 (ср. чек) = рост выручки на 13,2%.
- Поисковые рекомендации: 17,3% (конверсия) + 13,2% (ср. чек) = рост выручки на 32,7% .
Взгляд специалистов
Большие данные оказывают революционный эффект на бизнес, потому что современная бизнес-аналитика базируется на анализе big data. Например, в маркетинге и рекламе: клиентам могут быть направлены целевые офферы, которые соответствуют их же потребностям. Благодаря аналитике больших данных предложение бизнеса не вызывает у потребителя раздражение, потому что формируется на основе его предпочтений и прошлых покупок.
Илья Соломатин, Руководитель проектов цифровой экосистемы all.me
Нужно понять, что мы включаем в понятие «Большие Данные» с позиции бизнеса. Для нас, практиков, это прежде всего постулат, что идти нужно не от данных, а от решаемых задач. Сбор данных ради самих данных в отрыве от реальной потребности заводит в тупик. Мы видим перспективы от использования Big Data в области предсказательной аналитики, а также операционной аналитики (распределенная обработка данных, потоков и событий). В таком ключе Big data способны превратить «мёртвые» информационные терабайты данных компании в главный бизнес-актив.
Андрей Крехов, Заместитель директора по специальным программам ICL Services
Технологии больших данных способны перевернуть всю суть бизнеса и по-новому взглянуть на ситуацию на рынке. Например, выстроить новую модель продаж, как это сделала Kaeser Kompressoren, производитель сложных компрессоров. Благодаря анализу данных с датчиков на оборудовании компания создала новый подход к продажам: поставка сжатого воздуха вместо продаж самого оборудования. Поставка готового продукта сделала возможным закладывать более высокую маржу, чем при продаже самого оборудования. Kaeser Kompressoren получила контролируемый постоянный денежный поток и зарабатывает больше на поставке кубометров сжатого воздуха.
Юрий Бондарь, Заместитель генерального директора SAP CIS
Наличие больших массивов информации ни в одной компании не гарантирует их ценности, если на их основе не будут приняты стратегические решения.
Какие шаги подготовки предпринять для проекта по big data?
1. Определить проблему;
2. Оценить стоимость использования Big Data: з/п специалистов, затраты на сервера;
3. Поставить KPI на проект;
4. Посчитать ROI на использование Big Data.
Елена Герасимова, Руководитель направления Data Science в «Нетологии»
Цифры из практики
Сервисы на основе больших данных могут существенно сэкономить рабочее время сотрудников, занятых в выполнении рутинных операций. Например, время на заведение бумажных ТТН сокращается примерно в 3 раза, и это ежедневные операции. Процесс заведения нового товара в каталог позволяет экономить минимум 50% времени операциониста.
Раис Хальфиев, Эксперт компании СКБ Контур
Внедрение анализа больших данных увеличивает средний чек на 7-15% и серьезно влияет на возвратность потребителя (частоту посещения магазина).
Денис Царев, Генеральный директор Моризо Диджитал
Разберем применение больших данных на примере компании «Утконос». «Утконос» создает автоматизированные и триггерные маркетинговые кампании по различным каналам с возможностью получения аналитических данных. В результате использования технологии рост доходов по e-mail каналу составил 41%, а по sms — 8 %, причем количество заказов увеличилось на 2%. А в канале Viber на 18% увеличилась конверсия в покупку. Что касается больших данных в сфере производства — их применение повышают эффективность оборудования на 5-10%.
Юрий Бондарь, Заместитель генерального директора SAP CIS
Что в итоге?
Анализ Big Data разрешает следующие бизнес-задачи:
- Составление более детализированного портрета ЦА и клиента, сбор информации о причинах оттока посетителей, сегментирование клиентов;
-
Персонализация предложений, оптимизация таргетинга;
- Создание единой актуальной базы данных с вычислением ошибок и нахождением связей;
- Сбор информации о пользе продукта и его безопасности;
-
Расчет рисков, борьба с мошенничеством (например, в банковской сфере);
-
Оптимизация логистики, использования оборудования, выявление качества сервиса;
- Обеспечение более упорядоченного и дешевого метода хранения данных с возможностью составить отчет по нужным параметрам.
Использование больших данных в большей степени влияет на маркетинг, сервис, устранение «слабых» звеньев в производстве, выявление множества зависимостей при продаже продукта или услуги.
Практика показывает, что большие данные можно использовать эффективно (и даже очень), но их интеграция — это не волшебная таблетка, превращающая любой проект в прибыльное дело. Нужно понять, как большие данные помогут конкретно вам.
Анализ данных • 15 декабря 2022 • 5 мин чтения
Big Data, или большие данные для бизнеса, — как закодированное послание: если его расшифровать, получатся точные координаты, чтобы проложить курс. Разбираем, как это работает.
Руководитель сопровождения и фидбэк-команды направления Анализ данных
- Что такое Big Data
- Параметры больших данных
- Как работает технология Big Data: сбор, хранение, обработка
- Преимущества технологии Big Data
- Где применяется аналитика больших данных
- Использование Big Data в России и мире
- Кто работает с Big Data
- Как начать работать с большими данными
- Совет эксперта
Что такое Big Data
О больших данных заговорили в середине нулевых, когда объёмы информации, которой оперировали для вычислений и анализа, росли в геометрической прогрессии. Тогда в редакции журнала Nature предложили относить к Big Data данные, объём которых превышает 150 Гб в сутки. Другие эксперты предлагают считать большими данными всё, что больше 8 Гб, то есть стандартного размера оперативной памяти ПК.
Гораздо проще определить, что относится к большим данным, через их применение. Big Data — это массивы информации, которые помогают принимать обоснованные решения, их ещё называют data-driven, то есть основанные на данных. Они позволяют строить прогнозные модели высокой точности. Такие используют, к примеру, в NASA, чтобы воспроизвести все детали будущей миссии. Для сбора, хранения и анализа больших данных требуются специальные инструменты и оборудование. К примеру, вместо одного ПК или сервера для хранения Big Data используют множество серверов или дата-центров по всему миру.
Анализ больших данных: зачем он нужен и кто им занимается
Параметры больших данных
Основные характеристики Big Data (больших данных) определяют как шесть «V»:
● Volume — объём — от 150 Гб в сутки.
● Velocity — скорость. Объём и содержимое Big Data ежесекундно меняются, поэтому собирать и обрабатывать их нужно на больших вычислительных мощностях. Например, сервис FlightRadar24, где отображаются все маршруты самолётов в режиме онлайн.
● Variety — разнообразие. Массив больших данных может включать фото, видео и тексты, файлы разных объёмов и форматов, данные из множества разных источников. Обычные данные, как правило, однородные, например таблица Excel с Ф. И. О. каждого сотрудника.
● Veracity — достоверность. Большие данные собирают только из источников, которым можно доверять, а для анализа используют точные и объективные методы. Поэтому корпорации и международные организации принимают стратегические решения на основе этих данных.
● Variability — изменчивость. Большие данные обновляются в режиме онлайн, поэтому их поток нестабилен. На него влияют скорость передачи, изменение источников, действия пользователей и даже смена сезонов. При анализе данных нужно учитывать и прогнозировать все эти факторы. Например, данные об авиаперелётах стоит использовать с поправками на задержки рейсов и погодные условия, из-за которых меняются маршруты.
● Value — ценность. Сами по себе данные ничего не значат, но на их основе можно сделать глубокие выводы и принимать взвешенные решения. Например, проанализировать трафик на дорогах в течение года и понять, как лучше построить маршруты для городского транспорта.
Big Data также бывают:
● Структурированными — то есть уже размеченными по определённым параметрам. Допустим, данные о ключевых медицинских показателях пациентов: температура, давление, анализы крови и ЭКГ.
● Частично структурированными, например файлы разного формата с записями о стихийных бедствиях в регионе за последние пять лет.
● Неструктурированными, например фото, музыка и сообщения всех пользователей VK.
Ещё одно важное отличие больших данных от обычных — распределённая структура. Это значит, что управлять ими и анализировать их можно с помощью множества микросервисов.
Визуально это можно представить в виде воронки: на входе заливают множество данных, а на выходе получают узкий сегмент нужной информации
Если заливать обычные данные, то источник один и процесс пройдёт быстро и легко. Но если это большие данные, то источников много, объём информации большой и горлышко обычной воронки может не справиться. На помощь приходят специальные сервисы, которые помогают ускорить этот процесс: быстро обработать большие данные и представить их в виде структурированных сегментов информации.
Решайте задачи с помощью машинного обучения
Попробуйте себя в роли специалиста по Data Science: находите неочевидные закономерности в данных, стройте гипотезы, обучайте алгоритмы.
Начните курс с бесплатной вводной части.
Как работает технология Big Data: сбор, хранение, обработка
Технологии, которые используют для больших данных:
1. Сбор
Большие данные собирают из разных источников:
● Социальные — всё, что публикуют и делают пользователи в соцсетях, онлайн-сервисах и приложениях. Сюда относят фото, видео, аудио, сообщения в мессенджерах, геолокации и хештеги.
● Статистические — все данные от госорганов и исследовательских компаний о людях, животных, транспортных средствах, товарах и услугах, политических и экономических явлениях.
● Медицинские — данные из электронных карт о медицинских показаниях, анализах, аппаратной диагностике, вакцинациях, историях болезней.
● Машинные — записи с камер наблюдения, видеорегистраторов, систем управления и умных устройств.
● Транзакционные — данные о платежах и переводах через банки и другие финансовые сервисы.
В процессе сбора данные проходят очистку, или Data Cleaning. На этом этапе, с помощью специальных программ, данные находят, отбирают и фильтруют, проверяя на точность и соответствие заданным параметрам. Специалисты по Data Cleaning размечают массивы данных так, чтобы алгоритмам было проще находить нужные сегменты информации в ответ на запросы пользователей.
Данные извлекают полностью или частично — с момента последнего успешного извлечения. Например, когда составляют прогноз погоды, используют только данные за последние сутки. Чтобы извлечь Big Data за определённый период, в хранилище используют специальную функцию захвата данных.
2. Хранение
Обычные данные помещаются на одном компьютере или онлайн-диске. С большими данными так не получится, поэтому их хранят и обрабатывают с помощью облачных серверов и распределённых вычислительных мощностей. Благодаря этому с Big Data одновременно могут работать несколько человек, получая доступ из разных точек.
Для хранения больших данных используют:
● DWH — или data warehouse — единое хранилище для всех данных, на основе которых компания формирует отчёты и принимает решения. Файлы в них сгруппированы по областям применения и расположены по хронологии. Например, DWH интернет-магазина, где собраны данные обо всех клиентах, транзакциях и подразделениях. Данные в них поступают по принципу ETL (от англ. Extract, Transform, Load): сначала извлекаются, затем трансформируются, а потом загружаются в едином формате.
● Data Lake — озёра данных, которые не имеют единого формата и чёткой структуры. Порядок действий здесь такой: извлечение, загрузка в базу и трансформация в формат, который подходит для текущих задач. Озеро данных напоминает виртуальный диск, где хранятся тексты, фото и PDF, а база данных — это таблица, где все они перечислены.
● СУБД — системы управления базами данных, бывают реляционными или нереляционными. Для работы с большими данными чаще используются первые — данные в них организованы в виде таблиц, которые связаны между собой ключами, а для запросов используют специальный язык — SQL. Например, в колоночной СУБД ClickHouse, которую используют в сервисе Яндекс Метрика, все данные о трафике сайтов хранятся в нескольких таблицах. Строки — это события, например просмотры страниц, а колонки — параметры, например переходы с мобильных устройств. Это позволяет за секунды сформировать отчёт о трафике для сайта по нескольким параметрам сразу, поскольку все они расположены в соседних ячейках.
Многие компании используют нереляционные СУБД. В них данные преобразуются не в связанные друг с другом таблицы, а хранятся по другой, заранее заданной схеме. Это позволяет быстро помещать и извлекать нужную информацию из хранилища, а также запускать высоконагруженные приложения. Допустим, DynamoDB от Amazon — бессерверная СУБД типа NoSQL, которая поддерживает разные языки запросов. Её используют в системах «умного дома», онлайн-играх и рекламных сервисах.
3. Обработка
Информацию большого объёма с помощью обычных инструментов обработать будет сложно: на это уйдёт слишком много времени. Для этих задач применяют особое ПО, которое работает по технологии MapReduce. Сначала алгоритм отбирает данные по заданным параметрам, затем распределяет между отдельными узлами, серверами или компьютерами, а потом они одновременно обрабатывают эти сегменты данных, параллельно друг с другом.
Вот примеры сервисов, которые используют MapReduce:
● Hadoop — сервис с открытым исходным кодом, позволяющий собирать, хранить и работать с Big Data сразу нескольким специалистам. Он автоматически перераспределяет нагрузку так, чтобы при отказе одного из узлов другие продолжили работать вместо него.
● Apache Spark — сервис из нескольких библиотек для работы с потоковыми данными, которые обновляются с высокой скоростью. При этом данные внутри можно фильтровать, обрабатывать и применять для машинного обучения нейросетей.
Чтобы следить за качеством сбора данных, структурировать их и находить нужное, некоторые компании нанимают специалистов — DWH-аналитиков.
Чтобы применять большие данные в работе, необходимо анализировать их по самым разным параметрам. В этом помогают:
● SQL — язык запросов, который применяют при работе с реляционными СУБД.
● Нейросети, натренированные с помощью машинного обучения так, чтобы за секунды обработать тонны информации и представить точные данные для самых сложных задач.
Чтобы извлекать нужные сегменты информации и преобразовывать их в понятные отчёты и графики, используют специальные аналитические сервисы на базе Business Intelligence (BI). Например, Power BI Microsoft — сервис бизнес-аналитики, который собирает данные из CRM, Excel-таблиц и других источников, а затем представляет их в виде интерактивных отчётов.
На курсе «Специалист по Data Science» студентов учат работать с Big Data с помощью самых популярных инструментов и технологий. А главное — извлекать из «сырых» данных самое ценное и принимать решения, которые помогут бизнесу.
Преимущества технологии Big Data
Большие данные — драйвер мировой экономики. Они помогают:
● Работать с большими объёмами информации.
Например, базы данных миллионов пользователей VK: у каждого из них сотни сообщений, фотографий, музыки и видео.
● Строить более точные прогнозы и принимать более взвешенные решения.
Например, планировать рекламную кампанию, опираясь на информацию Яндекс Метрики о миллионах пользователей и цифровом следе каждого из них — браузер, настройки, посещаемые сайты. Это позволит, предположим, показывать рекламу запчастей только тем, кто посещает автомобильные сайты.
● Мгновенно реагировать на сбои и уязвимости.
Благодаря доступу к большим данным обо всех действиях пользователей, банки или платёжные сервисы могут сразу отследить подозрительные действия и остановить мошенников.
● Строить долгосрочные стратегии.
Если у компании есть данные о продажах, прибыли и убытках за несколько лет, их анализ поможет планировать инвестиции, работу с персоналом и ассортиментом.
● Исправлять ошибки и улучшать продукт.
Предположим, специалисты службы доставки заметили, что в вечернее время люди часто отменяют доставку через 30 минут после заказа. Это значит, что клиенты не хотят долго ждать и предпочитают сходить в магазин сами. Проблему можно решить, увеличив число курьеров в эти часы.
Но есть и минусы:
● Трудности с масштабированием.
К примеру, сервисом стартапа пользуются 10 тыс. человек. После рекламной кампании приходит 1 млн новых пользователей. Не каждая система для хранения и обработки данных справится с таким резким притоком. Решить проблему помогают специальные облачные хранилища, которые можно масштабировать в любой момент.
● Высокие риски.
Большие данные повышают требования к безопасности. Например, если взломают базу данных крупных банков, миллионы клиентов лишатся денег. Чтобы этого избежать, компании-владельцы Big Data используют распределённый доступ: у разных групп сотрудников разный уровень доступа и только к определённым сегментам баз данных. Кроме того, данные шифруют и структурируют на каждом уровне.
● Высокие затраты.
Большие данные требуют больших вычислительных мощностей, более дорогих сервисов для хранения и обработки. Допустим, для обучения нейросетей нужны огромные датасеты, которые есть только у очень крупных корпораций и часто недоступны для свободного пользования. Для работы с большими данными нужно привлекать специалистов: аналитиков данных, DWH-аналитиков, специалистов по BI.
Где применяется аналитика больших данных
Big data находят применение в бизнесе, госсекторе и промышленности. Вот области, где большие данные используют чаще всего:
● Транспорт. С помощью больших данных о маршрутах и скорости машин навигаторы предлагают самый короткий путь с учётом пробок.
● Мобильная связь и интернет. Сотовые операторы используют большие данные, чтобы спрогнозировать нагрузки сети в каждой зоне и понять, где не хватает обычных сотовых вышек, а где — 5G.
● Медицина. С помощью больших данных можно предсказать, как будет развиваться эпидемия и в какой момент понадобится увеличить выпуск вакцин.
● Маркетинг. К примеру, Amazon использует систему рекомендаций товаров, которая обучена с помощью больших данных и приносит сервису до 35% от всей выручки.
● HR. На базе миллионов профилей успешных кандидатов можно создать алгоритм, который будет автоматически отбирать самых подходящих соискателей и отправлять им приглашения на собеседования.
● Производство. Большие данные помогают организовать работу сотрудников так, чтобы снизить риски аварий и несчастных случаев в цехах.
● Финтех. На основе данных обо всех случаях мошенничества банки могут создать наиболее безопасные сервисы для онлайн-платежей.
● Образование. Большие массивы данных помогают составлять персональные рекомендации вузов для абитуриентов и профессий для выпускников.
● Интернет вещей. Большие данные используют, чтобы умные устройства, сенсорные датчики, камеры наблюдения, системы управления беспилотными автомобилями работали ещё лучше и облегчали жизнь людей.
● Наука. Результаты исследований, опросы и показания приборов помогают выявлять неочевидные закономерности и совершать новые открытия в разных областях науки.
● Государственное управление. Госорганам и международным организациям большие данные в виде статистики помогают лучше распределять ресурсы и реагировать на проблемы, которые действительно актуальны для людей.
● Искусственный интеллект и роботы. С помощью датасетов с реальными диалогами компании обучают голосовых и чат-ботов, которые заменяют сотрудников техподдержки или кол-центра.
Использование Big Data в России и мире
За рубежом следят за использованием больших данных больше, чем в России. Это, с одной стороны, хорошо защищает данные пользователей различных онлайн-сервисов, с другой — сильно ограничивает возможности бизнеса. К примеру, европейский GDPR — Всеобщий регламент по защите данных — запрещает сервисам Google собирать данные о составе семьи или национальности, которые сэкономили бы рекламные бюджеты маленьким бизнесам.
В США главные потребители и держатели Big Data — крупные корпорации: Apple, Google, Facebook, Amazon. Однако государство с каждым годом всё больше ограничивает их деятельность и монополию на сбор и хранение данных. В некоторых штатах, например Калифорнии, любой пользователь может запросить у онлайн-сервисов все данные, которые хранятся в привязке к его профилю, и потребовать их уничтожить.
В Big Data данные разделяют на персональные и обезличенные. Персональные — это те, по которым можно безошибочно идентифицировать пользователя: например имя и фамилия, домашний адрес, номер мобильного. Им уделяется особое внимание в законодательстве, в том числе российском: в первую очередь это 152-ФЗ «О персональных данных». К обезличенным данным относят всё остальное: например геолокацию или список покупок без привязки к конкретному человеку и его номеру телефона.
В Китае действует более 200 разных законов и правил, которые призваны защищать персональную информацию — в том числе ту, что автоматически собирают приложения для смартфонов. Из-за этого в стране заблокировано большинство зарубежных соцсетей и международных онлайн-сервисов, однако эти данные доступны госорганам.
Сложность в том, что, если собрать обезличенные данные из разных источников и сопоставить их, тоже можно получить довольно исчерпывающую информацию. Например, данные такси и службы доставки помогают понять, где человек живёт и работает, какой у него примерный доход и что он предпочитает покупать. На этом и зарабатывают главные держатели больших данных в мире.
Кто работает с Big Data
Специалистов, чья работа связана с Big Data, можно поделить на три большие группы:
● Инфраструктурные профессии: сотрудники облачных провайдеров, которые обеспечивают технический сбор и хранение данных, дата-инженеры и разработчики ЦОДов — центров обработки данных.
● Аналитические профессии: системные, веб- и аналитики данных, маркетологи. Их задача — обработать большие данные, чтобы сделать сервис более удобным для пользователей. Благодаря Big Data рекомендательные сервисы YouTube так хорошо подстраиваются под каждого пользователя и советуют ему подходящие видео.
● Специалисты по ИИ и машинному обучению используют Big Data, чтобы обучать нейросети и создавать роботизированные сервисы на их основе.
Как начать работать с большими данными
1. Разобраться с открытыми датасетами разного содержания, список которых можно найти на Хабре. Даже небольшое хранилище на 10 Тб поможет понять логику структурирования и работы с данными.
2. Выучить языки запросов и языки программирования. Язык запросов SQL и языки программирования Python, R или Scala понадобятся, чтобы создавать запросы к базам данных, структурировать и извлекать нужную информацию в виде наглядных отчётов и дашбордов.
3. Пройти курсы, чтобы получить более основательную и структурированную базу. Например, на курсе «Специалист по Data Science» объясняют, как использовать технологии больших данных для разных задач в науке или бизнесе. Для этого студенты изучают математические методы, логические приёмы, инструменты для сортировки и визуализации данных, основы машинного обучения. Курс подойдёт и специалистам с технической базой, и тем, у кого пока нет опыта в IT.
Совет эксперта
Алексей Макаров
Лучше начинать изучение Big Data с методов работы с данными. Неважно, с какой таблицей придётся работать — на миллион или на тысячу строк, — методы анализа остаются такими же, только инструменты могут немного меняться из-за объёмов. Понимание того, как фильтровать, агрегировать, исследовать и очищать данные, — это основа, которая пригодится в любой работе с Big Data.
Чем озеро данных отличается от базы и зачем оно нужно аналитикам
С чем работает аналитик данных: 10 популярных инструментов
Сейчас реальный сектор является одной из самых развивающихся сфер в нашей стране с точки зрения использования решений на базе Big Data, включая ПО с открытым исходным кодом, IoT, машинного зрения и искусственного интеллекта. Поговорим о том, как это получилось, и какие кейсы производственные компании решают с помощью внедрения инноваций.
Почему на производствах внедряют инновации
При помощи технологий, построенных на использовании Big Data, компании реального сектора экономики стараются уменьшить себестоимость производимых продуктов, оптимизировать логистику, минимизировать простой складов и оборудования, снизить человеческий фактор. Конкурентным преимуществом для производства сейчас становится информация, извлекаемая из данных, которые раньше практически не использовались. Например, её источником может стать датчик вибрации на агрегате: поступающие с него показания дают возможность научиться предсказывать механические поломки. Это в ряде случаев позволяет сэкономить на простое более 25%. Использование таких подходов — выбор отраслевых лидеров, которые уже решили для себя вопрос выживания на этом рынке, и стремятся зарабатывать больше. Однако для прочих участников рынка технологии больших данных становятся вопросом выживания, так как без них сложно показать сопоставимый с компаниями-визионерами результат.
Конкуренция с каждым годом становится всё более явным триггером процесса внедрения инноваций. Как только производственная компания видит, что у её непосредственного конкурента ниже себестоимость получения продуктов того же качества, эффективнее решаются проблемы логистики, простоя складов и оборудования, она начинает задумываться о том, какие действия позволят ей сократить процент отбраковки продукции, уменьшить амортизацию, оптимизировать количество сырья и расходных материалов, сократить сопутствующие расходы (например, стоимость электроэнергии), минимизировать длительность простоя и оптимизировать количество сотрудников. Все эти инсайты лежат в области Big Data.
Что представляет собой Big Data в производственных предприятиях
Для начала давайте представим специфику. Обычно крупная производственная компания — это несколько заводов или других объектов, цеха которых оснащены разнообразным оборудованием, туда поступают ресурсы (материалы), проходящие несколько контролируемых стадий. Например, выплавка и прокат стали или разметка и разрезка ткани. В результате многочисленных операций получается готовый продукт. Помимо информации из систем, управляющих технологическим процессом, производство описывается ещё и датчиками, установленными на оборудовании, которые с заданной периодичностью выдают результат измерения контролируемых показателей. Информация с одного датчика за период времени — это набор из значений показателя и соответствующим точкам времени его измерения. Обладая этой информацией, можно «отматывать» время назад и видеть, в каком состоянии находилось всё оборудование предприятия в нужный момент времени.
Помимо контроля за состоянием и событиями производственного процесса, выполняемым через датчики, важно чтобы ресурсы поступали в цеха в назначенное время, а оборудование не простаивало. Этой информацией обладают различные MES и ERP-системы, с помощью которых по структурированным данным и запланированным мероприятиям можно увязать технические данные с датчиков и из систем управления техническими процессами с поставленными задачами. Информации в MES и ERP относительно мало, но она крайне важна для классификации данных с датчиков. Также структурированные данные поступают из других отделов, например, коммерческого, маркетингового, логистического.
Сбор и анализ показателей оборудования применим и к непроизводственным средствам. Так автомобиль, отвечающий за поставку готового продукта, едет по определённому логистическому маршруту. На нём установлены многочисленные датчики, передающие в хранилище данных информацию о качестве того или иного отрезка пути и состоянии узлов и агрегатов автомобиля. Анализируя данные, поступившие с большого количества машин и сопоставляя их с внешними данными (например, о погоде и пробках), можно оптимизировать размещение складов, СТО и маршрутов, и автоматизировать направление авто на ремонт ещё до поломки.
Какие кейсы реализуют производственные компании при помощи больших данных
- Логистика. Тут целых два кейса. Первый — это оптимизация логистики за счёт, в том числе, размещения складов в нужных географических точках, уменьшения пробега транспорта (последней мили), контроля за поставками, исходя из динамического спроса и ценообразования.
Второй: сокращение себестоимости логистики за счёт применения оптимизационных алгоритмов при формировании отгрузки (как между производственными площадками одного предприятия, так и конечным получателям продукции). Они основаны на реальных данных (факт/прогноз от производства и информация о заказах от сбытового подразделения).
- Предиктивные ремонты. Существенно снижается человеческий фактор и ресурсы, требуемые для ремонта. Задачи, которые человек делает дольше машин (например, локализация места произошедшей аварии, подсчёт большого количества чего бы то ни было) — эффективнее отдать машине. Пример: производственная компания проверяет наличие ржавчины на трубах при помощи дронов и приложений на смартфонах сотрудников, так как алгоритмы компьютерного зрения лучше распознают ржавчину в темноте, чем человеческий глаз. На основании собранных данных можно наметить краткосрочные планы ремонта и составить среднесрочный график замены части труб, превратив обслуживание в проактивное из реактивного.
Кроме того, внедрение предиктивной аналитики помогает спрогнозировать выходы из строя агрегатов поточного производства (или аналогичного ему). Это происходит на основании данных встроенных в оборудование датчиков. Как следствие, переход на предиктивные ремонтные мероприятия позволяет существенно сократить или вовсе устранить простои производства и риски по невыходу или выходу некачественной продукции.
Аварии почти всегда выводят из строя дополнительные элементы узлов и агрегатов, а не только те, в которых кроется причина аварии, поэтому предсказание поломки может уменьшить объём ремонтируемых узлов. Из других плюсов: экономия времени за счёт прогнозирования поставки расходных материалов для ремонта и запчастей на станциях техобслуживания. В совокупности, по оценкам экспертов, всё это позволяет достигнуть экономического эффекта в 30% от стоимости затрат на ремонты, включая ФОТ и материалы. Нельзя также не отметить, что при проактивном подходе к ремонту оборудования, которым оперируют люди, может весомо снизиться риск производственных травм персонала.
- Оптимизационные математические модели. Не все расчёты, выполненные на бумаге, точно ложатся на реальность, и потому наработанный практический опыт важно сохранить во всех деталях, чтобы в будущем построить математическую модель не по учебникам, а средствами data science — на реальных данных. Например, чтобы сталь обладала определёнными свойствами, в неё добавляют легирующие элементы и настраивают режимы работы агрегатов сталеплавильного производства. Зафиксированные в деталях результаты плавки и её ход создают базу для обучения нейросети, которая впоследствии сможет оптимизировать количество и состав используемого сырья, а также оптимизировать режимы работы оборудования, что может повысить срок наработки на отказ и сократить энергопотребление.
Как развиваются производства
Сегодня активно развивается интернет вещей (IoT) и роботизация. Технологии становятся более доступными, благодаря, в том числе, open source ПО. Создаётся коммьюнити людей, которым интересно развивать это направление. А реальный сектор для них уникален потому, что там существует наибольшее количество физически и географически распределённых устройств, с которыми нужно работать в рамках единых моделей.
Цифровизация производственных компаний рождает термин «Цифровая платформа». Каждый видит ее по-своему, но большинство сходятся в ее основном предназначении: обеспечение доступа к реальным производственным данным и повышение скорости внедрения нового функционала (снижение Time-To-Market).
В основе такой платформы лежит слой данных, так как они должны быть едины и одинаковы для всех создаваемых цифровых сервисов: нельзя переносить «бумажные» архаизмы в «цифровой» мир.
Спикеры:
- Антон Балагаев, директор по консалтингу компании Arenadata,
- Антон Денисов, директор по работе с ключевыми заказчиками IBS.
Источник публикации: РБК