Вшэ преддипломная практика бизнес информатика

Практическая подготовка студентов – это форма организации образовательной деятельности при освоении образовательной программы в условиях выполнения обучающимися определенных видов работ, связанных с будущей профессиональной деятельностью и направленных на формирование, закрепление, развитие практических навыков и компетенций по профилю соответствующей образовательной программы. Достижение целей и задач практической подготовки осуществляется через реализацию элементов практической подготовки (ЭПП). Реализация практической подготовки для студентов НИУ ВШЭ предусматривается в модуле учебного плана ОП «Практика».

Порядок организации и проведения ЭПП студентов НИУ ВШЭ регулируется Положением о практической подготовке студентов основных образовательных программ высшего образования – программ бакалавриата, специалитета и магистратуры Национального исследовательского университета «Высшая школа экономики». Также об организации практической подготовки в НИУ ВШЭ Вы можете прочитать в справочнике учебного процесса по ссылке: https://www.hse.ru/studyspravka/loc/

Условия и особенности реализации ЭПП, предусмотренные учебным планом ОП «Бизнес-информатика» описываются в Программе практики.
 

Программа практики «Бизнес-информатика» (2019г. набора) (DOCX, 73 Кб)
 

Программа практики «Бизнес-информатика» (2020г. набора) (DOCX, 74 Кб)
 

Программа практики «Бизнес-информатика» (2021г. набора) (DOCX, 74 Кб)

Практика является стационарной и может проводиться в государственных, муниципальных, общественных, коммерческих и некоммерческих организациях, на кафедрах (в том числе базовых) Школы бизнес-информатики и в других структурных подразделениях НИУ ВШЭ, деятельность которых соответствует профессиональным компетенциям, осваиваемым в рамках ОП «Бизнес-информатика» (профильные организации). Студенты могут самостоятельно осуществлять поиск мест практики. 

Организация проведения практики в сторонних организациях осуществляется на основании договоров и/или соглашений с этими организациями, а также может осуществляться на основании письма-согласия организации о предоставлении места для прохождения практики с указанием ФИО студента НИУ ВШЭ, принимаемого на практику, и срока проведения практики. Студент обязан предоставить такое письмо-согласие ДО начала прохождения практики. 

Студенты, совмещающие обучение с трудовой деятельностью, вправе проходить практики в организациях по месту трудовой деятельности в случаях, если профессиональная деятельность, осуществляемая ими в указанных организациях, соответствует требованиям к содержанию и планируемым результатам практики.
 

Правила организации практической подготовки (PDF, 229 Кб)

Справка-требования к местам прохождения практики (PDF, 128 Кб)

Элементы практической подготовки

На программе «Бизнес-информатика» предусмотрены следующие элементы практической подготовки*:


Набор 2022/2023 (1 курс 2022-2023 уч.г.)

Курс

Вид практики

Тип практики

(ЭПП)

Признак

Объем в з.е. на 1 студ.

Объем в ак.часах на 1 студ.

Период реализации

1

Проектная

Индивидуальный проект: SWOT-анализ 

Обязательная

2

76

4 модуль 1 курса

1

Проектная

Прикладной проект в рамках курса «Введение в

программирование (Java)

Обязательная

2

76

3-4 модуль 1 курса

2

Проектная

Командный проект: моделирование организации

Обязательная

1

38

__________

2

Проектная

Командный проект: проектирование и реализация приложения                    

Обязательная

1

38

__________

3

Проектная

Индивидуальный проект по проектированию ИТ-инфраструктуры предприятия

Обязательная

3

114

__________

3

Проектная

Командный проект «ИТ-консалтинг»

Обязательная

4

152

__________

4

Проектная

Инициативные проекты студентов

Обязательная

2

76

__________

4

Профессиональная

Производственная практика

Обязательная

4

152

__________

4

Научно-исследовательская

Преддипломная практика

Обязательная

2

76

__________

4

Научно-исследовательская

Подготовка выпускной квалификационной работы

Обязательная

9

342

__________

Набор 2021/2022 (2 курс 2022-2023 уч.г.)

Курс

Вид практики

Тип практики

(ЭПП)

Признак

Объем в з.е. на 1 студ.

Объем в ак.часах на 1 студ.

Период реализации

1

Проектная

Проект

Обязательная

2

76

3-4 модуль 1 курса

1

Проектная

Прикладной проект в рамках курса «Введение в

программирование (Java)

Обязательная

2

76

3-4 модуль 1 курса

2

Проектная

Прикладной проект: моделирование организации

По выбору

1

38

4 модуль 2 курса

3

Проектная

Прикладной проект по проектированию ИТ-инфраструктуры предприятия

Обязательная

3

114

__________

3

Проектная

Прикладной проект по ИТ-консалтингу

Обязательная

4

152

__________

4

Проектная

Прикладные проекты студентов

Обязательная

2

76

__________

4

Профессиональная

Производственная практика

Обязательная

4

152

__________

4

Научно-исследовательская

Преддипломная практика

Обязательная

2

76

__________

4

Научно-исследовательская

Подготовка выпускной квалификационной работы

Обязательная

2

76

__________

Набор 2020/2021 (3 курс 2022-2023 уч.г.)

Курс

Вид практики

Тип практики

(ЭПП)

Признак

Объем в з.е. на 1 студ.

Объем в ак.часах на 1 студ.

Период реализации

1

Научно-исследовательская

Курсовая работа

Обязательная

4

152

4 модуль

2

Научно-исследовательская

Курсовая работа

Обязательная

3

114

4 модуль

2

Проектная

Прикладной проект: моделирование организации 

Обязательная

3

114

4 модуль

3

Проектная

Курсовой проект «ИТ-консалтинг»

Обязательная

4

152

4 модуль

4

Проектная

Исследовательский или прикладной проект

Обязательная

2

76

__________

4

Профессиональная

Производственная практика

Обязательная

4

152

__________

4

Научно-исследовательская

Преддипломная практика

Обязательная

2

76

__________

4

Научно-исследовательская

Подготовка выпускной квалификационной работы

Обязательная

9

452

__________

Набор 2019/2020 (4 курс 2022-2023 уч.г.)

Курс

Вид практики

Тип практики

(ЭПП)

Признак

Объем в з.е. на 1 студ.

Объем в ак.часах на 1 студ.

Период реализации

1, 2, 4

Проектная

Проект

Обязательная

11

418

4 модуль 1 г.обучения; 4 модуль 2 г.обучения

2

Научно-исследовательская

Курсовая работа

Обязательная

3

114

4 модуль

3

Проектная

Курсовой проект (ИТ-консалтинг) 

Курсовой проект (Архитектура предприятия) 

Обязательная

4

152

4 модуль

4

Профессиональная

Учебная практика

Обязательная

3

114

1 модуль

4

Профессиональная

Преддипломная практика

Обязательная

8

304

4 модуль

4

Научно-исследовательская

Подготовка выпускной квалификационной работы

Обязательная

9

342

4 модуль

Особенности проведения Практической подготовки

Реализация элементов практической подготовки для лиц с ОВЗ

Формальных ограничений для проведения выездной практики для лиц с ОВЗ нет. Нагрузка на полевой практике может быть адаптирована согласно возможностям студента.

Реализация ЭПП в случае ограничительных мер

ЭПП на 3 и 4 курсе потенциально могут быть проведены дистанционно.

с 03.04.2023 по 29.04.2023

В этом году преддипломная практика на ОП «Бизнес-информатика» будет проходить в период с 03.04.2023 по 29.04.2023.

10.02.2023 состоялась встреча по практике, ссылка на запись встречи https://events.webinar.ru/gsbhse/1666676936/record-new/1049269426

Инструкция по практике:

Инструкция БИ апрель 2023 (PDF, 1.19 Мб) 

Здесь же вы найдете ссылку на телеграмм канал по практике БИ 4 курса.

Если у вас нет места практики, вы можете откликаться на вакансии, которые выложены по ссылке https://gsb.hse.ru/careercentre/career/internshipb/vacancies

Важное уточнение: вакансии подразумевают отбор. Студентам необходимо будет пройти CV-скрининг, собеседование и тестирование (количество этапов зависит от конкретной компании).

Центр карьеры имеет возможность курировать процесс отбора на вакансии с ограниченным количеством мест и получать оперативную обратную связь от Компаний. 

Если вы знаете, где будете проходить практику, заполните форму для заключения договора по практике: https://gsb.hse.ru/careercentre/polls/810432209.html до 01.03.2023.

For international students

Dear students!

Your coming internship will take place from 03.04.2023 till 29.04.2023.

Please find attached English version of internship instruction and a link to webinar (was held in Russian) https://events.webinar.ru/gsbhse/1666676936/record-new/1049269426

There is an option to follow the telegram channel for BI pregraduate practice. You can find the QR code in the instruction

Internship full instruction BI april 2023 (PDF, 1.15 Мб) 

If you do not have an internship yet, you can apply for vacancies posted at https://gsb.hse.ru/careercentre/career/internshipb/vacancies

Please note: Students will need to pass a CV screening, interview and testing (the number of stages depends on the specific company).

Career Center is able to supervise the selection process for vacancies with a limited number of places and receive prompt feedback from Companies.

If you already have a place for internship, fill in the form to conclude an internship agreement until 1st of March 2023: https://gsb.hse.ru/careercentre/polls/810432209.html

Skip to document

Home

My Library

Discovery

Institutions

  • Оренбургский государственный университет
  • Российский университет дружбы народов
  • Финансовый университет при Правительстве РФ
  • Академия при Президенте Российской Федерации
  • МГУ им. Ломоносова
  • Первый МГМУ им. И. М. Сеченова
  • Санкт-Петербургский политехнический университет Петра Великого
  • Санкт-Петербургский государственный университет
  • СПбГЭТУ ЛЭТИ
  • Национальный исследовательский университет Высшая школа экономики
  • РГПУ им. Герцена
  • НИУ ВШЭ СПб
  • Санкт-Петербургский государственный университет
  • НИУ ВШЭ Москва
  • Балтийский федеральный университет имени Иммануила Канта
  • See all Institutions

Courses

  • Popular
    • Изобразительное искусство
    • Строительные материалы
    • Физика полупроводников
    • 1 Теория и методика адаптивной физ. культуры
    • бизнес информатика (38.03.05)
    • Безопасность жизнедеятельности
    • Статистика (2019)
    • Корпоративные финансы
    • Management
    • информационные технологии (2020)
    • Фармакология
    • Психология ребёнка дошк. и младшего шк. возраста
    • Психология труда
    • Граждановедение
    • Макроэкономический анализ и регулирование банковской сферы
  • Trending
    • Информационное право
    • Математический анализ
    • Экономика и управление
    • Делопроизводство в сфере юриспруденции
    • Государственный экзамен (2018)
    • Прикладная математика (01.03.02)
    • Менеджмент
    • English95 (123)
    • Архитектура предприятия
    • Finance
    • Essentials of Management and Marketing
    • Прикладная информатика (09.03.03)
    • История России
    • биология (мед 6)
    • nanana (nana 2005)
  • Newest
    • информатика (2015)
    • Busieness law (BLAW1104)
    • Филология (2019)
    • Экономика организации
    • Principles of Corporate Finance (FN3092)
    • История (История России, Всеобщая история) (К001)
    • historia
    • Методы экономического прогнозирования (экономика)
    • Administrative law
    • Общая хирургия
    • системы обеспечения движения поездов (23.05.05)
    • денежно-кредитное регулирование (2020)
    • гуманитарий (2017)
    • Менджемент (2019)
    • Нпм (П-24)

Documents

  • Popular
    • Отчет по лабораторной работе № 1 по дисциплине «Теория автоматического управления» «Динамические звенья и их характеристики во временной области» Вариант 9 (3)
    • Экзамен декабрь 2015, вопросы и ответы
    • Лаба1 Электроника
    • UML разработка книжный магазин книжный магазин
    • Control test 39
    • О литературе и культуре 18 века
    • 02 Исследование видеосистемы (текстовый режим)
    • Курсовые — пояснительная записка — архитектура промышленных зданий и сооружений
    • Лабораторные 1-10
    • Конспекты лекций, Строительные материалы
    • Экзамен июнь 2016, вопросы и ответы
    • Контрольные работы — 1 отчет
    • Эссе «Соборное уложение 1649 г.» — оценка 9
    • Advertising — Монолог
    • Микроэкономика вопросы к экзамену и ответы
  • Trending
    • Лабораторная по ТОЭ №2
    • Конспекты лекций
    • Конспекты лекций — Преподаватель Алгави
    • вопросы к экзамену -2 — Современные нейросетевые технологии
    • Таблица Теоретические методы исследования
    • Абрамкина ИКТ лекции — Конспекты лекций по дисциплине «Информационно-коммуникационные технологии» для
    • Эссе «Проблемы биоэтики-эвтаназия за и против» — оценка 10
    • Дневник практики
    • Грамматика английского языка. Версия 2.0 Ключи к упражнениям by Утевская Н.Л. (z-lib
    • 4 variant — решение задачи по ндс
    • реферат ИППСУ — Grade: 8
    • Спорообразование у бактерий. Бактериологический метод исследования. Методы выявления спор
    • Case 13 — Publix strategic management
    • Metodichka — Раздаточный материал
    • «Российская грамматика» М.В. Ломоносова
  • Newest
    • 5 удивительных фактов о вариаторах
    • 1 English for Information Technology Elementa
    • BIWS 400 questions — Suitable for those preparing for investment banking exams
    • Глоссарий. Еронина Екатерина 24а
    • БИЛЕТЫ — Tickets for exam preparation
    • Зачет по статистике (Хабиб)
    • English FOR Design Students
    • Расписание 2022-2023 — schedule
    • Pr1 autocad — Работа со справочной системой, изучения интерфейса программы, работа с командами,
    • Анафилаксия — хаха
    • Образцы титульних листов
    • МЕТОДИЧЕСКИЕ УКАЗАНИЯ К ОФОРМЛЕНИЮ
    • Змееголов — жду ответа
    • если…то… на перевод
    • Biochemistry of nervous tissue
  • Grammar for English (Martin Parrott)
  • Основы теории связей с общественностью: Учебник для вузов (Кривоносов Алексей Дмитриевич; Филатова Ольга Георгиевна; Шишкина Марина Анатольевна)
  • Производственный менеджмент: принятие и реализация управленческих решений. 2-е издание. Учебное пособие (Горелик О.М.)
  • The Study of Language (George Yule)
  • Practical English Usage (Michael Swan)
  • Human Relations (Marie Dalton; Dawn Hoyle; Marie Watts)
  • Сборник заданий по дискретной математике (Алексей Александрович Набебин)
  • Курс микроэкономики (Рустем Махмутович Нуреев)
  • Настольная энциклопедия Public Relations (Д Игнатьев; А Бекетов)
  • Мировая экономика (Денис Шевчук)
  • Задачи по общей физике (Иродов И.Е.)
  • Паблик рилейшнз (Скотт М. Катлип)
  • Герой нашего времени (Михаил Лермонтов)
  • Политология. Учебное пособие (Огородников Владимир Петрович; Сидоров Н. М.)

Программа преддипломной практики ОП БИ

Федеральное государственное автономное образовательное учреждение

высшего образования

«Национальный исследовательский университет «Высшая школа экономики»

Высшей школы бизнеса

ПРОГРАММА ПРЕДДИПЛОМНОЙ ПРАКТИКИ

по направлению подготовки

38.03.05 «Бизнес-информатика»

Утверждена

Академическим советом

ОП «Бизнес-информатика»

Протокол № __ от «__» ___ 20__г.

Автор В.В. Корнилов, доцент каф. инноваций и бизнеса в

сфере информационных технологий

Объем практики в з.е., кредитах 8

Продолжительность практики в

академических часах, в т.ч. объем

контактной работы в час.

304

Продолжительность практики в неделях 3

Курс 4

Вид практики Преддипломная

ПРАВИТЕЛЬСТВО РОССИЙСКОЙ ФЕДЕРАЦИИ
Пермский филиал
федерального государственного автономного образовательного
учреждения высшего профессионального образования
«Национальный исследовательский университет
«Высшая школа экономики»
Факультет бизнес-информатики
Кафедра информационных технологий в бизнесе

ОТЧЕТ
о прохождении преддипломной практики
на базе НИУ ВШЭ Пермь
Преддипломная практика бакалавра
Работу выполнил:
студент группы БИ-10-2
4 курса факультета бизнес-информатики

Руководитель практики:
старший преподаватель кафедры информационных технологий в бизнесе

“_____” 20__ г.

Пермь 2014


Введение
В данной работе рассматривается исследование спроса на специальности в сфере ИТ услуг. Для этого разработана информационная система, способная собирать и обрабатывать данные из сети «Интернет». Работа предназначена для тех, кто хочет определиться в выборе специализации, оценить свои разработки с точки зрения востребованности или даже предугадать грядущие тренды.
Таким образом объектом исследования будет считаться рынок ИТ услуг, а предметом изменения величины спроса на те или иные услуги.
На сегодняшний день одним из самых динамичных рынков является рынок ИТ услуг. И Россия далеко не исключение. Наоборот, по данным исследования Минэкономразвития, объем российского рынка информационных технологий в 2013 г. составил 762 млрд. руб. Эти данные предоставляются в мониторинге об итогах социально-экономического развития РФ в 2013 г.
За 2012 г., по результатам аналогичного исследования, объем рынка ИТ составлял 716 млрд руб., а в 2011 г. –649млрд. Таким образом, за год данный показатель возрос на 46млрд руб., а относительно 2011 г. – на 113 млрд руб.
Таким образом, мы видим постоянно возрастающую динамику рынка. В свою очередь это говорит о том, что рынок еще не до конца насыщен и открыт как для владельцев стартапов так и для обычных специалистов.
Однако создать успешныйстартап, или не прогадать с местом и спецификой работы является довольно сложной задачей. Все дело в динамике рынка, тренды сменяют друг друга очень быстро, и этот процесс постоянно ускоряется. Для сравнения можно привести прогнозы компании Gartner за 2012 и 2013 года [1].
Десять ключевых ИТ-трендов на 2012 год по мнению Gartner:
1. Эволюция виртуализации.
2. Большие объемы данных: отслеживание и анализ закономерностей.
3. Энергоэффективность и мониторинг энергопотребления.
4. Контекстно-зависимые приложения.
5. Сохранение и обучение персонала.
6. Социальные сети.
7. Консюмеризация.
8. Объем вычислений в пересчете на квадратный фут.
9. Облачные вычисления.
10. Конвергенция инфраструктуры.
Аналогичные данные на 2013 год:
1. Повсеместное проникновение мобильных устройств
2. Мобильные приложения и HTML5
3. Частные облака
4. Корпоративные магазины приложений
5. «Интернет вещей»
6. Гибридные и облачные технологии
7. Большие данные
8. Аналитика в действии
9. Вычисления в оперативной памяти
10. Интегрированные экосистемы
Разумеется, это всего лишь прогнозы и они не должны были сбываться со стопроцентной вероятностью. Однако по ним можно судить насколько динамичен ИТ рынок. Ведь всего лишь за год 90% трендов сменилась, а остальные сменили свои позиции в ТОПе.
Таким образом, для создания успешного стартапа необходимо предугадывать состояние рынка на год – полгода вперед. Либо, по крайней мере, быть очень хорошо осведомленным по потребностям рынка в текущий момент.
Для крупных компаний решение этого вопроса не является проблемой, так как они имеют целые отделы по анализу рынка и широким спектром инструментов для создания прогнозов. Даже если крупная компания не имеет подобного отдела, она в состоянии заказать исследования у другой специализированной компании.
Для людей, у которых нет доступа к мощным корпоративным инструментам в этой области не существует доступных аналогов для проведения рыночного анализа, поэтому они обречены полагаться лишь на свой опыт.
Таким образом, целью этой работы является создание доступного и функционального приложения для анализа спроса на российском ИТ рынке.


Для достижения поставленной цели были выдвинуты следующие задачи:
 анализ специальной литературы, сбор, систематизация и обобщение инструктивных и нормативных материалов;
 анализ предметной области;
 анализ методологий;
 анализ форм отчетности;
 анализ информационных технологий для разработки системы;
 разработка информационно-аналитической системы «Анализ спроса на рынке ИТ услуг»;
 тестирование о отладка разработанной системы.


Глава 1. Анализ и описание средств разработки
Выполнение данной работы в конечном итоге сводится к разработке программы, которая собирает необходимые данные и на и х основе выдает различные аналитические результаты.
Таким образом, приложение, реализующее анализ рынка, должно состоять из трех основных частей:
 сбор данных;
 обработка и подготовка информации;
 методы анализа и прогноза.
Последний пункт также подразумевает и визуализацию полученных результатов. Каждый из описанных выше пунктов затрагивает разные технологические сферы и, соответственно, реализуется при помощи разных технологий. Основной платформой для разработки служит .NET,среда поддерживающая данную платформу — VisualStudio 2010, а в качестве языка разработки выступает C#. Данные собираются из вакансий, размещенных на сайте «Хедхантер.ру» — hh.ru.
Ниже приведены некоторые толкования понятия платформа.
Платфо́рма — аппаратный и/или программный комплекс, служащий основой для различных вычислительных систем. [2] Из-за емкости определения, не отражено такое ключевое свойство как многоуровневость.
Платфо́рма- нижний слой многоуровневой организации вычислительной системы (аппаратура, операционная система, прикладное программное обеспечение), на который опираются ОС и прикладное ПО. [3] Данное определение полностью описывает концептуальную суть платформы.

Для начала рассмотрим дерево целей.
1. Подготовка к сборуданных.
1.1. Анализ сайта (hh.ru).
1.1.1. Анализ ссылки GET запроса для отображения вакансий интересующей области.
1.1.2. Анализ особенностей вывода данных.
1.1.3. Определение проблемных мест и разработка методов для их решения.
1.2. Поиск и анализ необходимых средств для реализации сбора данных.

2. Разработкаалгоритма «Парсинга»
2.1. Проектирование базы данных.
2.2. Использование ссылки GET запроса, как начальной ссылки для алгоритма парсинга.
2.3. Использование выбранных инструментов для реализации алгоритма парсинга и сбора подробной информации о каждой вакансии.
2.4. Занесение полученной информации в базу данных.

3. Реализациялатентно-семантическогоанализа.
3.1. Поиск и анализ существующих алгоритмов семантического анализа.
3.2. Реализация семантического анализа.

4. Реализацияметодов Data Mining.
4.1. Реализация статистики.
4.2. Реализация метода поиска ассоциаций.

5. Визуализация полученных результатов.
Следует уточнить, что в рамках преддипломной практики будут реализованы не все заявленные методы.
Основными критериями при выборе средств и инструментов будут являться:
1. Доступность – подразумевает свободное распространение продукта, так как не существует бюджета на создание данного проекта.
2. Популярность – необходимо выбирать наиболее широко распространённые средства, так как для них написано больше контента и, соответственно, рассмотрено большее количество различных проблем и вопросов.
3. Функциональность – широта возможностей средства, чем больше возможностей, тем гибче будет создаваемое приложение.
4. Эффективность – подразумевается простота в использовании в связке с получением желаемого результата. Чем проще язык тем проще в нем разобраться, но качество исполнения при этом не должно страдать.

Таким образом, обосновывая выбор платформы, можно сказать, что VisualStudio является одним их наиболее мощных платформ для программирования. Поддерживает множество языков. А также предоставляет удобный интерфейс для программирования и отладки. В качестве языка программирования был выбран C#. Существует мнение, что это лучший язык длябизнес приложений. Его достоинствами являются максимальная простота, очень высокая функциональность, судя по количеству библиотек и классов, а также наличие официального сайта-справочника, где описана каждый метод или поле для каждого класса.

Место сбора данных
HeadHunter — российская компания интернет-рекрутмента, функционирующее на территориях России, Украины, Белоруссии, Казахстана.

Портал предназначается для поиска профессионалов. Качество соискателей осуществлялось за счет разделения прав доступа к резюме, такой подход послужил залогом защиты информации. Сайт был реализован с целью предоставить максимально удобную площадку для работодателей и соискателей. Основные доходы получались за счет продажи информации из базы данных резюме. Портал быстро стал популярным, и количество пользователей вскоре превысило миллион.Стратегия компании — инвестиции в новые технологии и совершенствование существующих сервисов. Все вакансии и резюме на сайте hh.ru проходят ручную проверку модераторами. Открытый доступ присутствует только данным месячной давности. К более старым вакансиям и резюме доступ платный, и осуществляет за счет доступа к базе данных. Как для работодателей, так и для соискателей HeadHunter предоставляет набор инструментов для эффективной работы.
В качестве информационной базы для данного проекта был выбран этот именно этот сайт, потому что для статистики и других методов преимущественно важно количество данных для анализа. Чем больше данных тем точнее получится результат. В свою очередь HeadHunter является крупнейшим сайтом обладающим подобного рода информацией. Таким образом, данный сайт подходит под все критерии кроме доступности. Так как данная компания защищает свою информацию. Однако эта проблема решаема и не несет больших сложностей.

Библиотеки работы с HTML
Парсинг – это синтаксический анализ документов, который автоматически осуществляетсяпарсером – специальной программой или скриптом. Идеей парсингаявляетсядобыча определенной информации из тела документа, преимущественно в качестве документа является страница сайта.Параметры отбора и анализаназначаютсязаранее.
Три этапапарсинга являются поэтапными стадиями процесса. Первый этап этосбор информации. Второй этап заключается в анализе данных, обработке и преобразовании в нужный формат. Последний этап – предоставление результата, вывод данных. Наиболее часто парсинг опирается на систему регулярных выражений.
Для работы с xml и xml-подобными документами (HTML базируется на XML), существуют анализаторы. Выделяются два типа анализаторов – DOM и SAX. Оба анализатора принципиально отличаются по алгоритму работы. SAX выполняет фрагментарную обработку. Такой подход позволяет эффективно работать собъемными документами. Однако такой подход не всегда является оптимальным. DOM-анализатор загружает весь документ в память компьютера, формирует дерево узлов. Узлами называют отдельные элементы дом интерфейса, в данном контексте речь идет об HTMLтегах. Далеепри помощи инструментов (XPath или jQuery) легко произвести навигацию, поиск, замену и т.д. Наиболее распространённым является DOM-анализатор, его часто используют в JS, C#, PHP, Python и т.д.
Для расширенного анализа в XML были включены технологии XLink. XPath, Xpointer.
XPath (XML PathLanguage) — язык запросов к элементам XML-документа. Разработан для организации доступа к частям документа XML в файлах трансформации XSLT и является стандартом консорциума W3C. XPathпризван реализовать навигацию по DOM в XML. В XPath используется компактный синтаксис, отличный от принятого в XML.
БиблиотекаLibxml2реализоваласьнаLinux для проекта GNOME. Сейчас повсеместно применяется во множествепарсеров. Официальный сайт — http://www.xmlsoft.org. Проект изначально разрабатывается наС, но уже портирован на большинство языков программирования, в том числе и на Паскаль. Для подключения libxml2 к своему проекту используется откомпилированный код (либо компилируемый исходник). В среде Windows это динамическая библиотека libxml2.dll, в Линуксах libxml2.so. В среде freePascal проект реализован в библиотеке под названием xml2. Libxml2 это XSLT-процессор, в нем доступныXQuery, XPath. Он поддерживает HTML, есть встроенные функции для парсинга. Подходит для работы с большинством кодировок, а так же способен конвертировать документы в различные кодировки. Имеет множество функции для работы в архитектуре DOM и SAX. На данный момент есть множество примеров на языке С.
Отличительной чертой библиотекиInternettoolsявляется поддержка XPath 2. Данный язык является следующей версией языкаXPATH1.0 однако весьма скудное количество библиотек поддерживает его. Помимо всегореализованы такие функции как simplehtmlparser и htmltreeparser. Реализован продвинутый метод шаблонного поиска
HtmlAgilityPack (HAP) является.NETбиблиотекой, котораяработает в архитектуре DOM. Данная библиотекапереводит узлы htmlстраницы в объектыклассаHTMLDocument. Данный класс полностью идентиченвстроенному классу XMLDocument, и является лишь своеобразной оберткой.


Ввиду этого доступны такие возможности как:
 Linq to Objects (via LINQ to Xml)
 XPATH
 XSLT
Всего данная библиотека насчитывает 20 классов, среди которых GetElementbyId(), CreateAttribute(), CreateElement() и другие.
Для реализации алгоритма парсинга была выбрана именно эта библиотека, поскольку она компактна, поддерживает все основные технологии (XPATHи другие), проста в плане интеграции и концептуального понимания. Является самой используемой библиотекой работы сHTML дляC#. Основной причиной является то, что она разработана специально для .NET приложений, чем и является данный проект. Таким образом, соблюдены все критерии.

Базы данных
Реляционная модель данных (РМД) — логическая модель данных, прикладная теория построения баз данных, которая является приложением к задачам обработки данных таких разделов математики как теории множеств и логика первого порядка.
Реляционная модель данных основывается на правилах предикатов первого порядка логики и теории математических множеств. Все данные в такой модели представлены в виде кортежей, сгруппированных в отношения [9]. В математике кортеж— упорядоченный конечный набор длины n (где n — любое натуральное число либо 0), каждый из элементов которого x_i принадлежит некоторому множеству X_i, 1< i < n. Элементы кортежа могут повторяться в нём любое число раз (этим, в частности, он отличается от упорядоченного множества, куда каждый элемент может входить только в одном экземпляре). n-арным отношением R, или отношением R степени n, называют подмножество декартовa произведения множеств D_1, D_2, …, D_n (n>= 1), не обязательно различных. Исходные множества D_1, D_2, …, D_n называют в модели доменами. Отношение имеет простую графическую интерпретацию в виде таблицы, столбцы (поля, атрибуты) которой соответствуют вхождениям доменов в отношение, а строки (записи) — наборам из n значений, взятых из исходных доменов. Число строк (кортежей) называют мощностью отношения. Таким образом, реляционная модель данных включает в себя 3 аспекта: структурный аспект, аспект целостности и аспект обработки. Структурный аспект отвечает за то, что данные в базе данных представляют собой набор отношений. Аспект целостности в свою очередь обеспечивает соответствие модели определенному уровню целостности. Реляционная Модель Данных поддерживает декларативные ограничения целостности уровня домена (типа данных), уровня отношения и уровня базы данных. Аспект обработки обеспечивает поддержку операторов манипулирования отношениями (реляционная алгебра, реляционное исчисление). Наличие реляционной алгебры позволяет реализовать декларативное программирование и декларативное описание ограничений целостности, в дополнение к навигационному (процедурному) программированию и процедурной проверке условий. Реляционная модель данных является логической, то есть отношения являются логическими (абстрактными), а не физическими (хранимыми) структурами. Для реляционных баз данных верен информационный принцип: всё информационное наполнение базы данных представлено одним и только одним способом, а именно — явным заданием значений атрибутов в кортежах отношений. В частности, нет никаких указателей (адресов), связывающих одно значение с другим.
Реляционные базы данных на сегодняшний день являются основным компонентом любой аналитической системы, системы поддержки принятия решений, корпоративной информационной системы и почти любой системы другого вида. Реляционная модель и реляционные базы данных лежат в основе таких технологий, как хранилища данных, OnlineAnalyticalProcessing, DataMining и многих других методов и инструментов, использующих в своей работе большие объемы данных. Пример схемы реляционной базы данных представлен на рисунке 1.1.

Рисунок 1.1. Пример схемы реляционной базы данных

Анализ текста.

Латентно-семантический анализ (ЛСА) — это подход к анализу информации на естественном языке, который позволяет выделить взаимосвязь между набором документов и словами находящимися внутри них. Конечном счете, данный алгоритм позволяет определить ключевые слова и основной смысл текста.[3]
Основой ЛСА служат принципы факторного анализа, а именно, выявление латентных связей изучаемых явлений или объектов В основном ЛСА используется во классификации документов для выявления контекстно-зависимых значений лексических единиц при помощи статистической обработки больших блоков текстов.
Для примера возьмём несколько различных текстов на тематику WikiLeaks. Для запуска алгоритма из этих текстов исключаются стоп-символы. Стоп-символы -слова, которые являются неотъемлемой частью каждого текста, но не несут в себе никакой смысловой нагрузки. К таким словам можно отнести частицы, союзы, предлоги и остальные вспомогательные части речи.
Затем производится операция стемминга – избавление от лишних частей слова: приставки, окончания итд. Это нужно что бы выявить слова несущие одинаковый смысл. Самым известным алгоритмом для стемминга является алгоритм Портера.

Дальше исключаются слова встречающиеся в единственном экземпляре.

В результате можно наблюдать следующий текст:

1. Британская полиция знает о местонахождении основателя WikiLeaks
2. В суде США начинается процесс против россиянина, рассылавшего спам
3. Церемонию вручения Нобелевской премии мира бойкотируют 19 стран
4. В Великобритании арестован основатель сайта Wikileaks Джулиан Ассандж
5. Украина игнорирует церемонию вручения Нобелевской премии
6. Шведский суд отказался рассматривать апелляцию основателя Wikileaks
7. НАТО и США разработали планы обороны стран Балтии против России
8. Полиция Великобритании нашла основателя WikiLeaks, но, не арестовала
9.В Стокгольме и Осло сегодня состоится вручение Нобелевских премий

Далее нужно приступать непосредственно к самому ЛСА.
Первым делом требуется создать частотную матрицу индексируемых слов рис 1.2. Это такая матрица, строки которой соответствуют присутствию индексируемых слов в документах, а столбцы — самим документам. В каждой ячейке матрицы указано количество раз, сколько слово встречается в соответствующем документе.

Рисунок 1.2. Частотная матрица индексируемых слов.

Следующим шагом проводится сингулярное разложение полученной матрицы рис 1.3. Сингулярное разложение это математическая операция раскладывающая матрицу на три составляющих. Т.е. исходную матрицу M мы представляем в виде:

M = U*W*Vt

где U и Vt – ортогональные матрицы, а W – диагональная матрица. Причем диагональные элементы матрицы W упорядочены в порядке убывания. Диагональные элементы матрицы W называются сингулярными числами.

Рисунок 1.3. Сингулярное разложение матрицы.

Принцип сингулярного разложения заключается в том, что оно выявляет ключевые элементы матрицы, при этом игнорируя шумы. Согласно правилам произведения матриц, можно заметить, что столбцы и строки соответствующие меньшим сингулярным значениям в итоге вносят наименьший вклад в итоговое произведение. Так, мы можем больше не рассматривать последние столбцы матрицы U и последние строки матрицы V^t, оставив только несколько первых. Данный подход гарантирует оптимальность полученного произведения. Разложение такого вида называют двумерным сингулярным разложением рис 1.4.

Рисунок 1.4. Двумерное сингулярное разложение матрицы.
Теперь отметим на графике точки соответствующие отдельным текстам и словам рис 1.5.

Рисунок 1.5. График ключевых слов.

По рис 5. можно судить, что статьи образуют три независимые группы, первая группа статей располагается рядом со словом «wikileaks», и действительно, если мы посмотрим названия этих статей становится понятно, что они имеют отношение к wikileaks. Другая группа статей образуется вокруг слова «премия», и действительно в них идет обсуждение нобелевской премии.

При выборе алгоритма необходимо было руководствоваться его эффективностью, так как это ключевой момент работы. От того насколько точно алгоритм сможет определять ключевые слова зависит все последующие результаты. Этот алгоритм способен давать точные «теги» для больших групп документов и это определяющие, но далеко не единственное его достоинство.

Синтаксический анализ— процесс сопоставления линейной последовательности лексем (слов, токенов) естественного или формального языка с его формальной грамматикой. Результатом обычно является дерево разбора (синтаксическое дерево). Обычно применяется совместно с лексическим анализом.
В программировании программа или её часть выполняющая данную функцию называется синтаксический анализатор. Результат синтаксического разбора — это набор словоформ, отображенных в узлы синтаксического графа, и соединяющих их связей (ребер). Рис 1.6.

Рисунок 1.6. Пример синтаксического графа.

К сожалению, данный метод крайне сложен для реализации, а доступных библиотек в открытом доступе практически нет. В отличие от синтаксического анализа латентно-семантический более доступен. Однако его минус в том, что при больших объема данных он чересчур сильно грузит систему.
Поэтому было решено написать собственный алгоритм анализа текста, который будет описан во второй части.

Таким образом, в ходе исследования были выявлены все необходимые инструменты и алгоритмы для реализации заявленного приложения. В качестве основного языка будет выступать C#, так как это наиболее мощный и распространённый язык на .NET платформе. Библиотекой для парсинга будет являться HAP (HtmlagilityPack), где доступ к узлам будет осуществляться за счет XPath. В качестве базы данных будет выступать реляционная база данных MicrosoftSQLServer, приведенная в 3 нормальную форму. Анализ и группировка информации будет осуществляться при помощи алгоритма собственной разработки. В качестве методов DataMining будут реализован методассоциаций. Помимо него будет доступна простая статистика.

Глава 2. Анализ данных и разработка приложения.
Для понимания основной идеи приложения, прежде всего, необходимо глубже проанализировать структуру и функционал сайта, с которого добывается информация.
2.1Структура и функционал сайта hh.ru
Несмотря на узкую специализацию сайта у него довольно широкий функционал. Зарегистрироваться на сайте можно двумя способами. Первый способ – это регистрация в качестве соискателя (человека которому нужна работа), а второй – регистрация в качестве работодателя, чаще всего компания или юр. лицо, которому нужны работники. В зависимости от типа регистрации предоставляются свои возможности работы с сайтом. Так работодатель может создать вакансию, а соискатель оставить резюме.
Помимо основных возможностей, необходимых для поиска работы на сайте присутствует множество дополнительных материалов и опций. Например, на сайте присутствует возможность пройти специальный тест, оценивающий профпригодность тестируемого, а так же возможность записаться на курсы повышения квалификации. На рис 2.1 отражена главная страница сайта.
Так же следует отметить, что на сайте присутствует весьма гибкий расширенный поиск рис 2.2. Используя расширенный поиск можно отобрать вакансии по любой фразе, ключевому слову,профессиональной области, специализации, региону, уровню зарплаты, дате итд.
По причине того, что в работе анализируется спрос на ИТ рынке, сайт будет рассмотрен с точки зрения вакансий относящихся к данному рынку. Другими словами все резюме и вакансии не имеющие отношение к ИТ рассматриваться не будут. рис 2.3.

Рис 2.1 Главная страница сайта hh.ru

Рис 2.2 Расширенный поиск на сайте hh.ru

Рис 2.3. Некоторые профессиональные области доступные для поиска на сайте hh.ru


Профессиональная область «Информационные технологии, интернет, телеком» содержит следующие специализации, по каждой из которых будет производиться полный парсинг вакансий за день рис 2.4.
Рис 2.4. Специализации профессиональной области «Информационные технологии, интернет, телеком». 
После настройки критериев поиска пользователю предоставляется список вакансий рис 2.5. Именно по такому списку происходит парсинг вакансий.
Рис 2.5 Список вакансий отобранных по параметрам


2.2 Потоки данных
Несмотря на высокую функциональность сайта, основная схема его работы довольно проста. При регистрации тип пользователя делится на два вида: соискатель и работодатель. Как уже было сказано выше, у каждого из них свои возможности и функционал. Однако так или иначе основными действиями обоих видов является подача и поиск объявлений о предоставлении работы или же о желании быть принятым на работу. На рисунке 2.6 можно увидеть соответствующую диаграмму потоков данных DFD.Данная модель является моделью AS-IS, т.е. отображает процессы, протекающие на данный момент. Другими словами существенной пользы помимо помощи в нахождении определенных организаций и потенциальных сотрудников компания Headhunterне предоставляет.
Рис 2.6 AS-ISмодель потоков данных функционирования сайта hh.ru, сделанная по методологии DFD
Данная модель является моделью AS-IS, как есть. Другими словами существенной пользы помимо помощи в нахождении определенных организаций и потенциальных сотрудников компания Headhunterне предоставляет.
Приложение, описываемое в этой работе, ориентировано на аналитику, поэтому является скорее сторонним продуктом, нежели дополняющим. Однако та информация, которая добывается при помощи парсинга, содержит 90% информации о каждой вакансии по сравнению с оригиналом. Таким образом, при желании данный программный продукт может использоваться в качестве пополняемой базы данных вакансий.Помимо организованного поиска по базе данных можно будет использовать аналитические методы и методы datamining. В стадии завершенного программного продукта, данное приложение не ттолько поможет проанализировать отдельные аспекты ИТ рынка, но и предложить конкретные вакансии. На рис 2.7. приведена DFDдиаграмма TO-BE.

Рис 2.7 TO-BEмодель потоков данных функционирования разрабатываемого приложения, сделанная по методологии DFD
2.3 Архитектура Базы Данных
В ходе разработки приложения была спроектирована БД. БД была сознада на SQLServerи приведена в 3-ю нормальную форму.Данная БД служит для хранения информации о вакансиях и полученных в ходе семантического анализа тегах.
База данных состоит из 4 таблиц:
 Vacancies;
 Tags_Vacancies;
 Tags;
 ProfAreas.

Таблица «Vacancies»служит для хранения всей информации о вакансиях. Соединена с таблицей «ProfAreas» связью один-ко-многим по полю Specify. Соединенас таблицей «Tags» связью многие-ко-многим при помощи таблицы «Tags_Vacancies». Данная таблица содержит следующие поля:
 ID_vacancy: идентификатор, первичный ключ.Тип: longint;
 Title: название вакансии. Тип:varchar(50);
 Salary: уровень зарплаты. Тип:varchar(50);
 Specify: ИД специализации. Тип:int;
 City: город. Тип:varchar(50);
 Experience: требуемый опыт работы. Тип:varchar(50);
 Date:дата создания вакансии. Тип:varchar(50);
 Text: текст вакансии. Тип:varchar(MAX);
 Hash: hash-значения MD5 от имени вакансии, названия компании и уровня зарплаты. Данное поле является уникальным. Тип:varchar(50);
 Company: название компании разместившей вакансию. Тип:varchar(50).

Таблица «Tags» служит для хранения тегов полученных в ходе семантического анализа. Соединенас таблицей «Vacancies» связью многие-ко-многим при помощи таблицы «Tags_Vacancies».Данная таблица содержит следующие поля:
 ID_tag: идентификатор, первичный ключ.Тип: int;
 Tag: название тега.Уникальное поле. Тип:varchar(50).

Таблица «Tags_Vacancies» служит длясознания связи многие-ко-многим между таблицами «Vacancies» и «Tags». Соединена связями один ко многим с таблицами «Vacancies» и «Tags» по полям «ID_vacancy» и «ID_tag» соответственно. Данная таблица содержит следующие поля:
 ID_vacancy: поле идентификатора вакансии.Тип: longint;
 ID_tag: поле идентификатора тега.Тип:int;
 Tag_importance:поле значимости тега для данной вакансии. Тип:int.

Таблица «ProfAreas» служит дляхранения кода специализации. Данный код необходим для создания соответствующего GET запроса сайтуhh.ru. Соединена с таблицей «Vacancies»связью один-ко-многим. Данная таблица содержит следующие поля:
 ID_area: идентификатор, первичный ключ.Тип: int;
 Value: значение кода специализации. Тип:varchar(50);
 Name: название специализации. Тип:varchar(50).

На рисунке 2.8 представлена схема БД.

Рис 2.8 Схема БД


2.3 Реализация классов и описание основных методов.
Данное приложение разработано в среде VisualStudioна языке C#. Для разработки интерфейсов использовались Windows Forms.

2.3.1 Реализация классов
Основные методы находятся внутри автоматически сгенерированного класса «Form1», т.е. все методы и дополнительные классы находятся внутри формы.
Помимо класса «Form1» были введены 2 дополнительных класса «KeyValue» и «ListValue». «KeyValue» содержит 2 поля: «Key» и «Value» с типами «int» и «string» соответственно. Данный класс публичным, он нужен для хранения ключа (в общем случае любого значения типа «int» имеющего отношение к значению в поле «string») переменной и его значения. Помимо конструкторов без параметров и с параметрами класс не имеет методов. Содержимое класса можно увидеть на рисунке(*).
Класс «ListValue» также содержит 2 поля: «Tags» и«TagText» с типами «List<KeyValue>» и «string» соответственно.Данный классявляется публичным, он служит для хранения информации о тегах вакансии и части её текста. В список в поле Value без повторовзаносятся значенияполучаемых тегов. В случае повтора значение поля Key в повторяющегося тега, которое по умолчанию равняется единице,увеличивается на один. Данный класс, как и класс «KeyValue», состоит исключительно из конструкторов.(*)
2.3.2Описание основных методов.
Одним из основных методов получения и обработки данных является метод «publicvoidparse()». Данный метод вызывается по нажатию на кнопку «Парсинг вакансий». В начале метода объявляются все необходимые переменные, куда будут записываться получаемые значения в результате парсинга. Так как данный метод парсит вакансии только за текущий день, то его следует запускать каждый день. В последующих версиях планируется сделать этот процесс автоматическим и не зависящим от пользователя. Текущая дата хранится в переменной «today». После объявления всех необходимых переменных создается строка GETзапроса. Выглядитданнаястрокаследующемобразом:

http://hh.ru/applicant/searchvacancyresult.xml?orderBy=0&itemsOnPage=100&areaId=113&specializationId=1.10&text=&source=&professionalAreaId=1&compensationCurrencyCode=RUR&noMagic=true&searchPeriod=30&page=1

После указания доменного имени страницы, за символом «?» следует перечисление параметров, которые мы передаем серверу. Задача программы перебрать все вакансии за день для каждой из специализаций. Таким образом следует менять параметры: «&specializationId» и «&page», пока дата размещения вакансии совпадает со значением переменной «today». Если параметр «&page» можно менять лишь увеличивая значение специально созданной переменной типа «int»и поставляя его в строку. То для получения нужного значения для «&specializationId» нужно поключаться к базе и брать значение из таблицы «ProfAreas» по полю «Value».
Для подстановки нужных значений весь последующий код заключен в циклы
Верхний из которых отвечает за подстановку значений в «&specializationId» а нижний в «&page». После подстановки значений создается класс «HtmlDocument» библиотеки «HTMLAgilityPack», который скачивает необходимый документ в переменную «doc». Следует учитывать, что на основе строки с нужным GET запросом формируется класс «HttpWebRequest», который помимо текста ссылки содержит необходимые http заголовки запроса, такие как «Referer», «UserAgent»и другие. Они необходимы для работы со сторонним сервером. Данная процедура осуществляется при помощи метода «publicstringgetRequest(stringurl)».
Переменная «doc» представляет собой DOM дерево HTML тегов. При помощи языка Xpath уточняется месторасположение необходимых частей данного дерева, после чего из него изымается интересующая нас информация и записывается в переменные. В частности на первом этапе берутся ссылки на конкретные вакансии, после чего используя метод метода «publicstringgetRequest(stringurl)», выгружается документ отдельной вакансии в переменную «doc2». На втором этапе из переменной «doc2» вытягивается вся возможная информация о вакансии.
Следует рассмотреть процесс получения текста вакансии. При помощи Xpath берутся все потомки контейнера содержашие части текста вакансии. Потомки представляют собой дочерние HTML теги. Поочередно получая внутренний текст каждого тега, по частям собирается текст вакансии. Параллельно с этим анализируется внутренний текст каждого HTML тега на предмет ключевых слов.
Данный анализ выполняется при помощи метода «publicListValueGetTags(ListValuetags)». Для начала формируется пустой список тегов и строка берущая значение по полю «innerText» у каждого тега. На их основе создается переменная класса «ListValue». Данная переменная передается в метод «GetTags».
Перед анализом из строки удаляются все лишние символы. Затемприпомощифункции «publicboolIsRussian(stringsentence)» определяется язык текста. Это крайне важно т.к. для каждого языка существуют свои правила выделения ключевых слов. Далее в строке ищутся ключевые слова по определенным правилам. Для каждого языка они свои, например для русскоязычного текста об IT сфере, практически любое слово содержащее англоязычный символ является ключевым. Проверку на принадлежность с символа к какой либо группе осуществляется при помощи функции «publicStringCheckCharType(charch)». Далее получаемые ключевые слова, именуемые в данной работе тегами заносятся в список по принципу, если тег повторяется то не создается новый элемент списка, а увеличивается значение поля «Key»у соответствующего элемента типа «KeyValue». Таким образом определяется важность каждого тега для текущей вакансии.
После изъятия всех данных о ваансии происходит занесение в базу. Сначала создается MD5 hash от названия вакансии, названия компании и названия компании. Далее значения вакансии заносятся в базу, в том числе и MD5hash.ЕслиMD5hashнеуникальный, то вакансия в базу не попадет. Затем заносятся все теги этой вакансии из списка переменной «Tags». Следует отметить, что значение тега так же должно быть уникальным, иначе оно заноситься не будет. После занесения вакансий и тегов в поле Tags_Vacancies.ID_vacancies заносится ID последней записи в таблице Vacanciesа далее все теги с э……. пох доделаю потом.

Заключение
В результате прохождения преддипломной практики была собрана и обработана информация о вакансиях с сайта hh.ru. Так же были раскрыты такие понятия как парсинг и семантический анализ, а так же рассмотрены способы и инструменты их реализации.
В рамках проделанной работы были проанализированы существующие способы анализа DOMдерева в формате HTML,XMLиXHTML с целью изъятия из него необходимых данных.(не закончено)описания структуры электронных документов, таких как форматы HTML и SGML, и существующие способы описания документов (подходы DublinCore, SHOE, DoCO, онтология проекта исследовательской группы KWARC).
Кроме того в работе был приведен анализ материалов о предметно-ориентированных языках и обзор методов и средств их разработки:MetaEdit+, MSDSLTools, EclipseGMF, StateMachineDesigner, MetaProgrammingSystem, REAL-IT, UFO-toolkit. Основываясь на результатах анализа, ни одна из рассмотренных технологий не позволяет производить трансформацию созданных моделей из одной нотации в другую. А также отсутствие возможности отчуждения DSL от DSM-платформ практически во всех описанных технологиях, кроме EclipseGMF.
Результатом работы являются три спроектированные метамодели для описания структуры и содержания электронных документов, реализованные при помощи платформы EclipseGMF. На данный момент метамодели описывают элементы электронного документа, реквизиты и его виды.
В дальнейшем данная тема будет расширяться. Планируется разработка предметно-ориентированного языка описания структуры и содержания электронных документов, интегрируемого спроектированные метамодели. Также разрабатываемый DSL должен будут удовлетворять сформулированным требованиям:
 предоставление возможности построения моделей пользователем, не имеющим глубоких знаний в области моделирования;
 являться наглядной для пользователя и не перегруженной лишними элементами;
 набор элементов должен полностью удовлетворять потребности пользователя.

Библиографический список

1. ЭлектронныйресурсGartnerIdentifiestheTop 10 StrategicTechnologyTrendsfor2013
http://www.gartner.com/newsroom/id/1826214
2. ЭлектронныйресурсВикипедия свободная энциклопедия
http://ru.wikipedia.org/wiki/Компьютерная_платформа
3. Codd E.F., Codd S.B., Salley C.T. Providing OLAP to User-Analysts, 1998
4. Codd E.F. A Relational Model of Data for Large Shared Data Banks, IBM Research Laboratory, San Jose, California 1970
5. ЭлектронныйресурсВикипедия свободная энциклопедия
http://ru.wikipedia.org/wiki/Реляционная_модель_данных
6. Thomas Landauer, Peter W. Foltz, & Darrell Laham. «Introduction to Latent Semantic Analysis», 1998.
7. Davenport T.H., Harris J.G. Competing on Analytics: The New Science of Winning, Harvard Business School Press, 2007
8. Fayyad U., Piatetsky-Shapiro G., Smyth P. From Data Mining to Knowledge Discovery in Databases, 2008

Предложите, как улучшить StudyLib

(Для жалоб на нарушения авторских прав, используйте

другую форму
)

Ваш е-мэйл

Заполните, если хотите получить ответ

Оцените наш проект

1

2

3

4

5


Подборка по базе: Практическое задание по теме 1.2. Система управления качеством.d, Высшая математика 3 задание № 2.docx, Высшая математика 3 задание № 1.docx, практическое задание № 1 по основам экологического права.doc, практическое задание.docx, Итоговое задание математика 1.docx, Практическое задание.pptx, УП ПМ.01 Договор на практику 4 семестр.docx, инженерные задачи 1 задание.docx, практическое задание 28.02.docx


ЗАДАНИЕ НА ПРАКТИКУ (БИЗНЕС-ИНФОРМАТИКА)

Задание состоит из 3 (трех) блоков:

1. Анализ инструментов для моделирования

2. Свод-анализ 3х инструментов моделирования
БЛОК 1 «Анализ инструментов моделирования»
В рамках задания необходимо руководствоваться следующим определением:

Инструмент – программное обеспечение, применяемое для моделирования бизнес-процессов (в ходе реализации процессного управления).
Не целесообразно воспринимать инструменты только в области формализации описания бизнес-процессов (создания карт бизнес-процессов). Постановка задачи шире: все области процессного управления (например, управление требованиями, имитационное моделирование и т.п.).
Сейчас нам с Вами важно понимать непосредственно инструментальное поле (то с чем, в чем Вам придется работать)
Перечень инструментов для анализа (специально не систематизированы по областям):

1. ArchiMate

2. Aris (в том числе ARIS Express)

3. BizAgi Process Modeler

4. Borland Caliber RM

5. BPwin

6. Enterprise Architect

7. GridGain In-Memory Data Fabric

8. IBM Rational / Telelogic DOORS

9. IBM Rational RequisitePro

10. KNIME (в том числе KNIME Analytics Platform)

11. MS Power BI

12. Pentaho BI Suite

13. ProcessOn

14. QlikView

15. R Studio

16. RapidMiner

17. Rational Method Composer

18. Rational Unified Process (RUP)

19. Redmine

20. SAS

21. SPSS

22. StarUML

23. Talend

24. Visual Paradigm

Каждым из Вас по каждому инструменту делается экспресс-обзор.

Ключевые моменты экспресс-обзора:

1. Наименование

2. Область применения

3. Тип ПО

4. Резюме (краткое описание сути инструмента): для чего нужен и что может Материалы представляются в систематизированном виде: необходимо упорядочить перечень по областям применения (сейчас они даны просто по алфавиту).
Далее каждый из Вас выбирает себе 3 (три) инструмента и делает по ним полный анализ.

Ключевые моменты для полного анализа инструмента:

1. Наименование

2. Разработчик

3. Сайт

4. Год создания

5. Версии ПО

6. Компоненты (с описанием их функциональных возможностей)

7. Круг решаемых функциональных задач (для чего может применяться, при каких задачах мы будем использовать это ПО?)

8. Сегмент рынка, в котором наиболее применяется ПО (например: KNIME: рынок BIтехнологий (рынок бизнеса-аналитики (BI) и аналитического программного обеспечения), сегмент расширенной аналитики (Advanced Analytics Platforms))

9. Области применения / Примеры проектов, где использовалось (не менее 3-х)

10. Тип ПО (например: открытая интегрированная платформа)

11. Основной язык программирования (например: Java на основе Eclipse (среда разработки))

12. Интеграция с другими ПО

13. Документация по ПО

14. Скрины интерфейсов ПО (с кратким описанием)

15. Представлен ли на российском рынке (используют ли в РФ; если да, то с какого года)

16. Аналитическое резюме (отражение сильных и слабых сторон, вывод относительно того: использовали ли бы Вы его)

17. Использованная литература
Каждая работа будет проверена на антиплагиат

Алгоритм (!): прочитали – осмыслили – написали своими словами.
Сейчас от Вас требуется прежде всего понимание:

  1. что из себя представляет тот или иной инструмент,
  2. что он может
  3. при возникновении какой задачи Вы будете рассматривать возможность его использования.

ШАБЛОН 1
Экспресс обзор инструментов
KNIME

  1. Наименование

KNIME [the Konstanz Information Miner]

  1. Область применения

Первоначально создана для анализа данных в фармацевтической отрасли

Сейчас применяется в следующих отраслях (видах деятельности):

Химическая промышленность (в т.ч. фармацевтика)

Автомобилестроение

Энергетика

Издательская деятельность

Телекоммуникации

Банковский сектор

Консалтинговые услуги

НИОКР (работа исследовательских групп)

  1. Тип ПО

Открытая интегрированная платформа

  1. Резюме (краткое описание сути инструмента): для чего нужен и что может

Относится к бесплатным аналитическим и data-mining инструментам. Считается наиболее сильной платформой в мире среди открытых и бесплатных платформ.

По сути: конструктор (только англоязычная версия). В Knime процесс программирования логики осуществляется через создание Workflow.

Позволяет выполнять сложные формы интеллектуального анализа данных для выявления тенденций и прогнозирования возможных результатов.
ДЛЯ ВСЕХ ИНТСРУМЕНТОВ !!!

ШАБЛОН 2
Полный анализ инструмента KNIME

Наименование KNIME [the Konstanz Information Miner]

(произносится как [naim])

Разработчик Michael Berthold (University of Konstanz)
Сайт https://www.knime.org/
Год создания 2006 год – Силиконовая долина

Сан-Франциско – штат Калифорния (США)

Версии ПО 4.0.1 (c 15 августа 2019 г.)
Компоненты (с описанием их функциональных возможностей) KNIME Analytics Platform Аналитическая платформа
KNIME Personal Productivity Повышение производительности при индивидуальной лицензии
KNIME Partner Productivity Повышение производительности при коллективной лицензии
KNIME TeamSpace Совместная работа
KNIME Server Сервер
KNIME Server Lite Сервер – ограниченная версия
KNIME Cloud Server Сервер – облачное решение
KNIME Big Data Extensions Большие массивы данных
KNIME Cluster Execution Кластерное решение управления процессами
Круг решаемых функциональных задач
  • Позволяет выполнять сложные формы интеллектуального анализа данных для выявления тенденций и прогнозирования возможных результатов.
  • Позволяет пользователю:
    • визуально конструировать потоковые сценарии обработки и анализа данных
    • выполнять построенные сценарии
    • исследовать результаты анализа, используя интерактивную визуализацию.
  • Процесс анализа по KNIME условно разбит на следующие блоки (каждый из них должен быть точно настроен аналитиком):
    • получение доступа к данным
    • преобразование данных
    • первоначальное изучение
    • предиктивный анализ (Predictive analytics – прогностическая аналитика)
    • визуализация
    • формирование отчетов (только шаблонные отчеты)
    • экспорт в различных форматах, таких как DOC, PPT, XLS, PDF
Сегмент рынка, в котором наиболее применяется ПО Рынок BI-технологий (рынок бизнеса-аналитики (BI) и аналитического программного обеспечения), сегмент расширенной аналитики (Advanced Analytics Platforms)
Области применения Первоначально создана для анализа данных в фармацевтической отрасли

Сейчас применяется в следующих отраслях (видах деятельности):

Химическая промышленность (в т.ч. фармацевтика)

Автомобилестроение

Энергетика

Издательская деятельность

Телекоммуникации

Банковский сектор

Консалтинговые услуги

НИОКР (работа исследовательских групп)

Используется в более чем 60 странах, распространяется на данные разного рода вплоть до формирования сложных отчетов и проведения глубинного анализа данных (не выявлено случаев применения в госсекторе)

Тип ПО открытая интегрированная платформа
Основной язык программирования Java на основе среда разработки Eclipse
Интеграция с другими ПО Нет данных
Документация по ПО https://docs.knime.com/
Представлен ли на российском рынке Появление на российском рынке – 2014 год

Изначально в России фактически не представлена за исключением некоторых внедрений в научной среде.

С 2016 г. используются в государственных информационных системах (например модуль прогнозирования ГИС ТЭК).

Аналитическое резюме

  • (отражение сильных и слабых сторон, вывод относительно того: использовали ли бы Вы его)

Относится к бесплатным аналитическим и data-mining инструментам.

считается наиболее сильной платформой в мире среди открытых и бесплатных платформ.

По сути: конструктор (только англоязычная версия). В Knime процесс программирования логики осуществляется через создание Workflow.

Пользователю предлагается более 1000 модулей (узлов), разработанных как участниками сообщества KNIME, так и представителями обширной сети партнеров.

Сильные стороны:

  • Бесплатное ПО
  • Свободное скачивание установочного файла (дистрибутива) с официального сайта.
  • Наличие обучающего контента: раздел с демо-примерами, видеолекциями.
  • Широкий набор функционала даже в базовом варианте ПО.
  • Возможно расширение функционала.

Слабые стороны:

  • Недостаточно гибкое поведение узлов – они работают так как хотят и подтюнить какие-то нюансы работы может быть достаточно сложно (если не влезать внутрь кода)
  • Программирование сложных flow может вылиться в длинную и сложную диаграмму с циклами, условиями что приведет к сложности чтения и отладки. В данном случае написание кода на R или Python может быть более правильным выбором

Скрины интерфейсов ПО (с кратким описанием)
Графический пользовательский интерфейс, что позволяет визуально составлять потоки данных.

Аналитик должен настроить конвейер (поток работ), который отображается графически как набор узлов, связанных вместе стрелками, указывающими направление потоков данных (Рисунок 1)

Рис. 1. – Иллюстрация работы сервиса прогнозной аналитики (простой отчет)
Суть проведения анализа данных сводится к следующему: аналитик использует разнообразные методы анализа, которые представлены программой в виде «узлов», исходя из задачи, которую необходимо решить, путем последовательного перетаскивания в рабочую область этих элементов-«узлов», формируя в конечном счете поток данных
ДЛЯ 3 (ТРЕХ) ИНСТРУМЕНТОВ ИЗ ОБЩЕГО ПЕРЕЧНЯ (Knime не брать)!!!

Содержание

  1. Примеры отчетов по практике ВШЭ в 2023 году
  2. Направления подготовки
  3. Введение
  4. Заключение
  5. Наша помощь

Национальный исследовательский университет «Высшая школа экономики» является одним из самых популярных высших учебных учреждений нашей страны. Это автономная организация, которая была основана в 199 году. Пройдя реорганизацию в 2009 году, ВШЭ получила не только нынешнее название, но и статус. Популярно данное образовательное учреждение тем, что именно оно первое перешло на систему подготовки бакалавров и магистров, а также тем, что именно эксперты данного НИУ помогали в разработке и внедрении ЕГЭ.

Примеры работ

Практика делится на несколько этапов, один из которых считается подготовительным для студентов ВШЭ. На данном этапе студентам раздают методические рекомендации, знакомят с требованиями ГОСТа, а также выдают индивидуальное задание, которые помогут представить, то должен представлять собой отчет по любому виду практике для любого направления. Но сухие указания с бумажки не всегда дают обучающимся полное представление о требуемой работе. В данном разделе мы собрали реальные примеры отчетов по учебной, ознакомительной, производственной и преддипломной практике для обучающихся в ВШЭ.

  • Отчет по практике. Пример 1
  • Отчет по практике. Пример 2
  • Отчет по практике. Пример 3
  • Отчет по практике. Пример 4
  • Отчет по практике. Пример 5
  • Отчет по практике. Пример 6
  • Отчет по практике. Пример 7
  • Отчет по практике. Пример 8
  • Отчет по практике. Пример 9
  • Отчет по практике. Пример 10

Направления подготовки

На сегодняшний день ВШЭ осуществляет подготовку кадров по следующим образовательным направлениям:

  1. Экономические науки;
  2. Социальные науки;
  3. Бизнес и менеджмент;
  4. Международная экономика и финансы;
  5. Мировая экономика и политика;
  6. География и Геоинформационные технологии;
  7. Гуманитарные науки;
  8. Компьютерные науки;
  9. Электроника и математика;
  10. Юриспруденция;
  11. Коммуникации, медиа и дизайн;
  12. Физика;
  13. Городское и региональное развитие;
  14. Химия;
  15. Биология и биотехнологии.

Введение

Введение является одной из самых коротких, но также и важных частей в отчете по практике. Оно идет после титульного листа и содержания, отражает суть работы, показывает, какие цели преследует студент, при выполнении индивидуального задания. Объем данного раздела обычно не превышает 1-2 листа формата А4.

Введение должно содержать в себе:

  • Актуальность работы;
  • Цели;
  • Задачи;
  • Предмет и объект исследования;
  • Место прохождения практики;
  • Сроки практики.

Заключение

Заключением называют один из последних разделов студенческих работ, в том числе и отчета по практике. Как и введение, это небольшой по объему раздел, однако, если введение знакомит читателя с основными положениями работы, то заключение показывает выводы по проделанному исследованию. Объем данного раздела обычно не превышает 1-3 листа формата А4.

Заключение должно содержать в себе:

  • Место прохождения практики;
  • Ответ на вопрос «Достигли ли вы всех поставленных целей и задач?»;
  • Перечень документации, с которой вы работали на предприятии;
  • Отчет на вопрос «Что вам дала эта практика?»;
  • Трудности при прохождении практики;
  • Краткие итоги практики.

Наша помощь

Наша команда не первый год работает со студентами различных высших учебных заведений и направлений подготовки. Наши специалисты окажут компетентную помощь студентам Национального исследовательского университета «Высшая школа экономики», дадут консультацию по всем интересующим вопросам, предоставят образцы подобных работ, помогут составить заказ на готовый отчет по любому виду практики. Ваша работа будет готова в кратчайшие сроки за приемлемую цену, а так же будет соответствовать всем установленным методическим рекомендациям и требованиям ГОСТа.

Помощь с прохождением практики и выполнением отчетов по практике:

  • Преддипломная, производственная, учебная, ознакомительная, технологическая, консультативная, НИР;
  • Отчеты по практике «под ключ»;
  • Помощь с организацией практики для студентов, печати;
  • Повышение уникальности отчетов;
  • Подготовка презентации для отчета по практике.
  • Прочее (дневник, отзыв, рецензия и т. д.).

Заказать отчет по практике: dist24@mail.ru , 8 (800) 100-26-28

Понравилась статья? Поделить с друзьями:
  • Вы группа руководителей компании пески египта
  • Время работы петроэлектросбыта на наставников
  • Вы не внесли уточнения для реквизитов платежа
  • Время работы пищеварительной системы человека
  • Выборгский рвк г санкт петербурга часы работы