Разработка продуктов обработки данных» на тему: «Анализ данных по вакансиям

Заказать уникальную курсовую работу
Тип работы: Курсовая работа
Предмет: Статистика в R
  • 36 36 страниц
  • 7 + 7 источников
  • Добавлена 11.03.2022
1 496 руб.
  • Содержание
  • Часть работы
  • Список литературы
  • Вопросы/Ответы
Оглавление
ВВЕДЕНИЕ 3
1. ЗАДАЧИ АНАЛИЗА ДАННЫХ 4
1. Множественный регрессионный анализах 4
2. Кластерный анализ 9
3. Факторный анализ 12
4. Дискриминантный анализ 15
5. Дисперсионный анализ 17
2. РЕЗУЛЬТАТЫ И ОБСУЖДЕНИЕ 20
2.1 Подготовка данных 20
2.2 Решение поставленных вопросов 22
ЗАКЛЮЧЕНИЕ 32
СПИСОК ЛИТЕРАТУРЫ 33





Фрагмент для ознакомления

Поскольку в наборе данных преобладают строковые переменные требующие обработки, для упрощения проведения исследования будет использоваться дополнительные библиотек Stringr. Stringr - библиотека предоставляет связный набор функций, призванных максимально упростить работу со строками. Команды открытия файла данных и результат их выполнения приведены на рисунке11.Рис. 10 — открытие файла данных и просмотр его структурыВ правой части экрана мы видим преречнь данных и типы данных с которыми они прочитаны.Второй способ открытия данных приведён на рисунке 11. Мы выполняем команду импорта данных и тем самым окрываем данные.Рис. 11 -импорт данных из тестового файла.Всего в файле содержатся около 18 тысяч записей о вакансиях на сайтах США.2.2Решение поставленных вопросов2.2.1 В какой отрасли самые высокие средние оклады?Просматривая файл мы видим, что данные об окладах есть в колонке описывающей вилку зарплат. Эти данные есть не во всех записях. Поэтому мы выбием тезаписи в которых эти сведения есть, рассчитываем средний оклад и создаём таблицу отраслей и коладов.Рис. 12 -исключение строк без указания вилки окладовРис. 13 — колонка с данными для расчёта среднего окладаРис.14 — расчёт среднего окладаВывводим таблицу средних окладов по отраслям. Она на рсиунке 16.Рис. 15 -таблица средних окладов по отраслям.Таблица на рисунке 15 показвает, что наибольшие оклады в отрасли интернет и компьютеры. Заметив, что взаписях не содержащих сведений об отрасли оклады могут быть выше.2.2.2 В каком местоположении больше всего ложных вакансий?Выделяем заведомо ложные вакансии и на их основе создаем таблицу регионов с ложными вакансиями. Эта таблица на рисунке 17.Рис. 16 количество ложных вакансий по регонамИзучение таблицы показвает, что искомый регион это город Остин штата Техас.2.2.3. Как соотносится необходимый опыт с требуемым образованием?Необходимые сведения содержаться в двух колонках, содержащих текстовые данные. Для анfлиза создаём одну колнку и считаем частоту возникновения каждой парты. Таблица на рисунке 18.Рис.17 - необходимый опыт и необходимое образованиеДанные таблицы на рисунке 17 показвают, что для начальных уровней опыта плюсом является высшее образование, а для средних и высших уровней образования плюсом является степень бакалавра. Степень магистра возникает не часто и не связана с уровнем опыта.2.2.4. Постройте классификационную модель по данному набору данныхВозьмём те же две колонки и построи по ним кросс таблицу. Она на рисунке 19.Рис. 18 - категории опыта и образованияМожно построить таблицу, содержащую частоты. Она на риснунке 20Рис.19 -таблица сопряжения требуемого опыта и образованияТаблица на рисунке 19 подтвержает предыдущие выводы. В ней мы видим, что по большей части вакансий сведения об образовании не требуются.Частоты в таблице сопряжённостиРис. 20 - таблица частот2.2.5. Какой атрибут наиболее важен при определении является ли вакансия мошенническойПостроив кросстаблицы, связанные с мошенническими вакансиями останавливаюсь на категории должностей. Таблица на риснке22.Рис. 21 — кросстаблица категории должностей и фальшивостиТаблица на риснке 21 показвает, что для административных должностей каждая третья вакансия фальшивая, а для инженерных каждая десятая вакансия фальшивая. Поэтому наиболее важной характеристикой ложных вакансий является категория должности. ЗАКЛЮЧЕНИЕ По результатам курсовой работы было проведено исследование набора данных, содержащего в себе информацию о вакансиях на сайтах США. Содержимое данного набора данных было проанализировано посредствам языка R. Были получены ответы на поставленные вопросы:В какой отрасли самые высокие средние оклады?В каком местоположении больше всего ложных вакансий?Как соотносится необходимый опыт с требуемым образованием?Постройте классификационную модель по данному набору данныхКакой атрибут наиболее важен при определении является ли вакансия мошеннической Для проведения исследования был выбран метод кросс таблицПо результатам исследования в наборе данных были выявлены азакономерности процесса . СПИСОК ЛИТЕРАТУРЫ1. Алиакберова, Л. Ф. Современные программные продукты для анализа данных / Л. Ф. Алиакберова. — Текст: непосредственный // Молодой ученый. — 2021. — № 37 (379). — С. 13-17.2. Брюс, П. Практическая статистика для специалистов Data Science /П. Брюс, Э. Брюс. — СПб.: БХВ-Петербург, 2018. — 304 с.3. Волкова, П.А. Статистическая обработка данных в учебно-исследовательских работах / П.А. Волкова, А.Б. Шипунов. - М.: Форум, 2012. - 96 c.3. Волкова, П.А. Статистическая обработка данных в учебно-исследовательских работах: Учебное пособие / П.А. Волкова, А.Б. Шипунов. - М.: Форум, 2017. - 832 c.4. В. Л. Егошин, С. В. Иванов, Н. В. Саввина, Ж. Капанова, А. М. Гржибовский Основы работы в программной среде R при анализе данных//Экология человека 2018, 07, с. 55-645. Ершов, К. С. Анализ и классификация алгоритмов кластеризации / К. С.Ершов, Т. Н. Романова. // Новые информационные технологии в автоматизированных системах. – 2016. – №19. – С. 274-279.6. Зарядов И.С. Введение в статистический пакет R: типы переменных, структуры данных, чтение и запись информации, графика. Москва: Изд-во РУДНБ, 2010а. 207 с.7. Ивин В. В. Применение языка R и среды RSTUDIO для статистического анализа данных// В сборнике: Педагогический опыт: от теории к практике Сборник материалов VI Международной научно-практической конференции. Редколлегия: О.Н. Широков [и др.]. 2018. С. 47-53.8. Кабаков Р.И. R в действии. Анализ и визуализация данных в программе R/Р.И. Кабаков– М.: ДМК Пресс, 2014. – 588 с.9. Мастицкий С.Э. Статистический анализ и визуализация данных с помощью R. / С.Э. Мастицкий, В.К. Шитиков. - Москва: ДМК Пресс, 2015. - 496 с. - ISBN 978-5-97060-301-710. Мастицкий С.Э. Визуализация данных с помощью ggplot2 / С.Э. Мастицкий. - Москва : ДМК Пресс, 2017. - 222 с.11. Неувонен П., Пёюхья Т., Мустонен Т. Выборг. Архитектурный путеводитель / Пер. Л. Кудрявцевой. — 2-е изд. — Выборг: «СН», 2008. — 160 с. — ISBN 5-900096-06-8.12. Суслов, С. А. Кластерный анализ: сущность, преимущества и недостатки/ С. А. Суслов. // Вестник НГИЭИ. – 2011. – №1. – С. 51-56.13. Уикем, Х. Язык R в задачах науки о данных: импорт, подготовка, обработка, визуализация и моделирование данных / Х. Уикем. - М.: Диалектика, 2018. - 592 c.14. Шипунов А.Б. и др. Наглядная статистика. Используем R! Москва: ДМК Пресс, 2014. 298 с. 15. Шитиков В. К., Мастицкий С.Э. Классификация, регрессия и другие алгоритмы Data Mining с использованием R. 2017. 351 с.16. Открытый курс машинного обучения. Тема 7. Обучение без учителя: PCA и кластеризация / Open Data Science [электронный ресурс]. – Режим доступа: URL: https://habr.com/ru/company/ods/blog/325654/ (дата обращения 10.12.2021 г.)


СПИСОК ЛИТЕРАТУРЫ
1. Алиакберова, Л. Ф. Современные программные продукты для анализа данных / Л. Ф. Алиакберова. — Текст: непосредственный // Молодой ученый. — 2021. — № 37 (379). — С. 13-17.
2. Брюс, П. Практическая статистика для специалистов Data Science /
П. Брюс, Э. Брюс. — СПб.: БХВ-Петербург, 2018. — 304 с.
3. Волкова, П.А. Статистическая обработка данных в учебно-исследовательских работах / П.А. Волкова, А.Б. Шипунов. - М.: Форум, 2012. - 96 c.
3. Волкова, П.А. Статистическая обработка данных в учебно-исследовательских работах: Учебное пособие / П.А. Волкова, А.Б. Шипунов. - М.: Форум, 2017. - 832 c.
4. В. Л. Егошин, С. В. Иванов, Н. В. Саввина, Ж. Капанова, А. М. Гржибовский Основы работы в программной среде R при анализе данных
//Экология человека 2018, 07, с. 55-64
5. Ершов, К. С. Анализ и классификация алгоритмов кластеризации / К. С.Ершов, Т. Н. Романова. // Новые информационные технологии в автоматизированных системах. – 2016. – №19. – С. 274-279.
6. Зарядов И.С. Введение в статистический пакет R: типы переменных, структуры данных, чтение и запись информации, графика. Москва: Изд-во РУДНБ, 2010а. 207 с.
7. Ивин В. В. Применение языка R и среды RSTUDIO для статистического анализа данных// В сборнике: Педагогический опыт: от теории к практике Сборник материалов VI Международной научно-практической конференции. Редколлегия: О.Н. Широков [и др.]. 2018. С. 47-53.
8. Кабаков Р.И. R в действии. Анализ и визуализация данных в программе R/Р.И. Кабаков– М.: ДМК Пресс, 2014. – 588 с.
9. Мастицкий С.Э. Статистический анализ и визуализация данных с помощью R. / С.Э. Мастицкий, В.К. Шитиков. - Москва: ДМК Пресс, 2015. - 496 с. - ISBN 978-5-97060-301-7
10. Мастицкий С.Э. Визуализация данных с помощью ggplot2 / С.Э. Мастицкий. - Москва : ДМК Пресс, 2017. - 222 с.
11. Неувонен П., Пёюхья Т., Мустонен Т. Выборг. Архитектурный путеводитель / Пер. Л. Кудрявцевой. — 2-е изд. — Выборг: «СН», 2008. — 160 с. — ISBN 5-900096-06-8.
12. Суслов, С. А. Кластерный анализ: сущность, преимущества и недостатки/ С. А. Суслов. // Вестник НГИЭИ. – 2011. – №1. – С. 51-56.
13. Уикем, Х. Язык R в задачах науки о данных: импорт, подготовка, обработка, визуализация и моделирование данных / Х. Уикем. - М.: Диалектика, 2018. - 592 c.
14. Шипунов А.Б. и др. Наглядная статистика. Используем R! Москва: ДМК Пресс, 2014. 298 с.
15. Шитиков В. К., Мастицкий С.Э. Классификация, регрессия и другие алгоритмы Data Mining с использованием R. 2017. 351 с.
16. Открытый курс машинного обучения. Тема 7. Обучение без учителя: PCA и кластеризация / Open Data Science [электронный ресурс]. – Режим доступа: URL: https://habr.com/ru/company/ods/blog/325654/ (дата обращения 10.12.2021 г.)

Вопрос-ответ:

Какие задачи решаются при анализе данных по вакансиям?

Анализ данных по вакансиям позволяет решить различные задачи, включая множественный регрессионный анализ, кластерный анализ, факторный анализ, дискриминантный анализ и дисперсионный анализ.

Что такое множественный регрессионный анализ и как он применяется при анализе данных по вакансиям?

Множественный регрессионный анализ - это метод статистической обработки данных, который позволяет исследовать связь между зависимой переменной и несколькими независимыми переменными. Он может быть применен при анализе данных по вакансиям для определения влияния различных факторов на зарплатные предложения или другие характеристики рабочих мест.

Как проводится кластерный анализ при анализе данных по вакансиям?

Кластерный анализ при анализе данных по вакансиям позволяет выявить сходство или различие между вакансиями на основе их характеристик. Для проведения кластерного анализа используются различные алгоритмы, которые помогают сгруппировать вакансии в подобные кластеры в зависимости от их схожести или различия в требованиях к навыкам или других параметрах.

Чем отличается факторный анализ от других методов анализа данных по вакансиям?

Факторный анализ - это метод, который позволяет исследовать внутренние взаимосвязи между набором наблюдаемых переменных и выявить общие факторы, которые могут объяснять их вариацию. В контексте анализа данных по вакансиям факторный анализ может быть использован для идентификации скрытых факторов, влияющих на определенные аспекты рабочих мест, такие как зарплата или требуемые навыки.

Какой результат можно получить с помощью дисперсионного анализа при анализе данных по вакансиям?

Дисперсионный анализ позволяет выявить различия между группами вакансий в зависимости от определенных факторов. Например, с его помощью можно определить, есть ли статистически значимые различия в зарплатных предложениях для разных категорий работников или в требованиях к навыкам для различных должностей.

Какие задачи включает в себя анализ данных о вакансиях?

Задачи анализа данных о вакансиях включают множественный регрессионный анализ, кластерный анализ, факторный анализ, дискриминантный анализ и дисперсионный анализ.

На что направлен множественный регрессионный анализ в анализе данных о вакансиях?

Множественный регрессионный анализ в анализе данных о вакансиях направлен на определение связи между различными переменными и прогнозирование значений одной переменной на основе значений других переменных.

Что позволяет выявить кластерный анализ в анализе данных о вакансиях?

Кластерный анализ в анализе данных о вакансиях позволяет выявить группы вакансий, которые имеют схожие характеристики, такие как требуемый опыт работы, навыки, тип компании и т.д.

Какую цель преследует факторный анализ в анализе данных о вакансиях?

Целью факторного анализа в анализе данных о вакансиях является определение скрытых факторов, которые могут оказывать влияние на характеристики вакансий, например, факторы, определяющие объем зарплаты или требования к квалификации.

Каким образом дисперсионный анализ используется в анализе данных о вакансиях?

Дисперсионный анализ используется в анализе данных о вакансиях для сравнения средних значений между группами вакансий и определения статистически значимых различий, например, в зарплате между разными индустриями или типами компаний.