средства установки и настройки Hadoop.

Заказать уникальный реферат
Тип работы: Реферат
Предмет: Информационные технологии
  • 15 15 страниц
  • 8 + 8 источников
  • Добавлена 14.07.2018
299 руб.
  • Содержание
  • Часть работы
  • Список литературы
СОДЕРЖАНИЕ

Введение 3
1 Основные понятия о Hadoop 5
2 Установка Hadoop 8
2.1 Процессы, необходимые перед установкой Hadoop 8
2.2 Наиболее популярный способ установки Hadoop 8
3. Настройка Hadoop 12
Заключение 14
Список использованной литературы 15

Фрагмент для ознакомления

Если позднее будет необходимо обновить и установить новую версию ПО Hadoop V1, можно просто изменить эту ссылку, чтобы указать на нее. При этом среда и сценарии могут оставаться статическими и всегда использовать путь / usr / local / hadoop.
Далее необходимо:
Настроить файл оболочки Bash для hadoop $ HOME / .bashrc;
Настроить conf / hadoop-env.sh;
создать временную директорию Hadoop;
настроить conf / core-site.xml;
настроить conf / mapred-site.xml.
Настроить файл conf / hdfs-site.xml. Форматирование файловой системы.

3. Настройка Hadoop


После завершения всех задач подготовки необходимо сконфигурировать кластер Hadoop. Псевдораспределенный режим - очень хорошая отправная точка, если у вас нет опыта в настройке кластера Hadoop. [7].
Существует несколько файлов для управления конфигурацией установки Hadoop, наиболее важные из них приведены в табл. 1 [8].
Таблица 1 – Файлы для настройки Hadoop

Имя файла Формат Описание hadoop-env.sh Bash script Переменные среды, которые используются в сценариях для запуска Hadoop. core-site.xml Hadoop configuration XML Настройки конфигурации для Hadoop Core, такие как настройки ввода / вывода, которые являются общими для HDFS и вычислительной парадигмой MapReduce (рис. 3). hdfs-site.xml Hadoop configuration XML Настройки конфигурации для HDFS-демонов: namenode, вторичный namenode и datanodes. mapred-site.xml Hadoop configuration XML Настройки конфигурации для демонов вычислительной парадигмы MapReduce: jobtracker и Tasktrackers. masters Plain text Список машин (по одной в строке), в которых каждый запускает вторичный наменода. slaves Plain text Список машин (по одному на строку), в которых каждый запускает datanode и tasktracker. hadoop-metrics.properties Java Properties Свойства для контроля того, как показатели публикуются в Hadoop log4j.properties Java Properties Свойства для системных лог-файлов, журнала аудита номенклатуры и журнала задач для дочернего процесса tasktracker («Журналы пользователей Hadoop»)














Рисунок 3 – Схема потока данных MapReduce

Эти файлы все находятся в каталоге conf дистрибутива Hadoop. Каталог конфигурации может быть перемещен в другую часть файловой системы (за пределами установки Hadoop, что упрощает обновление), пока демоны запускаются с параметром config, определяющим расположение этого каталога в локальной файловой системе.



Заключение

В заключении отметить, что с помощью Hadoop можно решать различные задачи машинного обучения и анализа данных, при этом используя простой в использовании и открытый (open source) фреймворк, который поддерживает большое количество ОС и языков программирования, а также масштабируется для обработки больших данных.
В данной работе достигнута основная цель – описаны средства установки и настройки Hadoop.
В данном реферате были решены следующие задачи:
приведены основные понятия, связанные с Hadoop;
описан процесс установки Hadoop;
описан процесс настройки Hadoop.
Также в процессе написания реферата были использованы современные и классические источники литературы и глобальной сети Internet.


Список использованной литературы

Hadoop – Википедия [Электронный ресурс]. – Режим доступа : https://ru.wikipedia.org/wiki/Hadoop, свободный. – Загл. с экрана.
Hoffman S. Apache Flume: Distributed Log Collection for Hadoop. Packt Publishing, 2013. — 108 p.
Кук Д. Машинное обучение с использованием библиотеки Н2О. М.: ДМК Пресс, 2018. — 252 с.
Turkington G. Hadoop Beginner's Guide: Learn how to crunch big data to extract meaning from the data avalanche. Packt Publishing, 2013. — 398 p.
Aven J. Sams Teach Yourself Hadoop in 24 Hours. Sams Publishing, 2017. — 744 p.
Frampton M. Big Data Made Easy: A Working Guide to the Complete Hadoop Toolset. N.-Y.: Apress, 2014. - 392p.
Guo S. Hadoop Operations and Cluster Management Cookbook. Packt Publishing, 2013. — 368 p.
White T. Hadoop: The Definitive Guide. 2-th Edition. — O'Reilly Media / Yahoo Press, 2010. — 628 p.









2

Список использованной литературы

1. Hadoop – Википедия [Электронный ресурс]. – Режим доступа : https://ru.wikipedia.org/wiki/Hadoop, свободный. – Загл. с экрана.
2. Hoffman S. Apache Flume: Distributed Log Collection for Hadoop. Packt Publishing, 2013. — 108 p.
3. Кук Д. Машинное обучение с использованием библиотеки Н2О. М.: ДМК Пресс, 2018. — 252 с.
4. Turkington G. Hadoop Beginner's Guide: Learn how to crunch big data to extract meaning from the data avalanche. Packt Publishing, 2013. — 398 p.
5. Aven J. Sams Teach Yourself Hadoop in 24 Hours. Sams Publishing, 2017. — 744 p.
6. Frampton M. Big Data Made Easy: A Working Guide to the Complete Hadoop Toolset. N.-Y.: Apress, 2014. - 392p.
7. Guo S. Hadoop Operations and Cluster Management Cookbook. Packt Publishing, 2013. — 368 p.
8. White T. Hadoop: The Definitive Guide. 2-th Edition. — O'Reilly Media / Yahoo Press, 2010. — 628 p.