Hướng dẫn cài đặt Hadoop cluster

CHƯƠNG 3: HADOOP VÀ THỰC NGHIỆM

3.2.1 Hướng dẫn cài đặt Hadoop cluster

Những phiên bản phần mềm, hệ điều hành dùng trong cài đặt:

- Hệ điều hành Ubuntu-16.04-1-desktop-amd64 - Java

- SSH cài sẵn trên hệ điều hành - Hadoop phiên bản 2.2.0

Những cài đặt và thiết lập chung trên hệ thống (đƣợc thực hiện trong Terminal)

3.2.1.1 Cài đặt Java

Hadoop yêu cầu các máy tính trên cluster phải đƣợc cài Java với phiên bản thấp nhất là 1.5, và phiên bản khuyên dùng là 1.6. Do đó, để hệ thống hoạt động một cách tốt nhất, phiên bản Java 1.6 sẽ được hướng dẫn cài đặt. Ngoài ra, trong hướng dẫn sau, việc cài đặt Java sẽ được thực hiện thông qua một nhà phân phối, nếu thấy đó là không an toàn, bạn có thể tải và cài đặt Java theo hướng dẫn tại trang chủ của Oracle.

- Kiểm tra java đã đƣợc cài đặt trên ubuntu bằng câu lệnh: $ java version

- Nếu máy chƣa đƣợc cài đặt java, ta sẽ cài đặt bằng câu lệnh: $ sudo apt-get install openjdk-9-jdk

- Cài đặt ssh: $ sudo apt-get install openssh-server 3.2.1.2 Tạo người dùng riêng cho Hadoop

- Tạo nhóm người dùng hadoop: $ sudo addgroup hadoop

- Thêm người dùng hduser thuộc nhóm người dùng hadoop: $ sudo adduser -- ingroup hadoop hduser

- Đăng nhập vào tài khoản người dùng hduser: $ su -- hduser 3.2.1.3 Cấu hình ssh

Tạo ra khóa chứng thực SSH cho hduser:

$ ssh-keygen -t rsa -P ""

$ cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_key Kiểm tra bằng lệnh: $ ssh localhost

3.2.1.4 Cài đặt và cấu hình Hadoop

- Giải nén gói Hadoop: $ sudo tar vxzf hadoop-2.2.0.tar.gz - Di chuyển thƣ mục cài đặt hadoop về thƣ mục /usr/local: $ sudo mv

hadoop-2.2.0 /usr/local/hadoop

- Chuyển quyền sử dụng cho người dùng hduser: $ sudo chown -R hduser:hadoop hadoop

- Chèn nội dung sau vào cuối tập tin /home/hduser/.bashrc để thêm các thiết lập đường dẫn cho người dùng hduser:

# Java Path

export JAVA_HOME = /usr/lib/jvm/java-9-openjdk

# Hadoop Variables

export HADOOP_HOME = /usr/local/hadoop

export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin export HADOOP_MAPRED_HOME=$HADOOP_HOME

export HADOOP_COMMON_HOME=$HADOOP_HOME export HADOOP_HDFS_HOME=$HADOOP_HOME export YARN_HOME=$HADOOP_HOME

export HADOOP_CONF_DIR =$HADOOP_HOME/etc/hadoop

- Chèn nội dung sau vào cuối tập tin hadoop/conf/hadoop-env.sh để thêm thiết lập đường dẫn Java cho Hadoop

export JAVA_HOME = /usr/lib/jvm/java-9-openjdk

- Thêm vào giữa 2 thẻ <configuration> và </configuration> trong tập tin hadoop/etc/hadoop/core-site.xml

<name>fs.default.name</name>

<value>hdfs://localhost:9000</value>

</property>

- Thêm vào giữa 2 thẻ <configuration> và </configuration> trong tập tin hadoop/etc/hadoop/hdfs-site.xml

<name>dfs.replication</name>

</property>

<name>dfs.namenode.name.dir</name>

<value>file:/usr/local/hadoop_tmp/hdfs/namenode</val ue>

</property>

<name>dfs.namenode.data.dir</name>

<value>file:/usr/local/hadoop_tmp/hdfs/datanode</val ue>

</property>

- Thêm vào giữa 2 thẻ <configuration> và </configuration> trong tập tin hadoop/etc/hadoop/yarn-site.xml

<name>yarn.nodemanager.aux-services</name>

<value>mapreduce_shuffle</value>

</property>

<name>yarn.nodemanager.aux-

services.mapreduce.shuffle.class</name>

<value>org.apache.hadoop.mapred.shuffleHandler</valu e>

</property>

- Thêm vào giữa 2 thẻ <configuration> và </configuration> trong tập tin hadoop/etc/hadoop/mapred-site.xml

<name>mapreduce.framework.name</name>

</property>

- Tạo thƣ mục chứa namenode và datanode

$ sudo mkdir -p /usr/local/hadoop_tmp

$ sudo mkdir -p /usr/local/hadoop_tmp/hdfs/namenode

$ sudo mkdir -p /usr/local/hadoop_tmp/hdfs/datanode - Chuyển quyền cho người dung hduser

$ sudo chown –R hduser /usr/local/hadoop_tmp - Định dạng namenode

$ hadoop namenode –format

Kiểm tra đám mây và Big data

Cơ sở dữ liệu hoạt động