본문 바로가기

Develop/DataProcess

[CDH] Cloudera manager 이용한 cluster hadoop 구성하기

총 4대의 서버를 이용해서 cloudera cluster 환경 구성을 해보겠음.


먼저 각 서버상의 호스트들을 정의해 줌.

# 모든 서버들에 넣어줘버리자.

# 클라우드 환경에서 공인아이피를 넣었더니 클러스터 구성에서 실패하는 현상이 보임.

# 그래서 사설 아이피를 넣어서 사용해보았더니 잘 동작함.

]$ vi /etc/hosts

10.1.1.1 manager.domain.com manager

10.1.1.2 master1.domain.com master1

10.1.1.3 node1.domain.com node1

10.1.1.4 node2.domain.com node2

manager 서버에 Cloudera manager 프로그램을 설치할 예정임.

manager 서버에서 ssh rsa 키를 생성해 줌.

# manager 서버에서만 진행해줄것

# 키 생성 후 각 서버에 public 키를 추가해 줌

]$ ssh-keygen

]$ ssh-copy-id -i ~/.ssh/id_rsa.pub master1

]$ ssh-copy-id -i ~/.ssh/id_rsa.pub node1

]$ ssh-copy-id -i ~/.ssh/id_rsa.pub node2


# 키 정보들을 일괄로 그냥 때려 넣어주자

]$ scp -r ~/.ssh/* master1:~/.ssh/

]$ scp -r ~/.ssh/* node1:~/.ssh/

]$ scp -r ~/.ssh/* node2:~/.ssh/

이를 통해 이제 패스워드 입력 없이 각 서버들 접속을 해줄 수 있게 되었다.

이후는 서비스들 상태를 수정하고 만져주는 부분임.

# 모든 서버들에 동일하게 진행해줄 것.

# 방화벽 내리는 작업. 신중할 것

]$ systemctl stop iptables.service

]$ systemctl disable iptables.service


# selinux 끄기 및 스왑 관련 설정 끄기

]$ setenforce 0

]$ sysctl -w vm.swappiness=0

]$ echo 'vm.swappiness=0' >> /etc/sysctl.conf


# transparent_hugepage 관련 설정해줄것. 안해주면 추후 클러스터 구성시 경고를 뱉는다.

# 어차피 재시작 할 것이니 재시작해도 끄도록 rc.local에 추가

]$ vi /etc/rc.local

echo never > /sys/kernel/mm/transparent_hugepage/defrag echo never > /sys/kernel/mm/transparent_hugepage/enabled


# ntp 설정

]$ yum install -y ntp

]$ systemctl stop ntpd

]$ ntpdate kr.pool.ntp.org

]$ systemctl start ntpd

]$ systemctl enable ntpd

이후 사용해줘야할 포트들이 있음. 이는 방화벽을 켜서 해두 되지만..

서버 구성을 클라우드로 하여 상단 방화벽이 별도로 있음.

여기에 열여줄 포트들이 있음. 아래 포트들을 다 열어주어야함.

7180, 7182, 9000, 9001, 7191

위 동작을 다 해줬다면 이제 준비가 끝났다.


서버 재시작을 해준다!!

이제 본격적으로 manager 설치를 진행해줌.

]$ wget http://archive.cloudera.com/cm5/installer/latest/cloudera-manager-installer.bin

]$ chmod u+x cloudera-manager-installer.bin

]$ ./cloudera-manager-installer.bin

확인 동의를 몇차례 선택해주면 지가 알아서 설치가 됨.

이후 해당 서버의 7180 포트로 접속해보라는 안내가 나옴.

환경이 클라우드라 그런지..조금 느린 감이 있었지만..시간이 지나면 알아서 접속이 되는걸 볼 수 있음.


초기 접속 정보는 

admin / admin


들어가서 설정들을 하나하나 친절하게 해주도록 되어 있음.

호스트 정보들을 잘 넣어줬다면 설명대로 진행해주면 알아서 잘 설치가 되는것을 볼수있음.

이후 클러스터링도 잘 되는걸 확인할 수 있음.

이렇게 쉽게 빅데이터를 다룰수 있는 hadoop distributed filesystem 을 구축 하게 되었다 !