1. 가상머신 서버 실행
2. 포더로사 접속
3. 포더로사에 접속한 호스트, id, pw로 파일질라 접속(포트 22)
[전처리 : 수집/적재] => [하둡(Hodoop)] => [후처리: 탐색/분석]
수집 레이어 => 적재 레이어
-
로그등을 수집하기하 위해 플럼(Flume) 사용 :
- 로우데이터 => 플럼 => 하둡
-
실시간 처리를 위해 스톰(Strom) 사용
- 로우데이터 => 플럼 => 카프카(버퍼링,트랜잭션 처리) => 스톰 => Hbase, 레디스
적재 레이어 => 처리/탐색 레이어
- 적재대상 : 하둡, HBase, 레디스
- 대용량 데이터 : 플럼 => 하둡
- 실시간 데이터 : 분석 결과에 따라 Hbase, 레디스
처리/탐색 레이어 => 분석/응용 레이어
- 하둡 데이터 => 하이브 => 정제/변형/분리/탐색 작업 수행
- 데이터 => 정형데이터 => 데이터마트
- 가공/분헉된 데이터 => 스쿱 => 외부(DBMS)
- 데이터의 품질을 높이는 단계로 과정이 길고 복잡 => 우지의 워크플로우로 자동화
분석/응용 레이어 => 데이터 마이닝
- 임팔라, 제플린으로 데이터 마트 빠른 분석
- 머하웃으로 하둡 머신러닝(군집, 분류/예측)
hosts 파일 수정
- vi /etc/hosts
- 192.168.56.101 server01.hadoop.com server01
- 192.168.56.102 server02.hadoop.com server02
- 192.168.56.103 server03.hadoop.com server03 입력
호스트네임 설정
- vi /etc/sysconfig/network
- HOSTNAME=server01.hadoop.com
- service network restart
방화벽 및 기타 커널 설정vi /etc/selinux/config
- SELINUX=disabled
service iptables stop
- iptables 중지
chkconfig iptables offchkconfig ip6tables offsysctl -w vm.swappiness=100vi /etc/sysctl.conf
최하단에 아래것 입력
- vm.swappiness=100
vi /etc/rc.local
최하단에 아래것 입력
- echo never > /sys/kernel/mm/transparent_hugepage/enabled
- echo never > /sys/kernel/mm/transparent_hugepage/defrag
vi /etc/security/limits.conf
최하단 end of file 위에 아래 것 입력
- root soft nofile 65536
- root hard nofile 65536
- * soft nofile 65536
- * hard nofile 65536
- root soft nproc 32768
- root hard nproc 32768
- * soft nproc 32768
- * hard nproc 32768
open JDK 다운
- yum list java*jdk-devel
- 설치할 버전을 다운
- yum install java-1.8.0-openjdk-devel.x86_64
서버 복제
오라클 버츄어박스에서 server01의 백업을 복제(네트워크 주소 초기화x)
server 02, 03을 복제(네트워크 주소 초기화)
아래 과정을 복사한 서버에서 다시 진행
1] 가상머신 설정 - 네트워크 - 어뎁터2 - 고급 - mac주소 확인
1] vi /etc/sysconfig/network-scripts/ifcfg-eth0
2] mac주소 입력
3] vi /etc/udev/rules.d/70-persistent-net.rules
4] 내부 내용 전부 제거 후 저장
5] reboot
6] service network restart
7] ifconfig eth0 : ip 정보 확인
클라우데라 매니저 설치
1. 1, 2, 3 서버 실행
2. 1번 서버에서 wget http://archive.cloudera.com/cm5/redhat/6/x86_64/cm/cloudera-manager.repo 입력
3. 버전 변경
- vi /root/cloudera-manager.repo
- baseurl /5 > /5.9.0 변경
4.yum 레포지토리로 이동
- mv /root/cloudera-manager.repo /etc/yum.repos.d/
5. CM 설치
- yum install -y cloudera-manager-daemons
- yum install -y cloudera-manager-server
PostgreSQL 설치 및 서비스 start
- yum install -y cloudera-manager-server-db-2
- service cloudera-scm-server-db start
CM Start
- service cloudera-scm-server start
- service cloudera-scm-server status
Hosts 파일에 가상머신 정보 추가
- 메모장 관리자 권한으로 실행
- C:\Windows\System32\drivers\etc\hosts
- 192.168.56.101 server01.hadoop.com
- 192.168.56.102 server02.hadoop.com
- 192.168.56.103 server03.hadoop.com
CM 접속
- 접속 URL : http://server01.hadoop.com:7180
- 로그인 admin / admin
'학원 > BigData' 카테고리의 다른 글
가상머신 설치, 설정과 Poderosa 연결 (0) | 2020.06.16 |
---|