하둡

1. 가상머신 서버 실행

2. 포더로사 접속

3. 포더로사에 접속한 호스트, id, pw로 파일질라 접속(포트 22)

[전처리 : 수집/적재] => [하둡(Hodoop)] => [후처리: 탐색/분석]

수집 레이어 => 적재 레이어

로그등을 수집하기하 위해 플럼(Flume) 사용 :
- 로우데이터 => 플럼 => 하둡
실시간 처리를 위해 스톰(Strom) 사용
- 로우데이터 => 플럼 => 카프카(버퍼링,트랜잭션 처리) => 스톰 => Hbase, 레디스

적재 레이어 => 처리/탐색 레이어

적재대상 : 하둡, HBase, 레디스
대용량 데이터 : 플럼 => 하둡
실시간 데이터 : 분석 결과에 따라 Hbase, 레디스

처리/탐색 레이어 => 분석/응용 레이어

하둡 데이터 => 하이브 => 정제/변형/분리/탐색 작업 수행
데이터 => 정형데이터 => 데이터마트
가공/분헉된 데이터 => 스쿱 => 외부(DBMS)
데이터의 품질을 높이는 단계로 과정이 길고 복잡 => 우지의 워크플로우로 자동화

분석/응용 레이어 => 데이터 마이닝

임팔라, 제플린으로 데이터 마트 빠른 분석
머하웃으로 하둡 머신러닝(군집, 분류/예측)

hosts 파일 수정

vi /etc/hosts

192.168.56.101 server01.hadoop.com server01
192.168.56.102 server02.hadoop.com server02
192.168.56.103 server03.hadoop.com server03 입력

호스트네임 설정

vi /etc/sysconfig/network
HOSTNAME=server01.hadoop.com
service network restart

방화벽 및 기타 커널 설정vi /etc/selinux/config

SELINUX=disabled

service iptables stop

iptables 중지

chkconfig iptables offchkconfig ip6tables offsysctl -w vm.swappiness=100vi /etc/sysctl.conf

최하단에 아래것 입력

vm.swappiness=100

vi /etc/rc.local

최하단에 아래것 입력

echo never > /sys/kernel/mm/transparent_hugepage/enabled
echo never > /sys/kernel/mm/transparent_hugepage/defrag

vi /etc/security/limits.conf

최하단 end of file 위에 아래 것 입력

root soft nofile 65536
root hard nofile 65536
* soft nofile 65536
* hard nofile 65536
root soft nproc 32768
root hard nproc 32768
* soft nproc 32768
* hard nproc 32768

open JDK 다운

yum list java*jdk-devel
설치할 버전을 다운
yum install java-1.8.0-openjdk-devel.x86_64

서버 복제

오라클 버츄어박스에서 server01의 백업을 복제(네트워크 주소 초기화x)

server 02, 03을 복제(네트워크 주소 초기화)

아래 과정을 복사한 서버에서 다시 진행

1] 가상머신 설정 - 네트워크 - 어뎁터2 - 고급 - mac주소 확인

1] vi /etc/sysconfig/network-scripts/ifcfg-eth0

2] mac주소 입력

3] vi /etc/udev/rules.d/70-persistent-net.rules

4] 내부 내용 전부 제거 후 저장

5] reboot

6] service network restart

7] ifconfig eth0 : ip 정보 확인

클라우데라 매니저 설치

1. 1, 2, 3 서버 실행

2. 1번 서버에서 wget http://archive.cloudera.com/cm5/redhat/6/x86_64/cm/cloudera-manager.repo 입력

3. 버전 변경

vi /root/cloudera-manager.repo
baseurl /5 > /5.9.0 변경

4.yum 레포지토리로 이동

mv /root/cloudera-manager.repo /etc/yum.repos.d/

5. CM 설치

yum install -y cloudera-manager-daemons
yum install -y cloudera-manager-server

PostgreSQL 설치 및 서비스 start

yum install -y cloudera-manager-server-db-2
service cloudera-scm-server-db start

CM Start

service cloudera-scm-server start
service cloudera-scm-server status

Hosts 파일에 가상머신 정보 추가

메모장 관리자 권한으로 실행
C:\Windows\System32\drivers\etc\hosts
192.168.56.101 server01.hadoop.com
192.168.56.102 server02.hadoop.com
192.168.56.103 server03.hadoop.com

CM 접속

접속 URL : http://server01.hadoop.com:7180
로그인 admin / admin

저작자표시 (새창열림)

'학원 > BigData' 카테고리의 다른 글

가상머신 설치, 설정과 Poderosa 연결 (0)	2020.06.16

IT 언어와 자격증

하둡

[전처리 : 수집/적재] => [하둡(Hodoop)] => [후처리: 탐색/분석]

'학원 > BigData' 카테고리의 다른 글

티스토리툴바

하둡

[전처리 : 수집/적재] => [하둡(Hodoop)] => [후처리: 탐색/분석]

'학원 > BigData' 카테고리의 다른 글

'학원/BigData' Related Articles

티스토리툴바