본문 바로가기

학원/BigData

하둡

1. 가상머신 서버 실행

2. 포더로사 접속

3. 포더로사에 접속한 호스트, id, pw로 파일질라 접속(포트 22)

 

 

[전처리 : 수집/적재] => [하둡(Hodoop)] => [후처리: 탐색/분석]

수집 레이어 => 적재 레이어

  • 로그등을 수집하기하 위해 플럼(Flume) 사용 :

    • 로우데이터 => 플럼 => 하둡
  • 실시간 처리를 위해 스톰(Strom) 사용

    • 로우데이터 => 플럼 => 카프카(버퍼링,트랜잭션 처리) => 스톰 => Hbase, 레디스

적재 레이어 => 처리/탐색 레이어

  • 적재대상 : 하둡, HBase, 레디스
  • 대용량 데이터 : 플럼 => 하둡
  • 실시간 데이터 : 분석 결과에 따라 Hbase, 레디스

처리/탐색 레이어 => 분석/응용 레이어

  • 하둡 데이터 => 하이브 => 정제/변형/분리/탐색 작업 수행
  • 데이터 => 정형데이터 => 데이터마트
  • 가공/분헉된 데이터 => 스쿱 => 외부(DBMS)
  • 데이터의 품질을 높이는 단계로 과정이 길고 복잡 => 우지의 워크플로우로 자동화

분석/응용 레이어 => 데이터 마이닝

  • 임팔라, 제플린으로 데이터 마트 빠른 분석
  • 머하웃으로 하둡 머신러닝(군집, 분류/예측)

 

 

hosts 파일 수정

  • vi /etc/hosts
  • 192.168.56.101 server01.hadoop.com server01
  • 192.168.56.102 server02.hadoop.com server02
  • 192.168.56.103 server03.hadoop.com server03 입력

 

호스트네임 설정

  • vi /etc/sysconfig/network
  • HOSTNAME=server01.hadoop.com
  • service network restart

방화벽 및 기타 커널 설정vi /etc/selinux/config

  • SELINUX=disabled

service iptables stop

  • iptables 중지

chkconfig iptables offchkconfig ip6tables offsysctl -w vm.swappiness=100vi /etc/sysctl.conf

최하단에 아래것 입력

  • vm.swappiness=100
  •  

vi /etc/rc.local

최하단에 아래것 입력

  • echo never > /sys/kernel/mm/transparent_hugepage/enabled
  • echo never > /sys/kernel/mm/transparent_hugepage/defrag

vi /etc/security/limits.conf

최하단 end of file 위에 아래 것 입력

  • root soft nofile 65536
  • root hard nofile 65536
  • * soft nofile 65536
  • * hard nofile 65536
  • root soft nproc 32768
  • root hard nproc 32768
  • * soft nproc 32768
  • * hard nproc 32768

 

open JDK 다운

  • yum list java*jdk-devel
  • 설치할 버전을 다운
  • yum install java-1.8.0-openjdk-devel.x86_64

서버 복제

오라클 버츄어박스에서 server01의 백업을 복제(네트워크 주소 초기화x)

server 02, 03을 복제(네트워크 주소 초기화)

아래 과정을 복사한 서버에서 다시 진행

  1] 가상머신 설정 - 네트워크 - 어뎁터2 - 고급 - mac주소 확인

  1] vi /etc/sysconfig/network-scripts/ifcfg-eth0

  2] mac주소 입력

  3] vi /etc/udev/rules.d/70-persistent-net.rules

  4] 내부 내용 전부 제거 후 저장

  5] reboot

  6] service network restart

  7] ifconfig eth0 : ip 정보 확인

 

 

클라우데라 매니저 설치

1. 1, 2, 3 서버 실행

2. 1번 서버에서 wget http://archive.cloudera.com/cm5/redhat/6/x86_64/cm/cloudera-manager.repo 입력

3. 버전 변경

  • vi /root/cloudera-manager.repo
  • baseurl /5 > /5.9.0 변경

4.yum 레포지토리로 이동

  • mv /root/cloudera-manager.repo /etc/yum.repos.d/

5. CM 설치

  • yum install -y cloudera-manager-daemons
  • yum install -y cloudera-manager-server

PostgreSQL 설치 및 서비스 start

  • yum install -y cloudera-manager-server-db-2
  • service cloudera-scm-server-db start

CM Start

  • service cloudera-scm-server start
  • service cloudera-scm-server status

Hosts 파일에 가상머신 정보 추가

  • 메모장 관리자 권한으로 실행
  • C:\Windows\System32\drivers\etc\hosts
  • 192.168.56.101 server01.hadoop.com
  • 192.168.56.102 server02.hadoop.com
  • 192.168.56.103 server03.hadoop.com

CM 접속

 

'학원 > BigData' 카테고리의 다른 글

가상머신 설치, 설정과 Poderosa 연결  (0) 2020.06.16