개인공부/빅데이터공부 2

하둡 이론

병렬 분산 알고리즘 사용이유 Scale-out 아주 많은 값싼 서버를 이용 Scale-up 적은 수의 값비싼 서버를 이용 데이터 중심 어플리케이션 분야에서는 아주 많은 값싼 서버를 많이 이용한다. 고가의 서버들은 가격에 관점에서는 선형으로 성능이 증가하지 않기 때문에 값싼 서버 여러개가 가격측면에서 좋다. 맵리듀스 프레임워크 데이터 중심 프로세싱 한대의 컴퓨터 능력으로 처리가 어렵다 수천대의 커뮤터를 묶어 처리해야한다 맵리듀스 프레임워크가 하는 것이 위 처리이다. 맵리듀스는 빅데이터를 이용한 효율적인 계산이 가능한 첫 번째 프로그래밍 모델 기존에 존재하는 여러 가지 다른 병렬 컴퓨팅 방법에서는 프로그래먹 낮은 레벨의 시스템 세부 내용까지 아주 잘 알고 많은 시간을 쏟아야만 함 빅데이터를 이용하는 응용분야..

하둡

하둡 **정의 : 빅데이터의 저장과 분석을 위한 분산 컴퓨팅 솔루션** **하둡 세분화** 빅데이터 : 한대의 컴퓨터로는 저장하거나 연산하기 어려운 규모의 거대 데이터 분산 : 여러대의 컴퓨터로 나눠서 일을 처리함. 저장 : 데이터를 저장한다. 분석 : 데이터가 저장된 컴퓨터에서 데이터를 분석하고 그 결과를 합친다. **사용이유** 정형 데이터는 RDBMS에서 저장가능하지만 비정형 데이터는 RDBMS에 저장하기 너무 큼 OpenSource 프로그램 **하둡에서 빅데이터** 3V : Volume, Velocity, Variety **volume** : 크기(tera, peta), **분산 컴퓨팅 솔루션** : hadoop, GFS,GreenPlum, Vertica, Netezza, Kickfire **ve..