MapReduce, Yarn 정리
- MapReduce에 대해MapReduce는 대용량 데이터를 분산 처리하기위한 모델이다.Map+Reduce를 합쳐 부르는 것인데Mapping은 분산된 상태로 저장되어 있는 데이터들을관련있는 데이터로 묶어 임시적으로 변형이 되는 과정이다.Reducing는 Mapping에서 변형된 데이터에서 원하는 데이터를 추출하는 과정이다.MapReduce는 Map과 Reduce만으로 이루어져 있지 않다.(아래는 Word Counting 에서의 과정 설명)1.Splitting : 입력한 데이터를 line-by-line으로 읽어들여 (key,value)로 분할2.Mapping : Map함수를 사용해 문자를 분리하며 단어의 개수를 확인3.Shuffling : Mapping에서 메모리에 저장된 데이터들을 정렬4.Reducin..