맵리듀스란 분산 컴퓨팅에서 대용량 데이터를 병렬 처리하기 위해 개발된 소프트 웨어 프레임워크 또는 프로그래밍 모델이다.
맵리듀스는 구글이 수집한 문서와 로그 등 방대한 데이터들을 분석하기 위해 2004년에 발표한 소프트웨어 프레임워크다.맵리듀스는 방대한 입력 데이터를 분할하여 여러 머신들이 분산 처리하는 맵 함수 단게와 이를 다시 하나의 결과로 합치는 리듀스 함수 단계로 나뉜다.
다음은 맵리두스를 이용한 단어 수 세기 처리과정 예시이다.
1. 입력: 파일을 입력한다.
2.분할: 입력한 파일 값을 라인 단위로 분활한다.
3.매핑: 분할된 라인 단위 문장을 맵 함수로 전달하고, 맵 함수는 공백을 기준으로 문자를 분리하여 단어 개수를 확인한다.
4. 셔플링: 메모리에 저장된 맵 함수의 출력 데이터를 분배 및 정렬하여 로컬디스크에 저장한후, 네트워크를 통해 리듀스 함수의 입력데이터로 전달한다.
5. 리듀싱: 단어 목록들을 반복적으로 수행하고 합을 계산하여 표시한다.
맵리듀스는 단순해서 사용이 편리하고 확장이 쉽다.특정 데이터 모델이나 스키마, 질의 언어에 의존적이지 않아 비정형 데이터 분석에 용이하다. 그러나 복잡한 연산 처리가 쉽지 않고 기존 데이터베이스 관리 시스템이 제공하는 스키마, 질의 언어, 인덱스 등의 기능을 지원하지 않는다. 또한 맵단계가 끝나야 리듀스단계를 시작할 수 있어 관계형 데이터베이스에 비해 상대적으로 성능이 떨어진다.
반면 저장 구조가 독립적이라 데이터 복제 시 데이터 내구성이 좋다.
출처]
한국정보통신기술협회:https://terms.tta.or.kr/dictionary/dictionaryView.do?word_seq=048418-4
'IT용어' 카테고리의 다른 글
노에스큐엘(non SQL,NoSQL) (0) | 2024.03.24 |
---|---|
신경망 교환 포맷(NNEF : Neural Network Exchange Format) (0) | 2024.03.23 |
랜섬웨어(RansomWare) (0) | 2024.03.23 |
대칭암호화 방식 (0) | 2024.03.17 |
비대칭형 암호화 방식(Asymmetric Cryptographic Technique) (0) | 2024.03.16 |