본문 바로가기

IT용어

크롤링(Crawling)

 크롤링이란 다양한 정보 자원을 자동화된 방법으로 수집해서 분류 및 저장하는 것.

 

 크롤링은 웹 크롤링 또는 데이터 크롤링으로도 불린다. 웹의 다양한 정보를 자동으로 검색하고 데이터로 추출하기 위해 사용한다.크롤링을 수행하는 소프트웨어인 크롤러는 웹페이지를 돌아다니며 어떤 데이터가 어디에 있는지  색인을 만들어서 데이터베이스에 저장한다.HTML 페이지에서 관련 하이퍼링크를 찾아 데이터를 분류하고 저장하는 작업을 반복한다.파이썬을 크롤링 분햐에 주로 사용하고 있다.

 

 크롤링 기술이 악용돼 정보를 무단 복제하게 되면 지식재산권 침해 문제가 발생 할 수 있다.크롤링으로 취득한 콘텐츠를 사업적으로 이용하는 것 또한 문제가 될 수 있다.이 같은 문제를 방지하기 위해 웹페이즈 운영자는 웹페이지에 로봇 배제 표준(robots exclusion standard)을 사용한다.또는 메타 태그를 사용해 크롤러로  검색 색인이 생성되는 것을 차단한다.

 

 유사한 개념으로는 SW를 통해 데이터 소스에서 데이터 자체를 추출하여 특정 형태로 저장하는 스크래핑(scraping)이 있다.빅데이터 분석에서는 크롤링을 통해 필요한 데이터가 어디 있는지 알아내고, 스크래핑을 통해 수집 및 저장해서 분석에 사용하는 등 기술을 결합하기도 한다.

 

 크롤링을 활용하면 오프라인에서 직접 현장에 방문하고, 사람을 만나 수요 조사 및 설문 조사를 하는 등의 작업을 생략할 수 있다.최근에는 금융권, 마케팅 기업을 비롯해 데이터 과학등  다양한 분야에서 활용되고 있다.

 

 

출처]

한국정보통신기술협회: TTA정보통신용어사전

 

TTA정보통신용어사전

한국정보통신기술협회(TTA)는 정보통신 기술 발전과 타 분야와의 기술 융합에 따라 무수히 생성되는 정보통신용어를 해설하고 표준화하여, 전문가뿐만 아니라 비전문가들도 올바르게 활용할 수

terms.tta.or.kr

 

'IT용어' 카테고리의 다른 글

스파이웨어(SpyWare)  (0) 2024.03.10
컴퓨터 바이러스  (0) 2024.03.10
크리덴셜(Credential)  (0) 2024.03.09
화이트박스 암호(WBC : White-Box Cryptography)  (0) 2024.03.09
큐싱(Qushing)  (0) 2023.12.23