본문 바로가기

Developer/정보

크롤링, 스크래핑, 파싱, Open API, JSON 이란 무엇인가?

크롤링(crawling) 이란?

  • Web상에 존재하는 Contents를 수집하는 작업 (프로그래밍으로 자동화 가능)
    1. HTML 페이지를 가져와서, HTML/CSS등을 파싱하고, 필요한 데이터만 추출하는 기법
    2. Open API(Rest API)를 제공하는 서비스에 Open API를 호출해서, 받은 데이터 중 필요한 데이터만 추출하는 기법
    3. Selenium등 브라우저를 프로그래밍으로 조작해서, 필요한 데이터만 추출하는 기법

크롤링(crawling) 스크래핑(scraping)의 차이

  • 웹 크롤링 - 웹 크롤러(자동화 봇)가 일정 규칙으로 웹페이지를 브라우징 하는 것
  • 웹 스크래핑 - 웹 사이트 상에서 원하는 정보를 추출하는 기술

파싱(Parsing)이란?

  • 파싱(Parsing)은 어떤 페이지(문서, html 등)에서 내가 원하는 데이터를 특정 패턴이나 순서로 추출하여 정보로 가공하는 것을 말하는 것이다. 다이아몬드가 많이 나오는 위치로 이동을 일단 한 후에 돌을 많이 캔다음에 다이아몬드만 쏙쏙 뽑아서 보석으로 가공하는 과정하고 비슷하다고 보면 된다.

Open API(Rest API)란?

  • API: Application Programming Interface의 약자로, 특정 프로그램을 만들기 위해 제공되는 모듈(함수 등)을 의미
  • Open API: 공개 API라고도 불리우며, 누구나 사용할 수 있도록 공개된 API (주로 Rest API 기술을 많이 사용함)
  • Rest API: Representational State Transfer API의 약자로, HTTP프로토콜을 통해 서버 제공 기능을 사용할 수 있는 함수를 의미
    • 일반적으로 XML, JSON의 형태로 응답을 전달(원하는 데이터 추출이 수월)

JSON 이란?

  • JavaScript Object Notation 줄임말
  • JSON은 서버와 클라이언트 또는 컴퓨터/프로그램 사이에 데이터를 주고 받을 때 사용하는 데이터 포멧
  • 키와 값을 괄호와 세미콜론과 같이 간단한 기호로 구성하여 표현할 수 있고, 언어나 운영체제에 구애받지 않기 때문에 많이 사용됨
  • 특히 웹/앱 환경에서 Rest API를 사용하여, 서버와 클라이언트 사이에 데이터를 주고 받을때 많이 사용
  • JSON 포멧 예
    { "id":"01", "language": "Java", "edition": "third", "author": "Herbert Schildt" }

 

출처 : https://www.fun-coding.org/crawl_basic2.html

'Developer > 정보' 카테고리의 다른 글

boilerplate code 란?  (0) 2021.06.15
영화 API Key 받기  (0) 2021.06.09
2021 웹개발 트렌드  (0) 2021.06.04