스크래핑 2

스크래핑 > 22.01.20

지난 글을 보면 알다시피 백준의 유저 페이지에서 스크래핑, 크롤링 등의 행위는 지양된다 나도 robot.txt에 대해 알기 전 몇 번 해보긴 했지만.. 그래서 내 블로그에 올라오는 코드들 전부 원래는 URL이 백준의 유저 페이지였지만 변경해서 업로드 한다. 자바 크롤링/스크래핑에 대해 검색하면 json과 jsoup이 많이 나왔다 나는 그 중 jsoup을 사용하기로 했다 jsoup은 html을 파싱해주는 자바 오픈 소스 라이브러리이다. jsoup을 설치하고 (이때 Libraries에서 파일을 정확한 위치에 넣자!! 난 엉뚱한 곳에 넣어 계속 에러 떴다..) 본격적인 스크래핑을 시작했다 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 package main; import java.io.IOE..

robots.txt > 22.01.20

백준의 유저 페이지에 들어가면 아래의 사진과 같이 맞은 문제와 시도했지만 맞지 못한 문제들의 번호, 개수 등을 알 수 있다. 무슨 문제를 얼마나 풀었는 지 확인하기 위해서는 위의 내용을 스크래핑 해오는 과정이 꼭 필요하다 판단했다. 크롤링과 스크래핑의 차이 크롤링은 웹 상에 존재하는 데이터를 자동으로 수집하는 것을 말한다. 조직화 된 방식으로 크롤링하는 프로그램을 크롤러라 한다 스크래핑은 데이터 중 필요한 부분을 가져와 가공하는 것을 말한다. 크롤링/스크래핑에서 빼놓을 수 없는 것이 robots.txt이다 robots.txt는 웹 크롤러의 접근에 제약을 주기 위한 규칙이다 절대 준수해야 한다! 이건 아니지만 홈페이지에서 하지 않았으면 좋겠다는 거니까 안하는게 좋겠다 robots.txt는 홈페이지의 루트 ..