프로젝트/백준 풀이 인증 프로그램

robots.txt > 22.01.20

B612 2022. 3. 6. 18:03

백준의 유저 페이지에 들어가면 아래의 사진과 같이 맞은 문제와 시도했지만 맞지 못한 문제들의 번호, 개수 등을 알 수 있다.

무슨 문제를 얼마나 풀었는 지 확인하기 위해서는 위의 내용을 스크래핑 해오는 과정이 꼭 필요하다 판단했다.

 

크롤링과 스크래핑의 차이

크롤링은 웹 상에 존재하는 데이터를 자동으로 수집하는 것을 말한다. 조직화 된 방식으로 크롤링하는 프로그램을 크롤러라 한다

스크래핑은 데이터 중 필요한 부분을 가져와 가공하는 것을 말한다.

 

크롤링/스크래핑에서 빼놓을 수 없는 것이 robots.txt이다

 

robots.txt는 웹 크롤러의 접근에 제약을 주기 위한 규칙이다

절대 준수해야 한다! 이건 아니지만 홈페이지에서 하지 않았으면 좋겠다는 거니까 안하는게 좋겠다

백준의 robots.txt

robots.txt는 홈페이지의 루트 경로에 있다

 

백준의 robots.txt를 읽다보면 user의 모든 경로를 크롤링 금지하는 것을 알 수 있다

 

나는 크롤링을 한 후 robots.txt에 대해 알게 되어 조금 당황스러웠다

그럼 프로젝트는 어떻게 하지...? 엎어야되나..?!?!