[Web] web-Robots.txt에 대한 가이드
조별하:
Web 사이트 파싱 하는 프로젝트를 진행하면서 크롤링을 접할 기회가 생겼다. 크롤링을 할 때 주의할 점은 함부로 접근해서 무작위로 파싱 및 크롤링해 오는 것이 아니라 robots.txt라는 설정을 확인 후 접근이 허가가 되어 있는지 확인이 필요하다. robots.txt란? robots.txt는 검색 엔진 로봇에게 웹사이트를 어떻게 크롤링 해야 하는지 가이드를 주는 문서 파일이다. 가이드를 하면서 크롤러에게 URL의 어떤 경로에 접근이 가능한지 아닌지 알려주며 웹사이트의 로드맵 가이드를 하는 역할을 한다. robots.txt는 항상 사이트의 루트 폴더 또는 메인 디렉터리에 위치해야 하며 대부분 텍스트 파일로 설정이 되어 있다. robots.txt 지시어 및 규칙 크롤링을 사용하는 개발자의 입장에서 접근이 ..