robot.txt 형식 및 위치 규칙
- 파일 이름은 robots.txt 여야합니다.
- 사이트에는 robots.txt 파일이 하나만 있을 수 있습니다.
- robots.txt 파일은 해당 파일이 적용되는 웹사이트 호스트의 루트에 있어야 합니다. 예를 들어 아래의 모든 URL에 대한 크롤링을 제어 하려면 robots.txt 파일이 http://www.example.com/ 에 있어야 합니다.
robot.txt 에 대해 이번 블로그 확인
2020/11/16 - [기술] - 웹크롤러, 검색엔진 크롤러, 검색봇과 robots.txt
robot.txt 파일 위치 및 유효 범위
robots.txt 파일은 적절한 프로토콜과 포트 번호를 통해 액세스 할 수있는 호스트의 최상위 디렉토리에 있어야 합니다. robots.txt에 일반적으로 허용되는 프로토콜은 모두 URI(Uniform Resource Identifier)기반 이며 Google 검색의 경우 (예 : 웹 사이트 크롤링)는 'http'및 'https'입니다. http 및 https에서 robots.txt 파일은 HTTP 비 조건부 GET 요청을 사용하여 가져옵니다.
Google 전용 : Google은 FTP 사이트용 robots.txt 파일도 허용하고 따릅니다. FTP 기반 robots.txt 파일은 익명 로그인을 사용하여 FTP 프로토콜을 통해 액세스 됩니다.
robots.txt 파일에 나열된 지시문은 파일이 호스팅되는 호스트, 프로토콜 및 포트 번호에만 적용됩니다.
robots.txt 파일의 URL은 다른 URL과 마찬가지로 대소 문자를 구분합니다.
기본 정의 Basic definitions
Crawler | 크롤러는 웹사이트를 크롤링하는 서비스 또는 에이전트입니다. 일반적으로 크롤러는 표준 웹 브라우저로 액세스 할 수 있는 콘텐츠를 노출하는 호스트의 알려진 URL에 자동으로 액세스합니다. 새 URL이 발견되면 (기존 크롤링 된 페이지의 링크 또는 Sitemap 파일과 같은 다양한 수단을 통해) 동일한 방식으로 크롤링 됩니다. |
User-agent | 특정 크롤러(a specific crawler) 또는 크롤러 집합(set of crawlers)을 식별하는 수단입니다. |
Directives | robots.txt 파일에 명시된 크롤러 또는 크롤러 그룹에 적용 가능한 가이드 라인 목록입니다. |
URL | RFC 1738에 정의된 Uniform Resource Locator입니다. (=web address) |
메타 로봇 태그 Meta Robots Tag
메타 로봇 태그는 검색 엔진에 따라야 할 것과 따라가지 말아야 할 것을 알려주는 태그입니다. 웹 페이지의 <head> 섹션 안에 넣는 코드입니다. 웹 크롤러, 검색 엔진 크롤러로부터 숨길 페이지와 색인을 생성하고 확인하려는 페이지를 결정할 수 있는 권한을 제공하는 간단한 코드입니다.
기본적으로 메타 로봇 태그는 검색 엔진 크롤러의 다음의 몇 가지 기능으로 분류 될 수 있습니다.
follow : 검색 엔진 크롤러가 해당 웹페이지의 링크를 따라가라는 명령을 합니다.
index : 검색 엔진 크롤러가 해당 웹페이지의 색인을 생성하라는 명령을 합니다.
Noindex : 페이지 색인을 생성하지 않도록 검색 엔진에 지시합니다.
Nofollow : 페이지의 링크를 따르지 않도록 검색 엔진에 지시합니다.
Noimageindex : 이미지 색인을 생성하지 않도록 검색 엔진에 지시합니다.
None : 페이지에 대해 아무것도 하지 않도록 검색 엔진에 지시합니다.
Noarchive : 콘텐츠를 보관하지 않도록 검색 엔진에 지시합니다.
메타 로봇 태그 코드의 예는 다음과 같습니다.
<meta name =”robots” content=”index”>
이 태그가 하는 일은 그것이 있는 웹페이지의 색인을 생성하는 것입니다.
그것은 물 한 잔을 사겠다고 하는 누군가에게 물 한 잔을 사라고 말하는 것과 같습니다.
기본적으로 검색 엔진은 이 코드를 사용하지 않더라도 이미 사이트를 색인화합니다.
검색 엔진을 위한 User-agent 리스트
검색 엔진 Search Engine | User Agent | 크롤릭 목적 Purpose of Crawling |
Alexa | ia_archiver | Crawler for Ranking |
AOL | aolbuild | Search |
Ask Jeeves | teoma | Search |
Baidu | Baiduspider | Search |
Baidu | Baidu Favorites | Baiduspider-favo |
Baidu | Baidu Union | Baiduspider-cpro |
Baidu | Business Search (Advertisements) | Baiduspider-ads |
Baidu | Desktop | Baiduspider |
Baidu | Image Search | Baiduspider-image |
Baidu | Mobile | Baiduspider |
Baidu | News Search | Baiduspider-news |
Baidu | Video Search | Baiduspider-video |
Bing | AdIdxBot | Bing Ads |
Bing | Bingbot | Desktop and Mobile |
Bing | BingPreview | Page Snapshots |
Bing | MSNBot | Predecessor of Bingbot |
Bing | MSNBot-Media | Images and Videos |
Daum | Daumoa | Search |
DuckDuckGo | DuckDuckBot | Search |
AdsBot-Google | Landing Page Quality Check | |
AdsBot-Google-Mobile-Apps | App Crawler | |
Googlebot | Desktop | |
Googlebot | Smartphone | |
Googlebot-Image | Images | |
Googlebot-News | News | |
Googlebot-Video | Videos | |
Mediapartners-Google | AdSense Desktop | |
Mediapartners-Google | AdSense Mobile | |
MSN | msnbot |
Search |
Naver | Yeti | Search |
Teoma |
teoma | Search |
Yahoo! | Slurp | All Search |
Yandex | YaDirectFetcher | Advertising |
Yandex | Yandex | All Crawling |
Yandex | YandexAntivirus | Malware Checker |
Yandex | YandexBlogs | Blog Posts and Comments |
Yandex | YandexBot | Desktop |
Yandex | YandexCalendar | Calendar |
Yandex | YandexDirect | Advertising |
Yandex | YandexDirectDyn | Dynamic Banners |
Yandex | YandexFavicons | Favicons |
Yandex | YandexImageResizer | Mobile Image Services |
Yandex | YandexImages | Images |
Yandex | YandexMedia | Media |
Yandex | YandexMetrika | Web Analytics |
Yandex | YandexMobileBot | Mobile |
Yandex | YandexNews | News |
Yandex | YandexPagechecker | Micro Markup Validator |
Yandex | YandexScreenshotBot | Screenshot |
Yandex | YandexSitelinks | Sitelinks |
Yandex | YandexVertis | Vertical Search |
Yandex | YandexWebmaster | Webmaster Services |
메타 로봇 태그 예
네이버 웹마스터 도구
<meta name="Robots" content="index,follow">
네이버 Naver bot
<meta name="Yeti" content="index,follow">
구글 Google bot
<meta name="Googlebot" content="index,follow">
구글 이미지 Google Imgae bot
<meta name="googlebot-image" content="index,follow">
다음 Daum bot
<meta name="Daumoa" content="index,follow">
빙 Bing bot
<meta name="Bingbot" content="index,follow">
야후 Yahoo Slurp bot
<meta name="Slurp" content="index,follow">
바이두 Baiduspider
<meta name="Baiduspider" content="index,follow">
알렉사 Alexa crawler
<meta name="ia_archiver" content="index,follow">
Google의 웹 검색 크롤러 외에도 실제로 9개의 추가 웹 크롤러가 있습니다.:
WEB CRAWLER |
USER-AGENT STRING |
Googlebot News |
Googlebot-News |
Googlebot Images |
Googlebot-Image/1.0 |
Googlebot Video |
Googlebot-Video/1.0 |
Google Mobile (featured phone) |
SAMSUNG-SGH-E250/1.0 Profile/MIDP-2.0 Configuration/CLDC-1.1 UP.Browser/6.2.3.3.c.1.101 (GUI) MMP/2.0 (compatible; Googlebot-Mobile/2.1; +http://www.google.com/bot.html) |
Google Smartphone |
Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2272.96 Mobile Safari/537.36 (compatible; Googlebot/2.1; +http://www.google.com/bot.html) |
Google Mobile Adsense |
(compatible; Mediapartners-Google/2.1; +http://www.google.com/bot.html) |
Google Adsense |
Mediapartners-Google |
Google AdsBot (PPC landing page quality) |
AdsBot-Google (+http://www.google.com/adsbot.html) |
Google app crawler (fetch resources for mobile) |
AdsBot-Google-Mobile-Apps |
참고한 웹사이트:
https://miaow-miaow.tistory.com/90
Web Crawlers and User Agents - Top 10 Most Popular
https://www.keycdn.com/blog/web-crawlers
Search Engine Crawlers
https://www.seobility.net/en/wiki/Search_Engine_Crawlers
How Search organizes information
https://www.google.com/search/howsearchworks/crawling-indexing/
Robots.txt Specifications
developers.google.com/search/reference/robots_txt
List of All User Agents for Top Search Engines
perishablepress.com/list-all-user-agents-top-search-engines/#aol
User Agents List for Google, Bing, Baidu and Yandex Search Engines
www.webnots.com/user-agents-list-for-google-bing-baidu-and-yandex-search-engines/
'기술' 카테고리의 다른 글
OTT 란 무엇일까요? (0) | 2020.12.09 |
---|---|
http와 https의 차이 (0) | 2020.11.28 |
웹크롤러, 검색엔진 크롤러, 검색봇과 robots.txt (0) | 2020.11.16 |
애플 사진 포맷, HEIC, HEIF, HEVC, Apple File Format, High Efficiency Image File Format, HEIC 파일 변환 무료 웹사이트 (0) | 2020.11.03 |
광고, 마케팅 용어 CPA, CPC, CPS, CPM, PPC, CTR, Ads impressions, Display Networks (0) | 2020.10.25 |