기술

메타 로봇 태그와 검색 엔진을 위한 User-agent 리스트

lelien 2020. 11. 17. 09:04
반응형

robot.txt 형식 및 위치 규칙

  • 파일 이름은 robots.txt 여야합니다.
  • 사이트에는 robots.txt 파일이 하나만 있을 수 있습니다.
  • robots.txt 파일은 해당 파일이 적용되는 웹사이트 호스트의 루트 있어야 합니다. 예를 들어 아래의 모든 URL에 대한 크롤링을 제어 하려면 robots.txt 파일이 http://www.example.com/ 에 있어야 합니다.

robot.txt 에 대해 이번 블로그 확인

2020/11/16 - [기술] - 웹크롤러, 검색엔진 크롤러, 검색봇과 robots.txt

 

 

robot.txt 파일 위치 및 유효 범위

robots.txt 파일은 적절한 프로토콜과 포트 번호를 통해 액세스 할 수있는 호스트의 최상위 디렉토리에 있어야 합니다. robots.txt에 일반적으로 허용되는 프로토콜은 모두 URI(Uniform Resource Identifier)기반 이며 Google 검색의 경우 (예 : 웹 사이트 크롤링)는 'http'및 'https'입니다. http 및 https에서 robots.txt 파일은 HTTP 비 조건부 GET 요청을 사용하여 가져옵니다.

Google 전용 : Google은 FTP 사이트용 robots.txt 파일도 허용하고 따릅니다. FTP 기반 robots.txt 파일은 익명 로그인을 사용하여 FTP 프로토콜을 통해 액세스 됩니다.

robots.txt 파일에 나열된 지시문은 파일이 호스팅되는 호스트, 프로토콜 및 포트 번호에만 적용됩니다.

robots.txt 파일의 URL은 다른 URL과 마찬가지로 대소 문자를 구분합니다.

 

 

기본 정의 Basic definitions

Crawler 크롤러는 웹사이트를 크롤링하는 서비스 또는 에이전트입니다. 일반적으로 크롤러는 표준 웹 브라우저로 액세스 할 수 있는 콘텐츠를 노출하는 호스트의 알려진 URL에 자동으로 액세스합니다. 새 URL이 발견되면 (기존 크롤링 된 페이지의 링크 또는 Sitemap 파일과 같은 다양한 수단을 통해) 동일한 방식으로 크롤링 됩니다.
User-agent 특정 크롤러(a specific crawler) 또는 크롤러 집합(set of crawlers)을 식별하는 수단입니다.
Directives robots.txt 파일에 명시된 크롤러 또는 크롤러 그룹에 적용 가능한 가이드 라인 목록입니다.
URL RFC 1738에 정의된 Uniform Resource Locator입니다. (=web address)

 

 

메타 로봇 태그 Meta Robots Tag

메타 로봇 ​​태그는 검색 엔진에 따라야 할 것과 따라가지 말아야 할 것을 알려주는 태그입니다. 웹 페이지의 <head> 섹션 안에 넣는 코드입니다. 웹 크롤러, 검색 엔진 크롤러로부터 숨길 페이지와 색인을 생성하고 확인하려는 페이지를 결정할 수 있는 권한을 제공하는 간단한 코드입니다.

기본적으로 메타 로봇 ​​태그는 검색 엔진 크롤러의 다음의 몇 가지 기능으로 분류 될 수 있습니다.

follow : 검색 엔진 크롤러가 해당 웹페이지의 링크를 따라가라는 명령을 합니다.

index : 검색 엔진 크롤러가 해당 웹페이지의 색인을 생성하라는 명령을 합니다.

Noindex : 페이지 색인을 생성하지 않도록 검색 엔진에 지시합니다.

Nofollow : 페이지의 링크를 따르지 않도록 검색 엔진에 지시합니다.

Noimageindex : 이미지 색인을 생성하지 않도록 검색 엔진에 지시합니다.

None : 페이지에 대해 아무것도 하지 않도록 검색 엔진에 지시합니다.

Noarchive : 콘텐츠를 보관하지 않도록 검색 엔진에 지시합니다.

 

메타 로봇 ​​태그 코드의 예는 다음과 같습니다.

<meta name =”robots” content=”index”>

이 태그가 하는 일은 그것이 있는 웹페이지의 색인을 생성하는 것입니다.

그것은 물 한 잔을 사겠다고 하는 누군가에게 물 한 잔을 사라고 말하는 것과 같습니다.

기본적으로 검색 엔진은 이 코드를 사용하지 않더라도 이미 사이트를 색인화합니다.

 

 

검색 엔진을 위한 User-agent 리스트

검색 엔진 Search Engine User Agent 크롤릭 목적 Purpose of Crawling
Alexa ia_archiver Crawler for Ranking
AOL aolbuild Search
Ask Jeeves teoma Search
Baidu Baiduspider Search
Baidu Baidu Favorites Baiduspider-favo
Baidu Baidu Union Baiduspider-cpro
Baidu Business Search (Advertisements) Baiduspider-ads
Baidu Desktop Baiduspider
Baidu Image Search Baiduspider-image
Baidu Mobile Baiduspider
Baidu News Search Baiduspider-news
Baidu Video Search Baiduspider-video
Bing AdIdxBot Bing Ads
Bing Bingbot Desktop and Mobile
Bing BingPreview Page Snapshots
Bing MSNBot Predecessor of Bingbot
Bing MSNBot-Media Images and Videos
Daum Daumoa Search
DuckDuckGo DuckDuckBot Search
Google AdsBot-Google Landing Page Quality Check
Google AdsBot-Google-Mobile-Apps App Crawler
Google Googlebot Desktop
Google Googlebot Smartphone
Google Googlebot-Image Images
Google Googlebot-News News
Google Googlebot-Video Videos
Google Mediapartners-Google AdSense Desktop
Google Mediapartners-Google AdSense Mobile
MSN msnbot
Search
Naver Yeti Search
Teoma
teoma Search
Yahoo! Slurp All Search
Yandex YaDirectFetcher Advertising
Yandex Yandex All Crawling
Yandex YandexAntivirus Malware Checker
Yandex YandexBlogs Blog Posts and Comments
Yandex YandexBot Desktop
Yandex YandexCalendar Calendar
Yandex YandexDirect Advertising
Yandex YandexDirectDyn Dynamic Banners
Yandex YandexFavicons Favicons
Yandex YandexImageResizer Mobile Image Services
Yandex YandexImages Images
Yandex YandexMedia Media
Yandex YandexMetrika Web Analytics
Yandex YandexMobileBot Mobile
Yandex YandexNews News
Yandex YandexPagechecker Micro Markup Validator
Yandex YandexScreenshotBot Screenshot
Yandex YandexSitelinks Sitelinks
Yandex YandexVertis Vertical Search
Yandex YandexWebmaster Webmaster Services

 

 

메타 로봇 태그 예

 

네이버 웹마스터 도구

<meta name="Robots" content="index,follow">

 

네이버 Naver bot

<meta name="Yeti" content="index,follow">

 

구글 Google bot

<meta name="Googlebot" content="index,follow">

 

구글 이미지 Google Imgae bot

<meta name="googlebot-image" content="index,follow">

 

다음 Daum bot

<meta name="Daumoa" content="index,follow">

 

빙 Bing bot

<meta name="Bingbot" content="index,follow">

 

야후 Yahoo Slurp bot

<meta name="Slurp" content="index,follow">

 

바이두 Baiduspider

<meta name="Baiduspider" content="index,follow">

 

알렉사 Alexa crawler

<meta name="ia_archiver" content="index,follow">

 

 

Google의 웹 검색 크롤러 외에도 실제로 9개의 추가 웹 크롤러가 있습니다.:

WEB CRAWLER

USER-AGENT STRING

Googlebot News

Googlebot-News

Googlebot Images

Googlebot-Image/1.0

Googlebot Video

Googlebot-Video/1.0

Google Mobile (featured phone)

SAMSUNG-SGH-E250/1.0 Profile/MIDP-2.0 Configuration/CLDC-1.1 UP.Browser/6.2.3.3.c.1.101 (GUI) MMP/2.0 (compatible; Googlebot-Mobile/2.1; +http://www.google.com/bot.html)

Google Smartphone

Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2272.96 Mobile Safari/537.36 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)

Google Mobile Adsense

(compatible; Mediapartners-Google/2.1; +http://www.google.com/bot.html)

Google Adsense

Mediapartners-Google

Google AdsBot (PPC landing page quality)

AdsBot-Google (+http://www.google.com/adsbot.html)

Google app crawler (fetch resources for mobile)

AdsBot-Google-Mobile-Apps

 

 

 

참고한 웹사이트:

https://miaow-miaow.tistory.com/90

Web Crawlers and User Agents - Top 10 Most Popular

https://www.keycdn.com/blog/web-crawlers

Search Engine Crawlers

https://www.seobility.net/en/wiki/Search_Engine_Crawlers

How Search organizes information

https://www.google.com/search/howsearchworks/crawling-indexing/

Robots.txt Specifications

developers.google.com/search/reference/robots_txt

List of All User Agents for Top Search Engines

perishablepress.com/list-all-user-agents-top-search-engines/#aol

User Agents List for Google, Bing, Baidu and Yandex Search Engines

www.webnots.com/user-agents-list-for-google-bing-baidu-and-yandex-search-engines/

 

반응형