Robots.txt (한국어)

robots.txt 파일이란 무엇입니까?

Robots.txt는 웹 마스터가 웹 로봇 ( 일반적으로 검색 엔진 로봇) 웹 사이트에서 페이지를 크롤링하는 방법. robots.txt 파일은 로봇이 웹을 크롤링하고, 콘텐츠에 액세스하고 색인을 생성하고, 해당 콘텐츠를 사용자에게 제공하는 방식을 규제하는 웹 표준 그룹 인 REP (robots exclusion protocol)의 일부입니다. REP에는 검색 엔진이 링크를 처리하는 방법에 대한 페이지, 하위 디렉토리 또는 사이트 전체 지침 (예 : “팔로우”또는 “nofollow”)뿐만 아니라 메타 로봇과 같은 지시문도 포함됩니다.

In 실제로 robots.txt 파일은 특정 사용자 에이전트 (웹 크롤링 소프트웨어)가 웹 사이트의 일부를 크롤링 할 수 있는지 여부를 나타냅니다. 이러한 크롤링 지침은 특정 (또는 모든) 사용자 에이전트의 동작을 “허용”또는 “허용”하여 지정됩니다.

기본 형식 :
User-agent: Disallow: 

이 두 줄은 완전한 robots.txt 파일로 간주됩니다.하지만 하나의 robots 파일에는 여러 줄의 사용자 에이전트 및 지시문 (예 : disallows, allow, crawl-delays 등)이 포함될 수 있습니다.

robots.txt 파일 내에서 각 사용자 에이전트 지시문 집합은 줄 바꿈으로 구분 된 개별 집합으로 표시됩니다.

여러 user-agent 지시문이있는 robots.txt 파일에서 각 허용 또는 허용 규칙은 useragent ( s) 특정 줄 바꿈으로 구분 된 집합에 지정됩니다. 파일에 둘 이상의 user-agent에 적용되는 규칙이 포함 된 경우 크롤러는 가장 구체적인 지침 그룹에만주의를 기울이고 지침을 따릅니다.

다음은 예입니다.

Msnbot, discobot 및 Slurp가 모두 호출됩니다. 특히 사용자 에이전트는 robots.txt 파일의 해당 섹션에있는 지침에만주의를 기울일 것입니다. 다른 모든 user-agent는 user-agent : * 그룹의 지시문을 따릅니다.

예시 robots.txt :

다음은 로봇에 대한 작동중인 robots.txt의 몇 가지 예입니다. www.example.com 사이트 :

Robots.txt 파일 URL : www.example.com/robots.txt
모든 콘텐츠에서 모든 웹 크롤러 차단
User-agent: * Disallow: /

robots.txt 파일에서이 구문을 사용하면 모든 웹 크롤러가 홈페이지를 포함하여 www.example.com의 페이지를 크롤링하지 않도록 지시합니다.

허용 모든 웹 크롤러가 모든 콘텐츠에 액세스
User-agent: * Disallow: 

robots.txt 파일에서이 구문을 사용하면 웹 크롤러가 다음을 포함하여 www.example.com의 모든 페이지를 크롤링하도록 지시합니다. 홈페이지.

특정 폴더에서 특정 웹 크롤러 차단
User-agent: Googlebot Disallow: /example-subfolder/

이 구문은 Google 크롤러 (사용자 에이전트 이름 Googlebot ) URL 문자열 www.example.com/example-subfolder/가 포함 된 페이지를 크롤링하지 않습니다.

특정 웹 페이지에서 특정 웹 크롤러 차단
User-agent: Bingbot Disallow: /example-subfolder/blocked-page.html

이 구문은 Bing의 크롤러 (사용자 에이전트 이름 Bing)에게만 www.example.com/example-subfolder/blocked-page의 특정 페이지를 크롤링하지 않도록 지시합니다. .html.

robots.txt는 어떻게 작동합니까?

검색 엔진에는 두 가지 주요 작업이 있습니다.

  1. 콘텐츠 검색을위한 웹 크롤링
  2. 정보를 찾는 검색 자에게 제공 될 수 있도록 해당 콘텐츠의 색인을 생성합니다.

사이트를 크롤링하기 위해 검색 엔진은 링크를 따라 한 사이트에서 다른 사이트로 이동합니다. 궁극적으로는 크롤링 수십억 개의 링크와 웹 사이트에서 이러한 크롤링 동작을 “스파이더 링”이라고도합니다.

웹 사이트에 도착한 후 스파이더 링하기 전에 검색 크롤러는 robots.txt 파일을 찾습니다. 하나를 찾으면 크롤러는 해당 파일을 읽습니다. 파일을 먼저 확인한 후 페이지를 계속 진행하세요. robots.txt 파일에는 검색 엔진이 크롤링하는 방법에 대한 정보가 포함되어 있으므로 여기에서 찾은 정보는이 특정 사이트에 대한 추가 크롤러 작업을 지시합니다. robots.txt 파일에 다음과 같은 명령어가 포함되어 있지 않은 경우 user-agent의 활동을 허용하지 않으면 (또는 사이트에 robots.txt 파일이없는 경우) 사이트의 다른 정보를 크롤링합니다.

기타 빠른 robots.txt가 알아야 할 사항 :

(아래에서 자세히 설명)

  • 찾으려면 robots.txt 파일을 웹 사이트의 최상위 디렉토리에 배치해야합니다.

    p>

  • Robots.txt는 대소 문자를 구분합니다. 파일 이름은 “robots.txt”여야합니다 (Robots.txt, robots.TXT 등이 아님).

  • 일부 사용자 에이전트 (로봇) m robots.txt 파일을 무시하도록 선택합니다. 이는 특히 악성 코드 로봇이나 이메일 주소 스크레이퍼와 같은 사악한 크롤러에서 흔히 발생합니다.

  • /robots.txt 파일은 공개적으로 사용 가능합니다. /robots.txt를 끝에 추가하기 만하면됩니다. 해당 웹 사이트의 지시문을 보려면 모든 루트 도메인의즉, 누구든지 귀하가 수행하는 페이지 또는 크롤링하지 않을 페이지를 볼 수 있으므로 개인 사용자 정보를 숨기는 데 사용하지 마십시오.

  • 루트의 각 하위 도메인 도메인은 별도의 robots.txt 파일을 사용합니다. 즉, blog.example.com과 example.com 모두 자체 robots.txt 파일 (blog.example.com/robots.txt 및 example.com/robots.txt)이 있어야합니다.

  • 일반적으로 robots.txt 파일 하단에이 도메인과 연결된 사이트 맵의 위치를 표시하는 것이 좋습니다. 예 :

기술적 인 robots.txt 구문

Robots.txt 구문은 robots.txt 파일의 ‘언어’로 생각할 수 있습니다. 로봇에서 접할 수있는 5 가지 일반적인 용어가 있습니다. 파일입니다.

  • User-agent : 크롤링 지침을 제공하는 특정 웹 크롤러 (일반적으로 검색 엔진). 대부분의 사용자 에이전트 목록을 찾을 수 있습니다. 여기.

  • Disallow : 특정 URL을 크롤링하지 않도록 사용자 에이전트에 지시하는 데 사용되는 명령입니다. 각 URL에 대해 하나의 “Disallow :”행만 허용됩니다.

  • 허용 (Googlebot에만 해당) : 상위 페이지 또는 하위 폴더가 허용되지 않더라도 페이지 또는 하위 폴더에 액세스 할 수 있도록 Googlebot에 알리는 명령입니다.

  • 크롤링 지연 : 페이지 콘텐츠를로드하고 크롤링하기 전에 크롤러가 기다려야하는 시간 (초)입니다. Googlebot은이 명령을 인식하지 않지만 크롤링 속도는 설정할 수 있습니다. n Google Search Console.

  • Sitemap :이 URL과 연결된 XML 사이트 맵의 위치를 호출하는 데 사용됩니다. 이 명령은 Google, Ask, Bing 및 Yahoo에서만 지원됩니다.

패턴 일치

차단할 실제 URL의 경우 또는 허용하면 robots.txt 파일은 패턴 일치를 사용하여 가능한 URL 옵션의 범위를 포괄하므로 상당히 복잡해질 수 있습니다. Google과 Bing은 모두 SEO가 제외하려는 페이지 또는 하위 폴더를 식별하는 데 사용할 수있는 두 가지 정규식을 사용합니다. 이 두 문자는 별표 (*)와 달러 기호 ($)입니다.

  • *는 모든 문자 시퀀스를 나타내는 와일드 카드입니다.
  • $는 URL

Google은 여기에서 가능한 패턴 일치 구문 및 예제 목록을 제공합니다.

robots.txt는 사이트에서 어디로 이동합니까?

사이트를 방문 할 때마다 검색 엔진 및 기타 웹 크롤링 로봇 (예 : Facebook의 크롤러, Facebot)은 robots.txt 파일을 찾는 방법을 알고 있습니다. 하지만 특정 위치 인 기본 디렉토리 (일반적으로 루트 도메인 또는 홈페이지)에서만 해당 파일을 찾습니다. 사용자 에이전트가 www.example.com/robots.txt를 방문했는데 거기에서 로봇 파일을 찾지 못하면 사이트에 로봇 파일이 없다고 가정하고 페이지의 모든 것을 크롤링합니다 (전체 사이트에서도 가능). robots.txt 페이지가 example.com/index/robots.txt 또는 www.example.com/homepage/robots.txt에 존재하더라도 사용자 에이전트가이를 발견하지 못하므로 사이트가 처리됩니다. robots 파일이 전혀없는 것처럼 보입니다.

robots.txt 파일을 찾으려면 항상 기본 디렉토리 나 루트 도메인에 포함 시키십시오.

왜 그렇게합니까? robots.txt가 필요하십니까?

Robots.txt 파일은 사이트의 특정 영역에 대한 크롤러 액세스를 제어합니다. 실수로 Googlebot이 전체 사이트를 크롤링하는 것을 허용하지 않으면 (!!) 매우 위험 할 수 있지만 robots.txt 파일이 매우 편리한 경우가 있습니다.

몇 가지 일반적인 사용 사례는 다음과 같습니다.

  • SERP에 중복 콘텐츠가 표시되지 않도록 방지 (이 경우 메타 로봇이 더 나은 선택 인 경우가 많음)
  • 웹 사이트의 전체 섹션을 비공개로 유지 (예 : 엔지니어링 팀의 준비 사이트)
  • 내부 검색 결과 페이지가 공개 SERP에 표시되지 않도록 유지
  • 사이트 맵 위치 지정
  • 검색 엔진의 색인 생성 방지 웹 사이트의 특정 파일 (이미지, PDF 등)
  • 크롤러가 여러 콘텐츠를 한 번에로드 할 때 서버 과부하를 방지하기 위해 크롤링 지연 지정

사이트에 사용자 에이전트 액세스를 제어하려는 영역이없는 경우 robots.txt 파일이 전혀 필요하지 않을 수 있습니다.

로봇이 있는지 확인 s.txt 파일

robots.txt 파일이 있는지 확실하지 않습니까? 루트 도메인을 입력 한 다음 URL 끝에 /robots.txt를 추가하면됩니다. 예를 들어 Moz의 로봇 파일은 moz.com/robots.txt에 있습니다.

.txt 페이지가 나타나지 않으면 현재 (라이브) robots.txt 페이지가없는 것입니다.

robots.txt 파일을 만드는 방법

robots.txt 파일이 없거나 파일을 변경하려는 경우 간단하게 생성 할 수 있습니다. Google에서 제공하는이 도움말은 robots.txt 파일 생성 프로세스를 안내하며이 도구를 사용하면 파일이 올바르게 설정되었는지 테스트 할 수 있습니다.

로봇 파일을 만드는 연습을 원하십니까?이 블로그 게시물은 몇 가지 대화 형 예제를 안내합니다.

SEO 모범 사례

  • 크롤링하려는 웹 사이트의 콘텐츠 나 섹션을 차단하고 있지 않은지 확인하세요.

  • robots.txt에 의해 차단 된 페이지의 링크는 추적되지 않습니다. 이는 1을 의미합니다. 다른 검색 엔진에서 액세스 할 수있는 페이지 (예 : robots.txt, 메타 로봇 등을 통해 차단되지 않은 페이지)에서도 링크되지 않는 한 링크 된 리소스는 크롤링되지 않으며 색인이 생성되지 않을 수 있습니다. 2.) 차단 된 페이지에서 링크 대상으로 링크 자산을 전달할 수 없습니다. 자산을 전달하려는 페이지가있는 경우 robots.txt 이외의 다른 차단 메커니즘을 사용하세요.

  • 민감한 데이터를 방지하기 위해 robots.txt를 사용하지 마세요 (예 : 개인 사용자 정보)가 SERP 결과에 나타납니다. 다른 페이지는 개인 정보가 포함 된 페이지로 직접 링크 될 수 있으므로 (따라서 루트 도메인이나 홈페이지의 robots.txt 지시문을 우회) 색인이 생성 될 수 있습니다. 검색 결과에서 페이지를 차단하려면 비밀번호 보호 또는 NOINDEX 메타 지시문과 같은 다른 방법을 사용하세요.

  • 일부 검색 엔진에는 여러 사용자 에이전트가 있습니다. 예를 들어 Google은 자연 검색에는 Googlebot을 사용하고 이미지 검색에는 Googlebot-Image를 사용합니다. 동일한 검색 엔진의 대부분의 사용자 에이전트는 동일한 규칙을 따르므로 검색 엔진의 여러 크롤러 각각에 대한 지시문을 지정할 필요가 없지만 그렇게 할 수 있으면 사이트 콘텐츠가 크롤링되는 방법을 미세 조정할 수 있습니다.

  • 검색 엔진은 robots.txt 콘텐츠를 캐시하지만 일반적으로 캐시 된 콘텐츠를 적어도 하루에 한 번 업데이트합니다. 파일을 변경하고 발생하는 것보다 더 빨리 업데이트하려면 robots.txt URL을 Google에 제출할 수 있습니다.

Robots.txt vs meta robots vs x -로봇

너무 많은 로봇! 이 세 가지 유형의 로봇 명령의 차이점은 무엇입니까? 먼저 robots.txt는 실제 텍스트 파일 인 반면 meta 및 x-robot은 메타 지시문입니다. 실제로 존재하는 것 외에도 세 가지 모두 다른 기능을 수행합니다. Robots.txt는 사이트 또는 디렉토리 전체 크롤링 동작을 지시하는 반면 메타 및 x-robot은 개별 페이지 (또는 페이지 요소) 수준에서 색인 생성 동작을 지시 할 수 있습니다.

계속 학습

  • 로봇 메타 지침
  • 정규화
  • 리디렉션
  • 로봇 배제 프로토콜

실력을 발휘하세요

Moz Pro는 귀하의 robots.txt 파일이 귀하의 웹 사이트에 대한 당사의 액세스를 차단하고 있는지 여부를 식별 할 수 있습니다. 사용해보기 > >

Write a Comment

이메일 주소를 발행하지 않을 것입니다. 필수 항목은 *(으)로 표시합니다