Robots.txt 테스터

사이트의 robots.txt 규칙에 따라 특정 경로가 크롤러에게 허용되는지 테스트합니다. User-Agent 선택(예: Googlebot, bingbot, 또는 *), 최종 robots.txt에 도달하기 위한 리디렉션 추적, 사이트맵 지시어 추출, SEO 감사 및 모니터링을 위한 결과 JSON 내보내기 기능을 제공합니다.

Loading…

소개 Robots.txt 테스터

Robots.txt는 사이트 수준에서 크롤러 접근을 제어합니다. 이 도구는 사이트의 robots.txt를 가져와 선택한 User-Agent에 대한 규칙을 적용하고, 특정 경로가 허용되거나 차단되어야 하는지 알려줍니다. 색인 문제 진단, 마이그레이션 변경 사항 검증, 중요한 섹션을 실수로 차단하지 않았는지(또는 비공개 섹션을 노출하지 않았는지) 확인하는 데 완벽합니다.

기능

  • 선택한 User-Agent(Googlebot, bingbot, 또는 *)에 대해 robots.txt 대비 특정 경로를 테스트합니다.
  • 규칙 평가 전 올바른 호스트/프로토콜에 도달하기 위해 리디렉션을 추적합니다.
  • robots.txt에서 발견된 Sitemap: 지시어를 추출하고 검증합니다.
  • 일반적인 잘못된 구성(과도한 차단, 누락된 사이트맵, 일관되지 않은 호스트 리디렉션)을 강조 표시합니다.
  • SEO 티켓 및 디버깅을 위해 결과를 복사합니다.
  • 감사, 회귀 검사 및 CI 모니터링을 위한 JSON 보고서를 내보냅니다.
  • 기본적으로 안전: 사설 네트워크 대상을 차단하고 고정된 User-Agent를 사용합니다.

🧭 사용 방법 for robots-txt-tester

1

사이트 URL 입력

사이트의 기본 URL을 붙여넣으세요(예: [https://example.com](https://example.com)). 도구는 해당 사이트의 robots.txt를 찾아 읽습니다.

2

User-Agent 선택

모든 봇을 시뮬레이션하려면 *를 선택하거나, Googlebot / bingbot을 선택하여 해당 그룹의 특정 규칙을 평가하세요. Robots.txt 동작은 봇마다 다를 수 있습니다.

3

테스트할 경로 설정

검증하려는 경로를 입력하세요(예: /private/ 또는 /products/widget). 이는 Allow/Disallow 규칙에 대해 평가됩니다.

4

“리디렉션 추적” 활성화 유지(권장)

사이트가 http→https 또는 non-www→www(또는 그 반대)로 리디렉션하는 경우, 리디렉션을 추적하면 올바른 호스트의 robots.txt를 평가할 수 있습니다.

5

결과 및 사이트맵 줄 검토

경로가 허용되는지 확인하고, 추출된 사이트맵 지시어를 확인하세요. 감사 또는 모니터링을 위한 증거를 보관하려면 JSON을 내보내세요.

기술 사양

도구가 평가하는 내용

테스터는 사이트의 robots.txt를 가져와 제공된 경로에 User-Agent 그룹 규칙을 적용합니다. 또한 SEO 검증을 위한 사이트맵 지시어를 추출할 수 있습니다.

입력의미예시
사이트 URLrobots.txt를 가져오는 기본 사이트[https://example.com](https://example.com)
사용자 에이전트평가할 크롤러 그룹 규칙Googlebot, bingbot, *
테스트 경로허용/차단 지시어에 대해 확인되는 경로/private/

요청 동작 및 안전성

요청은 서버 측에서 이루어지며 안전 제한과 선택적 리디렉션 추적 기능이 있어, 표준 호스트/프로토콜 설정에 중요합니다.

설정동작기본값
리디렉션 추적평가 전 최종 호스트/프로토콜로 리디렉션을 추적합니다활성화됨
최대 리디렉션 횟수추적 활성화 시 리디렉션 상한10
타임아웃요청 타임아웃 제한15000 ms
사용자 에이전트 (요청)도구 요청 사용자 에이전트를 식별합니다Encode64Bot/1.0 (+[https://encode64.com](https://encode64.com))
사설 네트워크안전을 위해 사설 네트워크 대상을 차단합니다비활성화됨 (사설 네트워크 허용 안 됨)

실용적인 robots.txt 규칙 해석

Robots.txt는 크롤러 지시어(접근 제어 시스템이 아님)입니다. 크롤링을 방지하는 데 도움이 되지만, 색인 해제를 보장하거나 민감한 데이터를 보호하지는 않습니다.

비공개 콘텐츠를 보호해야 하는 경우 인증과 적절한 권한 부여를 사용하세요. 색인 해제를 위해서는 noindex 헤더/메타 태그에 의존하고 공개 링크를 제거하세요—robots.txt만으로는 제거 도구가 아닙니다.

명령줄

curl을 사용하여 robots.txt를 빠르게 검사하고 리디렉션을 확인할 수 있습니다.

macOS / Linux

robots.txt 가져오기

curl -s [https://example.com/robots.txt](https://example.com/robots.txt)

수동 검사를 위해 robots.txt 콘텐츠를 다운로드합니다.

robots.txt로의 리디렉션 추적

curl -sL [https://example.com/robots.txt](https://example.com/robots.txt)

호스트나 프로토콜이 리디렉션될 때 유용합니다 (http→https, non-www→www 등).

robots.txt 요청에 대한 헤더 표시

curl -I [https://example.com/robots.txt](https://example.com/robots.txt)

HTTP 상태, 캐싱 헤더, 리디렉션 여부를 확인합니다.

Windows (PowerShell)

robots.txt 가져오기

Invoke-WebRequest -Uri [https://example.com/robots.txt](https://example.com/robots.txt) | Select-Object -ExpandProperty Content

robots.txt 내용을 출력합니다.

마이그레이션 중에는 모든 정식 호스트와 프로토콜 변형(http/https + www/non-www)에서 robots.txt를 확인하여 프로덕션 정식 호스트에서 실수로 크롤링이 차단되지 않도록 하세요.

사용 사례

'인덱싱되었지만 robots.txt에 의해 차단됨' 문제 진단

어떤 경로가 정확히 어떤 봇 그룹에 의해 차단되는지 확인합니다.

  • 전체 사이트를 차단하는 실수로 인한 Disallow: / 찾기
  • Googlebot 규칙이 * 규칙과 다른지 확인

마이그레이션 및 정식 호스트 변경 검증

프로덕션 정식 호스트가 크롤링 가능하고, 리디렉션 후 robots.txt가 존재하며 올바른지 확인합니다.

  • http→https 리디렉션 후에도 robots.txt 발견 가능
  • www/non-www 정식 호스트가 의도한 규칙을 제공

사이트맵 선언 확인

Sitemap: 줄을 추출하고 올바르고 접근 가능한 사이트맵 URL을 가리키는지 확인합니다.

  • 사이트맵 URL이 정식 호스트와 https를 사용하는지 확인
  • 대규모 사이트에서 누락된 Sitemap 지시문 감지

실수로 인한 크롤링 낭비 방지

중요하지 않은 경로(관리자, 내부 검색, 매개변수)를 차단하면서 가치 있는 섹션은 크롤링 가능하게 유지합니다.

  • 내부 검색 URL 차단
  • 중요한 페이지네이션/카테고리 경로 허용

❓ Frequently Asked Questions

robots.txt가 인덱싱을 방지하나요?

신뢰할 수 없습니다. Robots.txt는 크롤링을 제어하며, 인덱싱을 제어하지는 않습니다. URL이 차단되어도 다른 페이지에서 링크되거나 이미 알려진 경우 인덱싱될 수 있습니다. 인덱싱 해제 전략에는 noindex를 사용하세요.

robots.txt는 보안 기능인가요?

아닙니다. 이는 공개 파일이며, 준수하는 크롤러에 대한 지시사항일 뿐입니다. 민감한 페이지를 보호하기 위해 robots.txt를 사용하지 마세요. 대신 인증과 권한 부여를 사용하세요.

다른 User-Agent를 테스트해야 하는 이유는 무엇인가요?

Robots.txt는 User-Agent별로 다른 규칙 그룹을 정의할 수 있습니다. 구성에 따라 경로가 한 크롤러에게는 허용되고 다른 크롤러에게는 차단될 수 있습니다.

'리디렉션 따르기'가 중요한 이유는 무엇인가요?

robots.txt는 호스트별로 다르기 때문입니다. 사이트가 정식 호스트/프로토콜로 리디렉션되면, 리디렉션을 따라가면 최종 목적지의 robots.txt 규칙을 평가할 수 있습니다.

가장 안전한 기본 구성은 무엇인가요?

중요 콘텐츠는 크롤링 가능하게 유지하고, 정말로 도움이 되지 않는 URL만 차단하며, 항상 정식 https 호스트에 사이트맵(또는 여러 사이트맵)을 게시하세요. 확신이 없는 한 광범위한 Disallow 패턴은 피하세요.

크롤링은 차단하되 인덱싱은 허용할 수 있나요?

robots.txt를 통해 크롤링을 차단해도 URL이 외부에서 링크되면 검색 엔진이 콘텐츠를 크롤링하지 않고도 URL을 인덱싱할 수 있습니다. 인덱싱 해제가 필요하면 noindex를 사용하세요(그리고 봇이 확인할 수 있도록 크롤링은 허용).

Pro Tips

Best Practice

항상 정식 호스트와 프로토콜(https + 선택한 www/비 www)에서 robots.txt를 테스트하세요. 많은 '차단' 사건은 잘못된 호스트의 robots.txt를 수정해서 발생합니다.

Best Practice

인덱싱 해제에 robots.txt를 사용하지 마세요. 제거가 필요하면 noindex를 사용하고(크롤링은 허용), 내부 링크를 제거하고 사이트맵을 업데이트하세요.

CI Tip

정식으로 접근 가능한 사이트맵 URL(https, 올바른 호스트명)을 가리키는 Sitemap: 지시어를 포함하세요.

CI Tip

배포/이전 중에는 robots.txt가 존재하고, 200을 반환하며, 프로덕션 환경에서 Disallow: /를 포함하지 않는지 확인하는 빠른 CI 검사를 추가하세요.

Best Practice

광범위한 패턴으로 과도하게 차단하는 것을 피하세요. 리소스나 주요 섹션을 차단하면 렌더링과 발견에 악영향을 줄 수 있습니다.

Additional Resources

Other Tools

Robots.txt 테스터 — Allow/Disallow 규칙 및 사이트맵 지시어 테스트 | Encode64