网站地图URL检查器

检查和验证sitemap.xml(或站点地图索引),包括.xml.gz压缩站点地图。支持重定向跟踪,解析可配置数量的URL,突出常见SEO/爬虫问题,并导出JSON/PDF报告。

Loading…

关于 站点地图URL检查器

一个清晰的站点地图有助于搜索引擎高效地发现、抓取和理解您的URL。此工具获取站点地图URL,支持重定向和gzip压缩站点地图,解析条目(包括站点地图索引),并揭示常见问题,如无效结构、缺失<loc>标签、可疑<lastmod>时间以及其他爬虫陷阱。可将结果导出为JSON/PDF格式,以便长期跟踪修复进度。

功能特点

  • 解析标准站点地图和站点地图索引(站点地图的站点地图)。
  • 支持gzip压缩站点地图(.xml.gz),适用于实际大型网站。
  • 可选重定向跟踪,以审计最终获取的站点地图URL。
  • 可配置解析限制(最大解析URL数),确保审计快速且可预测。
  • 验证核心站点地图字段,并突出显示缺失/无效标签(特别是<loc>)。
  • 提取并检查<lastmod>使用情况,确保一致性和爬虫友好性。
  • 帮助识别与多语言SEO相关的站点地图模式(例如,URL分组和hreflang策略提示)。
  • 可复制的发现和摘要,便于SEO工单和调试。
  • 将报告导出为JSON或PDF格式,用于文档记录、共享和回归跟踪。

🧭 使用方法 for sitemap-url-inspector

1

粘贴您的站点地图URL

输入完整的站点地图URL。可以是常规XML站点地图,也可以是.xml.gz结尾的gzip压缩站点地图。

2

如需,启用“跟踪重定向”

如果您的站点地图URL发生重定向(http→https、非www→www、CDN重写),启用重定向可确保工具获取最终的站点地图位置。

3

设置“最大解析URL数”

选择要解析的URL条目数量。快速检查时使用较小的限制,深度审计时使用较大的限制(最高可达工具上限)。

4

查看验证结果和URL统计信息

检查结构性问题(缺失<loc>标签、无效日期、意外格式)以及可能影响抓取和索引的任何警告。

5

导出报告(JSON/PDF)

下载JSON或PDF报告,以便附加到SEO任务、与团队成员共享,或在更改前后进行比较。

技术规格

支持的输入

该工具设计用于获取和解析通过HTTP(S)提供的站点地图,包括压缩版本。

输入类型示例备注
XML站点地图[https://example.com/sitemap.xml](https://example.com/sitemap.xml)解析<urlset>条目。
站点地图索引[https://example.com/sitemap_index.xml](https://example.com/sitemap_index.xml)解析<sitemapindex>及嵌套的站点地图URL。
Gzip压缩站点地图[https://example.com/sitemap.xml.gz](https://example.com/sitemap.xml.gz)获取并解析压缩的站点地图。

抓取行为与限制

请求行为经过调优,以实现可预测的性能和类似爬虫的约束条件。

设置行为默认值
跟随重定向抓取站点地图URL时跟随重定向启用
最大重定向次数启用时跟随的最大重定向次数10
超时请求超时预算20000 毫秒
最大解析URL数限制从站点地图内容中解析的条目数量500 (范围 10–5000)
用户代理请求标识头Encode64Bot/1.0 (+[https://encode64.com](https://encode64.com))
私有网络阻止私有网络目标不允许

验证关注点

检查器优先关注那些通常会破坏站点地图收录或降低爬取效率的问题:缺失/无效的<loc>、格式错误的XML结构、可疑或不一致的<lastmod>,以及当站点地图生成不正确时可能混淆爬虫的模式。

一个站点地图可以是有效的XML,但对SEO而言质量仍然较低。请利用检查结果来提高清晰度、一致性和可维护性。

命令行

使用curl(或PowerShell)以与爬虫相同的方式调试站点地图抓取和重定向。

macOS / Linux

获取站点地图头部信息(无重定向)

curl -I [https://example.com/sitemap.xml](https://example.com/sitemap.xml)

检查状态码、内容类型和缓存头部信息。

跟随重定向并获取头部信息

curl -IL [https://example.com/sitemap.xml](https://example.com/sitemap.xml)

当站点地图URL被CDN或HTTPS规范化重定向时很有用。

下载站点地图内容(预览)

curl -s [https://example.com/sitemap.xml](https://example.com/sitemap.xml) | head -n 40

快速检查XML序言和根标签。

检查gzip压缩的站点地图(预览)

curl -s [https://example.com/sitemap.xml.gz](https://example.com/sitemap.xml.gz) | gzip -dc | head -n 40

解压并预览.xml.gz站点地图的开头部分。

Windows (PowerShell)

下载站点地图内容

Invoke-WebRequest -Uri [https://example.com/sitemap.xml](https://example.com/sitemap.xml) | Select-Object -ExpandProperty Content

获取XML主体以便快速检查。

如果您的站点地图非常大,请先验证一个有代表性的子集,然后再运行更大规模的解析以发现系统性的生成问题。

使用场景

验证新生成的站点地图

快速验证sitemap.xml是否可获取、格式良好且包含正确的URL条目。

  • 确认您的生成器输出有效的XML结构
  • 及早发现缺失的<loc>值

审核gzip压缩的站点地图以确保爬虫兼容性

确保压缩的站点地图被正确提供并能被干净地解析。

  • 检查.xml.gz内容是否可读且一致
  • 发现CDN/代理的内容类型问题

调试重定向和规范化问题

查找可能阻碍站点地图消费的意外重定向或非200响应。

  • http→https重定向链
  • www与非www的规范化

跟踪站点地图质量随时间的变化

在发布、CMS迁移或多语言扩展后导出报告并进行比较。

  • 部署前后的回归检查
  • 内容更新后监控<lastmod>的一致性

❓ Frequently Asked Questions

站点地图和站点地图索引有什么区别?

站点地图直接列出URL(通常在下)。站点地图索引列出多个站点地图文件(在下),这在大型网站中很常见。

我的站点地图应该包含 <lastmod> 吗?

这是可选的,但如果格式准确且一致,它会很有用。不正确或频繁更改的 值会降低可信度,并且可能无助于爬取。

为什么爬虫可能会忽略站点地图?

常见原因包括抓取错误(非200状态码)、访问被阻止、XML结构无效、缺少 、内容类型不正确或重定向循环。

如果我的站点地图重定向了,可以吗?

通常可以,但最好提交并发布最终的规范站点地图URL,以减少爬虫开销并避免意外中断。

这个工具能检查站点地图中每个URL的状态码吗?

此检查器主要专注于解析和验证站点地图以及提取统计数据。如果您想获取并验证每个列出的URL,请使用专用的URL状态检查器或爬虫工具。

这个工具支持多语言/hreflang站点地图吗?

它旨在帮助发现与多语言SEO相关的模式。如果您发布了替代语言URL,请确保您的站点地图结构和URL分组与您的hreflang策略保持一致。

Pro Tips

Best Practice

在Search Console中提交最终的规范站点地图URL(避免依赖重定向)。

Best Practice

对于非常大的网站,请拆分站点地图并使用站点地图索引。将每个站点地图保持在协议限制内,并分成易于管理的操作块。

Best Practice

仅在准确时使用 <lastmod>。如果页面内容未更改,不要为每次部署都更新它。

Best Practice

如果您有多语言URL(如 /fr/、/en/),请确保您的站点地图生成在所有语言版本中保持一致,以免爬虫看到部分覆盖。

Best Practice

在主要版本发布后导出JSON/PDF,以便在调试Search Console索引波动时拥有证据。

Additional Resources

Other Tools