Sitemap协议规范 1.什么是Sitemap协议 SiteMap Protocol是一种站点地图协议。加入了SiteMap文件的网站将更有利于搜索引擎网页爬行机器人的爬行索引,这样将提高索引网站内容的效率和准确度。文件协议应用了简单的XML格式,一共用到6个标签,其中关键标签包括链接地址、更新时间、更新频率和索引优先权。 2.Sitemap协议规范的基本要求 (1)Sitemap文件采用.xml格式 (2)Sitemap文件必须使用utf-8编码 (3)可以采用gzip(.gz)格式来压缩Sitemap文件 (4)Sitemap文件未压缩前不能大于2MB (5)一个Sitemap文件中包含的Url不能超过50000个 (6)Sitemap中Url的优先权的值是一个表示当前站点中Url重要程序的相对值 (7)Sitemap中Url的优先仅的缺省值是0.5 (8)Sitemap中的Url必须是xml安全的(URL'smust be XML Safe (use XMLFormat()) 3.Sitemap协议中的标签 标签 | | | | | Sitemap文件最顶层的标签,sitemap文件中的其它标签都必须包含在该标签内部 | | | 每一条记录的父标签,下面的其它标签都得包含在该标签内部 | | | | | | 页面最后的更新时间,时间格式参见ISO 8601,通常使用YYYY-MM-DD格式 | | | 页面更新频率,取值为:always, hourly, daily, weekly, monthly, yearly, never。 这里需要注意: always表示页面在每次被访问到时就更新 never表示当前Url的是一个目录 | | | 当前Url的相对优先权,这个优先权是相对于当前Sitemap中其它Url而言的 |
4.扩展:Sitemap Index 一个站点可以有多个sitemap文件,对于多个sitemap的站点,需要一个名为sitemap_index.xml的索引文件来指定各个sitemap文件的位置。 关于SitemapIndex需要注意: (1)SitemapIndex名字必须为sitemap_index.xml (2)SitemapIndex文件必须使用utf-8编码 (3)SitemapIndex中包含的sitemap数不能超过50000个 (4)SitemapIndex压缩前的大小不能超过2MB (5)SitemapIndex的标签: 标签 | | | | | Sitemap Index文件最顶层的标签,Sitemap Index文件中的其它标签都必须包含在该标签内部 | | | 每一条记录的父标签,下面的其它标签都得包含在该标签内部 | | | 用来指定某一个sitemap文件位置的Url, 长度不能超过2048 | | | 该sitemap文件最后的更新时间,时间格式参见ISO 8601,通常使用YYYY-MM-DD格式 |
5.例子 (1)sitemap.xml <?xml version='1.0' encoding='UTF-8'?> <urlsetxmlns="http://www.sitemaps.org/schemas/sitemap/0.9" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://www.sitemaps.org/schemas/sitemap/0.9 <url> <lastmod>2006-11-18</lastmod> <changefreq>daily</changefreq> <priority>0.8</priority> </url> </urlset> (2)sitemap_index.xml <?xml version="1.0" encoding="UTF-8"?> <sitemapindexxmlns="http://www.sitemaps.org/schemas/sitemap/0.9"> <sitemap> <lastmod>2004-10-01T18:23:17+00:00</lastmod> </sitemap> <sitemap> <lastmod>2005-01-01</lastmod> </sitemap> </sitemapindex> 6.参考资料
|