nkc3g4 发表于 2013-4-28 22:35:02

Sitemap协议规范

Sitemap协议规范1.什么是Sitemap协议SiteMap Protocol是一种站点地图协议。加入了SiteMap文件的网站将更有利于搜索引擎网页爬行机器人的爬行索引,这样将提高索引网站内容的效率和准确度。文件协议应用了简单的XML格式,一共用到6个标签,其中关键标签包括链接地址、更新时间、更新频率和索引优先权。2.Sitemap协议规范的基本要求(1)Sitemap文件采用.xml格式(2)Sitemap文件必须使用utf-8编码(3)可以采用gzip(.gz)格式来压缩Sitemap文件(4)Sitemap文件未压缩前不能大于2MB(5)一个Sitemap文件中包含的Url不能超过50000个(6)Sitemap中Url的优先权的值是一个表示当前站点中Url重要程序的相对值(7)Sitemap中Url的优先仅的缺省值是0.5(8)Sitemap中的Url必须是xml安全的(URL'smust be XML Safe (use XMLFormat()) 3.Sitemap协议中的标签
标签是否必须说明
<urlset>是Sitemap文件最顶层的标签,sitemap文件中的其它标签都必须包含在该标签内部
<url>是每一条记录的父标签,下面的其它标签都得包含在该标签内部
<loc>是页面Url, 长度不能超过2048
<lastmod>否页面最后的更新时间,时间格式参见ISO8601,通常使用YYYY-MM-DD格式
<changefreq >否页面更新频率,取值为:always,hourly, daily, weekly, monthly, yearly, never。这里需要注意:always表示页面在每次被访问到时就更新never表示当前Url的是一个目录
<priority>否当前Url的相对优先权,这个优先权是相对于当前Sitemap中其它Url而言的

4.扩展:Sitemap Index一个站点可以有多个sitemap文件,对于多个sitemap的站点,需要一个名为sitemap_index.xml的索引文件来指定各个sitemap文件的位置。关于SitemapIndex需要注意:(1)SitemapIndex名字必须为sitemap_index.xml(2)SitemapIndex文件必须使用utf-8编码(3)SitemapIndex中包含的sitemap数不能超过50000个(4)SitemapIndex压缩前的大小不能超过2MB(5)SitemapIndex的标签:
标签是否必须说明
<sitemapindex>是Sitemap Index文件最顶层的标签,SitemapIndex文件中的其它标签都必须包含在该标签内部
<sitemap>是每一条记录的父标签,下面的其它标签都得包含在该标签内部
<loc>是用来指定某一个sitemap文件位置的Url, 长度不能超过2048
<lastmod>否该sitemap文件最后的更新时间,时间格式参见ISO 8601,通常使用YYYY-MM-DD格式

5.例子(1)sitemap.xml<?xml version='1.0' encoding='UTF-8'?><urlsetxmlns="http://www.sitemaps.org/schemas/sitemap/0.9" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://www.sitemaps.org/schemas/sitemap/0.9 http://www.sitemaps.org/schemas/sitemap/0.9/sitemap.xsd">      <url>            <loc>http://example.com/</loc>            <lastmod>2006-11-18</lastmod>            <changefreq>daily</changefreq>            <priority>0.8</priority>      </url></urlset>(2)sitemap_index.xml<?xml version="1.0" encoding="UTF-8"?><sitemapindexxmlns="http://www.sitemaps.org/schemas/sitemap/0.9">   <sitemap>   <loc>http://www.example.com/sitemap1.xml.gz</loc>   <lastmod>2004-10-01T18:23:17+00:00</lastmod>   </sitemap>   <sitemap>   <loc>http://www.example.com/sitemap2.xml.gz</loc>   <lastmod>2005-01-01</lastmod>   </sitemap></sitemapindex>6.参考资料http://en.wikipedia.org/wiki/Sitemaps http://en.wikipedia.org/wiki/Sitemap_index
页: [1]
查看完整版本: Sitemap协议规范