首页 > 设计集萃

网站地图Sitemap.xml详解

作者:不详  来源:网络  2009-7-12

    Sitemap.xml是google搞出来的,也就是网站地图,不过这个网站地图是用xml写的,而且要按google的标准来写,并且要将写出来的这个文件sitemap.xml上传到自己的服务器空间中去。目前,Google, Yahoo, MSN都已经声明支持这种格式,Baidu还没有声明支持,但估计走这一步也是大势所趋。这将是向众多搜索引擎提供你网站信息的一种很好的方法。

  提交sitemap一是有利于搜索抓取一些正常抓取过程中无法抓取的网址,比如动态网页,包含大量AJAX的网页或者flash的页面。二是为搜索蜘蛛指明“工作方向”。Sitemap就是你网站上页面的列表,googlebot就按照这个去一个个的抓取收录页面,显然比它自己去找会效率高,而且要全。Google网站上有完整的关于sitemap.xml的详细说明:http://www.google.com/support/webmasters/bin/answer.py?answer=40318&hl=zh_CN

  但很多站长看后仍然不会操作,下面这个教程就是手把手教会你创建Sitemap.xml。

    1. Sitemap.XML 的格式

    完整格式如下:

    <?xml version="1.0" encoding="UTF-8"?>
    <urlset xmlns="http://www.google.com/schemas/sitemap/0.84" >
       <url>
              <loc>http://www.dreamart.cn/</loc>
              <lastmod>2008-07-17</lastmod>
              <changefreq>daily</changefreq>
              <priority>1.0</priority>
       </url>
       <url>
              http://www.dreamart.cn/news/index.asp
              <lastmod>2008-07-17</lastmod>
              <changefreq>weekly</changefreq>
              <priority>0.9</priority>
       </url>
       …
       …
    </urlset>

    下面,对以上标签分别加以解释

    a) <?xml version="1.0" encoding="UTF-8"?>
    <urlset xmlns="http://www.google.com/schemas/sitemap/0.84" >

    这两行就相当于网页文件中的<html>标签一样的作用。不必管这两行什么意思,照抄即可。
    切记:一个字符也不能错,即使多一个空格,google网站采集时也会报错。另外,千万别忘了在文件的末尾加上</urlset>标签。

  b) url:每个标签包含一个网页地址,是以下标签的父标签。

  c) http://www.dreamart.cn/
  这里是页面链接地址,也就是你希望蜘蛛访问的地址。
  切记:在地址中出现的某些特殊字符需要使用转义字符,否则,google也会报错。最典型的就是 & 号,经常在动态网址中出现,在提交地址中必须写成 & 如:提交http://www.dreamart.cn/,google管理员工具就会报错,而改为 http://www.dreamart.cn/提交后就没有问题了。我看到网上有人说sitemap.xml只能提交一个参数的网页的说法,其实多半是因为没有使用转义字符而导致出错的。其他的转义字符就不一一列出了,大家可以在网上查。

  d) lastmod:页面最后修改时间
  这个很重要。Google的机器人会在索引此链接前先和上次索引记录的最后更新时间进行 比较,如果时间一样就会跳过不再索引。所以如果你的链接内容基于上次Google索引时的内容有所改变,应该更新该时间,让Google下次索引时会重新 对该链接内容进行分析和提取关键字。这里必须用ISO 8601中指定的时间格式进行描述,格式化的时间格式如下:

  年:YYYY(2008)
  年和月:YYYY-MM(2008-06)
  年月日:YYYY-MM-DD(2008-06-04)
  年月日小时分钟:YYYY-MM-DDThh:mmTZD(2008-06-04T10:37+08:00)
  年月日小时分钟秒:YYYY-MM-DDThh:mmTZD(2008-06-04T10:37:30+08:00)
  这里需注意的是TZD,TZD指定就是本地时间区域标记,像中国就是+08:00了
  切记:其他格式可能引起出错,比如将2008-08-08 写成2008-8-8就会出问题。

  e) changefreq:页面内容更新频率。
  这里可以用来描述的单词共这几个:"always", "hourly", "daily", "weekly", "monthly", "yearly",具体含义我就不用解释了吧,光看单词的意思就明白了。

  f) priority:相对于其他页面的优先权
  定于0.0 - 1.0之间 。
  切记:建议将各类网页根据重要性给出不同的数值,以方便蜘蛛的采集,不要耍小聪明全部写1.0,google管理工具会报错的。

12
实用网站
临沂市书法家协会
山东省书法家协会
建筑英才网
江西省书法家协会
广州倾松数码科技有限公司
天下收藏
URBANUS 都市实践
服装人才网
大象展示设计
黄扬设计
深圳市华奥展览服务有限公司
王序设计
韩家英设计
毕学锋设计顾问机构
上海宜洋家具制造有限公司
陈幼坚
北京国际印刷展
河南省书法家协会
相关内容
网页出现了乱码,应该怎么办?
Windows XP下如何创建启动软盘?
网站换素装(灰色调)
网站自动选择最快的站点进入的程序!
为网页插入多媒体播放器的代码
Photoshop中75个隐藏的技巧
解决Flash“单击以激活并使用此控件”问题
FLASH参数详解
PS快捷键大全
robots.txt文件的写法
网站中的将新站在窗口中弹出代码

© 2001-2030 m.dreamart.cn

QQ:3815864 das@dreamart.cn