首页 > 设计集萃

robots.txt文件的写法

作者:不详  来源:网络  2009-7-12

以上是一些常用的格式。具体的写法还要以各个网站需求而定。写robots.txt还要注意以下一些问题:

1、robots.txt文件是以纯文本格式保存的txt文件。

2、robots.txt必须防止在网站的根目录中。最上层的robots.txt文件必须这样被访问:如http://www.dreamart.cn/robots.txt

3、书写robots.txt时要严格按照以上大小写形式书写。

4、通常你的网站如果比较简单,那么以上的格式足够你使用的了。如果比较复杂,需要访问这里而又不需要访问那里,禁止这个文件又要允许那个文件,允许访问访问带有“?”符号的特定网页等等,那么你需要结合以上格式仔细

研究合适于你网站的robots.txt文件写法。

5、robots.txt通常在某个分目录中还可以存在,但是如果与顶级目录中的robots.txt有冲突,则以顶级目录中robots.txt命令为准。

6、仅当您的网站包含不希望被搜索引擎收录的内容时,才需要使用robots.txt文件。如果您希望搜索引擎收录网站上所有内容,请勿建立robots.txt文件或者创建一个内容为空的robots.txt文件。这一点通常被人们忽略,实际上建

立空的robots.txt文件对搜索引擎非常不友好。

7、如果你不想自己动手写robots.txt文件,那么请Google帮你写。登录Google网站管理平台,有生成robots.txt文件的功能。

8、

User-agent: *
Disallow: /

这种格式不仅仅是禁止抓取页面,更重要的是如果你的网站被收录了,然后又把robots.txt文件修改成以上格式,那么你的网站将在搜索引擎中被删除,整个地删除。

9、元标记对于一般的网站来说可有可无,不过你还是得了解:

<META NAME="ROBOTS" CONTENT="INDEX,FOLLOW"> (允许抓取该页面,允许跟着该页面上的链接继续抓取)

<META NAME="ROBOTS" CONTENT="NOINDEX,FOLLOW"> (不允许抓取该页面,允许跟着该页面上的链接继续抓取)

<META NAME="ROBOTS" CONTENT="INDEX,NOFOLLOW"> (允许抓取该页面,不允许跟着该页面上的链接继续抓取)

<META NAME="ROBOTS" CONTENT="NOINDEX,NOFOLLOW"> (不允许抓取该页面,不允许跟着该页面上的链接继续抓取)

10、需要删除一些被搜索引擎收录的特定网页,参考http://www.google.com/support/webmasters/bin/answer.py?answer=35301 貌似目前只有Google这么做。

12
实用网站
广州倾松数码科技有限公司
天下收藏
URBANUS 都市实践
服装人才网
大象展示设计
黄扬设计
深圳市华奥展览服务有限公司
王序设计
韩家英设计
毕学锋设计顾问机构
上海宜洋家具制造有限公司
陈幼坚
北京国际印刷展
河南省书法家协会
四川书法家网(四川省书法家协会)
何晓巍书法馆
美术网
安徽省艺术摄影学会(安徽摄影网)
相关内容
网页出现了乱码,应该怎么办?
Windows XP下如何创建启动软盘?
网站换素装(灰色调)
网站自动选择最快的站点进入的程序!
为网页插入多媒体播放器的代码
Photoshop中75个隐藏的技巧
解决Flash“单击以激活并使用此控件”问题
FLASH参数详解
PS快捷键大全
网站地图Sitemap.xml详解
网站中的将新站在窗口中弹出代码

© 2001-2030 m.dreamart.cn

QQ:3815864 das@dreamart.cn