跳转到主要内容
bright_king 提交于 3 September 2012

网站推广,我们都要写一个robots.txt文件,这个是啥文件类?这是搜索引擎访问网站第一个要查看的文件,蜘蛛会根据robots.txt内 容那些是可以访问的,简单说,就是你希望蜘蛛去访问你网站那些内容,那些不被访问,如你的网站如果建设过程中,不希望搜索引擎开始收录,等网站正式运营 后,才运行蜘蛛爬行,那么我们就可以在网站根目录下新建一个robots.txt文件,告诉搜索引擎暂时别来,我现在不需要您。记 得,robots.txt一定要小写哦,不能大写。文本将在drupal站点的中如何添加一个自定义robots.txt文件来引导蜘蛛爬行网站内容。下 面我们来就看一下面的详细说明。下面我们就一起来学习下吧。

 

如何创建一个robots.txt文件

简单的回答:在您php虚拟主机上相应站点的根目录。

详细的回答:比方说,蜘蛛要爬“http://www.51php.com/shop/index.html”,它是会把“/shop/index.html”

移除掉,并把“/robots.txt”置换上去,也就是最终访问“http://ww.51php.com/robots.txt”。

所以呢作为网站所有者的我们需要将robots.txt放在服务器正确的地方。通常情况下是您放主索引页面的地方,当然这一切都要取决于您WEB服务器配置。

NOTE:记得要用小写字母“robots.txt”,而不要用“Robots.TXT”去命名您的robots.txt文件。

在robots.txt文件中应该放些什么指令

Robots.txt是一个文本文件,通常情况下包含下列记录。

User-agent: *

Disallow: /cgi-bin/

Disallow: /tmp/

Disallow: /~joe/

在上面的指令中,有三个目录是禁止蜘蛛访问的。

NOTE:一个目录占一行。不要使用在一单行使用“Disallow:/cgi-bin/ /tmp/”这样的格式,并且不要插入空白行!

也要注意的是,通配符和正则表达式在User-agent或者是Disallow里都是不被支持的。*符号对User-agent字段的的意义就是任何蜘蛛的意思。尤其的是不能用“User-agent:*bot*”,和“Disallow: *.gif”。

当然这一切都要以您的服务器的配置环境来决定,下面就跟随无忧主机(www.51php.com)一起来看一些例子。

User-agent: *

Disallow: /

这两句是拒绝所有的蜘蛛访问我们的站点。当然把“Disallow:/”的这一“/”去掉话就是允许访问服务器上的所有文件。把“/”去掉的话也就等于不创建robots.txt文件了。

User-agent: *

Disallow: /cgi-bin/

Disallow: /tmp/

Disallow: /junk/

这里是禁止访问php虚拟主机上的部分文件夹。

User-agent: BadBot

Disallow: /

禁止单一蜘蛛。

User-agent: baidu

Disallow:

User-agent: *

Disallow: /

只允许baidu蜘蛛。

User-agent: *

Disallow: /~joe/stuff/

只能访问这一个文件夹。

OK,看完上面这么多例子,是不是对robots.txt文件了解更多了呢?!当然,不要试图用robots.txt来隐藏您的文件信息,因为这个文件是在公共文件区!别人要用恶意的蜘蛛来扫描您站点的安全漏洞,这个robots.txt是可以被被忽视的。

原文地址:http://www.robotstxt.org/robotstxt.html

 

 

本文地址:http://www.51php.com/drupal/8025.html

喜欢本文或觉得本文对您有帮助,请分享给您的朋友 ^_^

 

 

 

原文地址已经带上了,有不足的地方来大神斧正。

标签