新闻资讯

SEO网站推广:robots.txt的作用与用法

一、robots.txt是什么

robots.txt文件是每一个搜索引擎蜘蛛到你的网站之后要寻找和访问的第一个文件,robots.txt是你对搜索引擎制定的一个如何索引你的网站的规则。在这个文件中网站管理者可以声明该网站中不想被搜索引擎访问的部分,或者指定搜索引擎只收录指定的内容。

二、robots.txt的作用

robots.txt 主要作用是保障网络安全与网站隐私,主流搜索引擎的蜘蛛都遵循 robots.txt 协议。通过根目录中创建的纯文本文件 robots.txt,网站就可以声明哪些页面不想被蜘蛛爬行并收录,每个网站都可以自主控制网站是否愿意被蜘蛛收录,或者指定蜘蛛只收录指定的内容。当蜘蛛访问某个站点时,它会首先检查该站点根目录下是否存在 robots.txt,如果该文件不存在,那么爬虫就沿着链接抓取,如果存在,爬虫就会按照该文件中的内容来确定访问的范围。

三、Robots的语法

1、User-agent:(定义搜索引擎)
示例:
User-agent: *(定义所有搜索引擎)
User-agent: Googlebot (定义谷歌,只允许谷歌蜘蛛爬取)
不同的搜索引擎的搜索机器人有不同的名称,谷歌: Googlebot、百度: Baiduspider、Yahoo: Slurp。

2、Disallow:(用来定义禁止蜘蛛爬取的页面或目录)
示例:
Disallow: /(禁止蜘蛛爬取网站的所有目录 “/” 表示根目录下)
Disallow: /blog (禁止蜘蛛爬取blog目录)
Disallow: /about.html (禁止蜘蛛爬去about.html页面)

3、Allow:(用来定义允许蜘蛛爬取的页面或子目录)
示例:
Allow: /blog/txt/(允许蜘蛛爬取blog下的test目录)
Allow: /blog/content-us.html(允许蜘蛛爬去blog目录中的content-us.html页面)

4、匹配符 “$”
$ 通配符:匹配URL结尾的字符

5、通配符 “*”
* 通配符:匹配0个或多个任意字符

四、robots.txt 综合示例

1、禁止搜索引擎抓取特定目录
在这个例子中,该网站有两个目录对搜索引擎的访问做了限制,即搜索引擎不会访问这两个目录。
User-agent: *
Disallow: /blog/
Disallow: /img/

2、禁止blog目录,但允许抓取blog目录下的qianxing子目录
User-agent: *
Allow: /blog/qianxing/
Disallow: /blog/

3、禁止抓取/about/目录下的所有以”.htm”为后缀的URL(包含子目录)
User-agent: *
Disallow: /about/*.htm$

4、禁止抓取网站中所有的动态页面
User-agent: *
Disallow: /*?*

屏蔽所有带“?”的文件,这样就屏蔽所有的动态路径。

5、禁止百度蜘蛛抓取网站所有的图片:
User-agent: Baiduspider
Disallow: /*.jpg$
Disallow: /*.jpeg$
Disallow: /*.gif$
Disallow: /*.png$
Disallow: /*.bmp$。

五、注意事项

1、robots.txt 文件必须放在网站的根目录,不可以放在子目录。
以潜行网络科技网站为例:比如通过 http://www.qianxingtech.com/robots.txt 蜘蛛就可以访问谦行网络科技的robots.txt文件了。

2、robots.txt 文件名命名必须小写,记得在robot面加“s”。

3、User-agent、Allow、Disallow的 “:” 后面有一个字符的空格。

4、路径后面加斜杠“/” 和不加斜杠的是有区别的
Disallow: /help
禁止蜘蛛访问 /about.html、/faq.html、/product/index.html
Disallow: /faq/
禁止蜘蛛访问 /faq/index.html。 但允许访问 /faq.html

5、Disallow与Allow行的顺序是有意义的:
举例说明:
允许蜘蛛访问 /blog/ 目录下的qianxing文件夹
User-agent: *
Allow: /blog/qianxing/
Disallow: /blog/
如果Allow 和 Disallow 的顺序调换一下:
User-agent: *
Disallow: /blog/
Allow: /blog/qianxing/
蜘蛛就无法访问到 /blog/ 目录下的qianxing文件夹,因为第一个 Disallow: /blog/ 已匹配成功。

六、关于Robots Meta

Robots.txt文件主要是限制整个站点或者目录的搜索引擎访问情况,而Robots Meta标签则主要是针对一个个具体的页面。和其他的META标签(如使用的语言、页面的描述、关键词等)一样,Robots Meta标签也是放在页面中,专门用来告诉搜索引擎ROBOTS如何抓取该页的内容。
Robots Meta 标签中没有大小写之分,name=”Robots” 表示所有的搜索引擎,可以针对某个具体搜索引擎(如google)写为 name=”Googlebot”, content部分有四个指令选项:index、noindex、follow、nofollow,指令间以 “,” 分隔。
Index 指令告诉搜索机器人抓取该页面;
NoIndex命令:告诉搜索引擎不允许抓取这个页面
Follow 指令表示搜索机器人可以沿着该页面上的链接继续抓取下去;
NoFollow命令:告诉搜索引擎不允许从此页找到链接、拒绝其继续访问。
Robots Meta 标签的缺省值是Index和Follow;

文章作者 kim
周金海
周金海,英文名kim,从事互联网工作八年,做过SEO优化、网站开发、网页设计、软件测试以及个人网站运营,擅长用户体验优化、搜索引擎优化、搜索引擎营销,有丰富的SEO经验,擅长数据的精确定位与分析。

相关文章

评论

 
QQ在线咨询
在线咨询
服务电话
021-51095331