| 设为主页 | 保存桌面 | 手机版 | 二维码
44

广州一站推网络科技有限公司

网站建设、网站优化、虚拟主机、域名注册、网络营销及营销培训

网站公告
广州一站推网络科技有限公司成立于2011年,主要从事信息技术领域内的互联网营销服务(包括网站建设、网站优化、虚拟主机、域名注册、网络营销及营销培训等)。 一站推意在为客户提供全面、高效率的一站式营销服务。我们奉行“优化服务,求实创新”的运营宗旨,以客户为中心,以技术为基础,以质量求生存,以诚信求发展。 一站推拥有一支强大的专业、激情的技术队伍,一支专业、理性、求实、奋发的管理团队,带领公司在严峻的竞争中稳健前行,以不断追求技术领先、服务领先、模式领先、业绩领先的发展目标,面向政府机构、企事业单位和广大个人用户,根据不同用户的需求提供网站建设及更切实际的宣传和营销方案,以最优惠的价格、最专业的网站技术、最出色的作品赢得用户的一致好评。
新闻分类
  • 暂无分类
联系方式
  • 联系人:田先生
  • 电话:020-84704103
  • 邮件:125493959@qq.com
  • 手机:18022883862
  • 传真:020-84704103
站内搜索
 
您当前的位置:首页 » 24小时网站建设优化快讯 » 站长经验说说之robots.txt是什么,robots协议文件写法
24小时网站建设优化快讯
站长经验说说之robots.txt是什么,robots协议文件写法
发布时间:2020-02-08        浏览次数:792        返回列表
 Robots.txt文件是百度seo优化中经常用到的基本技巧,也是一个网站必须有的的东西。很多seo高手也对此解释了非常多,但往往术语专业,新手很可能看了以后还是不明白,郑州seo就用大家可以理解的方式来全面分析一下。robots.txt。

Robots.txt是什么

Robots.txt是网站和搜索引擎之间签订的一个协议,比如百度蜘蛛想要爬取你的网站,它就会先找你的robots.txt协议,然后按照协议里制定的规则进行爬取网站。如果没有robots.txt文件,百度蜘蛛就会沿着链接进行爬取。

Robots.txt协议文件怎么创建?在哪写?

在桌面新建一个记事本,命名为robots.txt,然后在里边写上规则,通过ftp上传工具将该文件上传到网站根目录就可以了。

怎么查看自己的网站有没有robots.txt文件

 

Robots.txt协议文件是必须放在网站根目录的,查看robots.txt文件有两种方法。一种是直接在自己的域名后面输入robots.txt,点击回车就可以看到;另外一种就是用百度站长工具进行robots文件检测,两种方法都是可以的。

Robots.txt协议文件写法

一、常用参数

(1)User-agent:该规则针对于哪些搜索引擎的爬虫

如果针对于所有搜索引擎爬虫,写法为User-agent:*

如果针对某个搜索引擎爬虫,写法为User-agent:BaiduSpider(百度蜘蛛)

(2)Disallow:不希望被搜索引擎抓取和索引的一些目录或类型。

Disallow:/abc.com    abc.com目录下的所有文件均不会被搜索引擎爬虫访问

(3)Allow:允许搜索引擎爬取

国内常见搜索引擎robots名称:

 

二、下面举例几种常见的robots.txt文件的写法

1.禁止所有搜索引擎爬虫访问网站的任何目录

User-agent: *

Disallow: /

该种写法将导致网站不被爬虫爬取,无法收录,一般用于网站刚上线准备阶段。

2.允许搜友搜索引擎爬虫访问所有目录

User-agent: *

Disallow:

User-agent: *

Allow: /

这种写法一般也不常用,一些无用页面时需要禁止搜索引擎爬虫抓取的

3.仅禁止某个搜索引擎爬虫的访问(例如百度蜘蛛)

User-agent: BaiduSpider

Disallow:/

禁止百度蜘蛛访问网站搜友目录

4.允许某个搜索引擎爬虫的访问(例如百度蜘蛛)

User-agent: BaiduSpider

Disallow:

User-agent: *

Allow: /

允许百度蜘蛛访问网站的搜友目录

5.禁止爬虫访问网站的特定目录或某类型文件、链接

User-agent: *

Disallow: /abc.com/

Disallow: /admin/

Disallow: .png$

Disallow: .rar$

所有爬虫都不会爬取这两个目录,以及这两个类型的文件

6.禁止爬取目录但又允许爬取该目录下的某个目录

User-agent: *

Disallow: /abc.com/

Allow: /abc.com/index.html

所有搜索引擎爬虫可以爬取 /abc.com/index.html,但不能爬取/abc.com/

下的其他目录。

三、Robots.txt协议的几种特殊参数

(1)使用“*”号匹配字符序列。

例1.拦截搜索引擎对所有以admin开头的子目录的访问,写法:

User-agent: *

Disallow: /admin*/

例2.要拦截对所有包含“?”号的网址的访问,写法:

User-agent: *

Disallow: /*?*

常用于拦截网站动态页面。

(2)使用“$”匹配网址的结束字符

例1.要拦截以.asp结尾的网址,写法:

User-agent: *

Disallow:/*.asp$

常用于拦截网站动态页面。

例2.如果“:”表示一个会话ID,可排除所包含该ID的网址,确保蜘蛛不会抓取重复的网页。但是,以“?”结尾的网址可能是你要包含的网页版本,写法:

User-agent: *

Allow: /*?$

Disallow: /*?

也就是只抓取.asp?的页面,而.asp?=1,.asp?=2等等都不抓取。

(3)sitemap(网站地图)

网站地图一般要放在robots.txt协议文件中,方便搜索引擎爬虫爬取。

写法:Sitemap:http://www.pysfhs.com/sitemap.xml

网站上有很多页面是无用的,各搜索引擎爬虫对全网站进行爬取会占用服务器的带宽,而robots.txt可以针对这些无用页面做一些禁止,对搜索引擎爬虫来说也是友好的,可以更快速的抓取你的网站,从而提高网站收录。