我们在做SEO优化的时候,都希望我们所发布的文章或者信息能被搜索引擎所收录,但是如果有一些信息或者链接不适合展现,更不想这些信息被搜索引擎收录,那么这种情况应该怎么避免呢?
这时候robots.txt就起到作用了,什么是robots.txt文件?
搜索引擎使用spider程序自动访问互联网上的网页并获取网页信息。spider在访问一个网站时,首先会检查该网站的根域下是否有一个叫做 robots.txt的纯文本文件,
这个文件用于指定spider在您网站上的抓取范围。您可以在您的网站中创建一个robots.txt,在文件中声明。
该网站中不想被搜索引擎收录的部分或者指定搜索引擎只收录特定的部分。 请注意,仅当您的网站包含不希望被搜索引擎收录的内容时,才需要使用robots.txt文件。
robots.txt文件怎样写?
一.User-agent:意思是定义搜索引擎类型
因为搜索引擎有好几种有:百度蜘蛛:Baiduspider;谷歌蜘蛛:Googlebot;360蜘蛛:360Spider;搜狗蜘蛛sogou spider
一般没有特殊要求的话,正确写法是:User-agent: * 意思是允许所有搜索引擎来抓取。这是robots.txt文件中首先行的写法。
二.Disallow:意思是定义禁止抓取的地址
就是禁止蜘蛛抓取的地址,在我们的网站是静态或伪静态的时候一般网站要禁止蜘蛛抓取动态路径(?)、.js、后台的文件等一些不想让蜘蛛抓取的文件。它的正确的写法如下:
Disallow: / 禁止蜘蛛抓取整站(一定不能这么写,这样会让所有搜索引擎不来抓取你的网站内容)
Disallow: /wp-admin/ 禁止抓取网站中带wp-admin的文件夹。
Disallow: /page/ 禁止抓取网站中带page的文件夹。
Disallow: /*?* 禁止抓取网站中的所有动态路径。
Disallow: /.js$ 禁止抓取网站中的所有带.js的路径。
Disallow: /*.jpeg$ 禁止抓取网站中所有jpeg图片
三、Allow:意思是定义允许抓取收录地址
这个就不需要多说了就是允许的意思,在robots文件中不写Allow意思就是默认的允许。因此大家没必要写上。
注意一定不要:千万不要写成这样
User-agent: *
Disallow:/
网站想要让所有的搜索引擎抓取,除了谷歌!
User-agent: *
Allow: /
User-agent: Googlebot
Disallow: /
如果网站里面有死链接、网站被攻击时来不及删除的目录文件和链接、重复的页面或者内容及隐私性的内容等,都不想被搜索引擎蜘蛛抓取,robots.txt文件的作用就体现了。我们要注意的是robots.txt需要放置在一个站点的根目录下,而且文件名需要全部小写。
一直都在强调SEO优化是一个不断尝试积累的过程,也在不断强调搜索引擎是“多变”的,我们需要了解他们的“易燃点”在哪里,不能碰他们的“逆鳞”,得遵循他们的规则来,绝不可“一意孤行”,“率性而为”。
巨推传媒(CALL:400-606-5558),网站SEO优化专家,需要SEO优化请联系我们!SEO优化详见:www.jutui360.com