网站建设完成后一定要进行robots.txt文件配置,以利于网站优化。
robots是你的网站与搜索引擎间的协议,用简单直接的txt格式文本方式告诉所有的搜索引擎爬虫被允许的权限,包括百度、360、搜狗、google、神马等。robots.txt是搜索引擎中访问网站的时查看的第一个文件,当这些搜索蜘蛛访问一个站点时,它会首先检查该站点根目录下是否存在robots.txt,如果存在,搜索机器人就会按照该文件中的内容来确定访问的范围;如果该文件不存在,所有的搜索蜘蛛将访问所有网站能爬到的页面。
对于站长而言,robots一定要设置因为它的作用有:
一、robots文件是网站和搜索引擎之间的一个协议。用来防止一些不想被搜索引擎抓取的页面或目录,比如css和JS目录,还有一些影响网站优化体验的劣质页面(比如没有文字只能一个图片的页面、重复度极高的页面),能够提升整体的页面质量率。
二、而且可以把sitemap地图的路径放在robots协议中,这样有助于网站地图的抓取。能够有效提高网站的健康度、纯净度,降低网站垃圾内容收录。
一个最常用的robots.txt文件内容是什么样的呢?
User-agent: *
Disallow:/css/
Disallow:/js/
Disallow:/images/
Sitemap:http://www.您的网站.com/sitemap.xml
以上便是网站根目录下该存在的robots.txt文件。现在我们对上面的标签进行解释:
User-agent:*(这里的*代表的所有的搜索引擎都可以访问抓取这个网站。)
Disallow:(后面的内容表示禁止搜索引擎访问目录或页面。)
Allow:(后面表示允许搜索引擎访问的目录或页面,有时目录下有子目录或页面希望被抓取)
Sitemap:(后面的路径即是网站地图地址。推荐一个网站地图生成地址:https://www.xml-sitemaps.com/se-bot-simulator.html)