一:robots基本知识

robots协议书(也称网络爬虫协议书、智能机器人协议书等),“全名是爬虫技术清扫标准“(Robots Exclusion Protocol) ,网址历经robots协议书通告百度搜索引擎什么页面可以抓取,什么页面不可以抓取。

Robot.txt的实际效果?

可以让蜘蛛更高效率的匍匐网址

可以阻碍蜘蛛匍匐动态性页面,进而解决反复入录的难题

可以减少蜘蛛匍匐失效页面 ,节省网络带宽

可以屏蔽掉百度搜索引擎屏蔽掉一些隐私保护页面或是临时性页面

如何开创robots.txt文档呢?

右键桌面上——新建文本文档——重新命名为robots.txt(一切文档有必要小写字母)——撰写老规矩——用FTP把文档上(放进网站根目录下)传入室内空间

开创robots.txt要求注意的知识要点:

1 、有必要是txt完毕的纯文本文档

2、文件夹名称一切英文字母有必要是小写字母

3、文档有必要要放到网站根目录下

4 、文档内的灶具有必要显示英文半角情况下

< alt="" aria-describedby="caption-attachment-221" class="size-full wp-image-221" height="293" sizes="(max-width: 488px) 100vw, 488px" src="https://seogurublog.com/wp-content/uploads/2017/09/t-7.jpg" ="https://seogurublog.com/wp-content/uploads/2017/09/t-7.jpg 488w, https://seogurublog.com/wp-content/uploads/2017/09/t-7-300x180.jpg 300w" width="488"/>

深圳市SEO

二:robots主要参数解說

User-agent

主要实际效果:用以勾勒百度搜索引擎蜘蛛的名字

举列:

1 、勾勒一切蜘蛛

User-agent:*

2、勾勒百度搜索蜘蛛

User-agent:BaiduSpider

百度搜索:BaiduSpider

Google:Googlebot

搜狗搜索:Sogou web spider

好搜:360Spider

MSN:MSNBot

有道:YoudaoBot

宜搜:EasouSpider

User-agent方法:

1、当robots.txt不以空的时段 ,有必要最少有一条User-adent记述

2 、同样的名字,只有有一条(比如User-agent:*),但是不一样蜘蛛 ,可以有好几条记述(比如:User-agent:Baiduspider和User-agent:Googlebot) 。

Disallow

主要实际效果:用以勾勒不答应百度搜索引擎匍匐和抓取的URL。

应用方法:

1、在robots.txt中最少要有一条Disallow

2、Disallow记述为空,则表达网址一切页面都答应被抓取。

3 、应用Disallow,每一文件目录有必要独自一人隔开申明

4、注意Disallow:/abc/(abc文件目录下边的文件目录不答应抓取 ,但是文件目录下边的html答应抓取)和Disallow:/abc(abc文件目录下边的文件目录跟html也不答应被抓取)的差别

 

深圳市SEO全文连接:https://seogurublog.com/220.html

本文版权归趣快排www.sEoguruBlog.com 所有,如有转发请注明来出,竞价开户托管,seo优化请联系QQ✈61910465