什么是robots

2023-04-14 23:11:16   第一文档网     [ 字体: ] [ 阅读: ] [ 文档下载 ]
说明:文章内容仅供预览,部分内容可能不全。下载后的文档,内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的,是否完整无缺。下载word有问题请添加QQ:admin处理,感谢您的支持与谅解。点击这里给我发消息

#第一文档网# 导语】以下是®第一文档网的小编为您整理的《什么是robots》,欢迎阅读!
robots,什么

亿推英文新闻稿,亿推英文软文,英文新闻稿推广,亿推英文软文写手,英文软文代写,亿推英文软文推广,英文推广,亿推发1000个英文新闻站,亿推标准化英文推广,TuiGuang123 亿推有超过1200个英文文章数据库平台合作站,超过60人欧洲美洲本土英文软文写手团队,超过20英语法语专业软文团队,超过1600位外贸企业用户信赖亿推营销团队。 这是伟大的时候,搜索引擎经常访问你的站点和索引你的内容,但往往在有些情况下,当索引部分,你的线上内容是不是你想要的。举例来说,如果你有两个版本的网页(一个用于观景,在浏览器和一个用于打印)你都宁愿有印刷版排除在爬行,否则,你就有可能被强加的重复内容的刑罚。另外,如果你恰好有机密资料对你的站点说,你不想让世界看到的,你也会喜欢,搜索引擎不要索引这些页面(虽然在这种情况下,唯一可靠的途径不是索引敏感的数据,是保持离线对一个单独的机器)。此外,如果您想节省一些带宽所不计形象,样式和JavaScript从索引中,你也需要有一个方式告诉蜘蛛,远离了这些项目。

其中一个方法告诉搜索引擎哪些文件和文件夹上你的网站,以避免是与使用robotMetaTags但由于并非所有的搜索引擎阅读MetaTagsrobotMetaTags可以简单地被忽视。更好的方式来告知搜索引擎对您将是使用robots.txt文件。 什么是robots.txt?

robots.txt的是一个文字(而不是HTML)的档案,你把你的网站告诉搜索机器人哪些页面,想他们不要访问。robots.txt的绝不是强制性的搜索引擎,但一般来说,搜索引擎服从什么却要求他们不要做。这是必须澄清的robots.txt是没有办法阻止搜索引擎从抓取你的网站(即它不是一个防火墙,或者说是一种密码保护)和事实,即你把robots.txt文件是一样的东西再一次说明:"拜托,不要输入",对一个没有上锁的门-例如,你不能防止窃贼进入,但好人不会公开进行盘查,并进入。这就是为什么我们说,如果你真的有特殊教育需要的敏感数据,这是太天真的依赖robots.txt的,以保护它被索引并显示在搜索结果中。 所在地的robots.txt是非常重要的。

它必须在主目录中,因为否则用户代理(搜索引擎)将无法找到它-他们不搜寻整个网站一档名robots.txt的。相反,他们首先在主目录(mydomainrobots.txt),如果他们不觉得有,他们只是假设这个站点没有一个robots.txt文件,所以他们指数千方百计寻找前进的道路。所以,如果你不把robots.txt的,在合适的地点,并不感到惊讶,搜索引擎索引你的整个网站。

概念和结构的robots.txt已发展了1多年前,如果你有兴趣更多地了解它,请访问robotstxt.org或者你可以直去,以标准为机器人排斥,因为在这篇文章中我们将只处理最


重要的方面robots.txt文件。今后我们将继续进行结构robots.txt文件。 robots.txt文件结构

一个robots.txt的结构,是相当简单的(勉强灵活)-它是一个永无止境的名单上的用户代理及禁止的文件和目录。基本上,语法如下: User-agent: Disallow:

User-agent,是搜索引擎的抓取工具,并不准:列出的文件和目录被排除索引。此外,user-agent:anddisallow:"参赛作品,你可以包括评论线-只是把编号登录在一开始的路线:

#所有用户代理是不准看Temp目录。 User-agent:* Disallow:temp

e陷阱的robots.txt文件

当你开始做复杂的文件-即你决定,让不同的用户代理商接触不同目录-问题就可以启动,如果你不特别注意陷阱的robots.txt文件。

Commonmistakesincludetyposandcontradictingdirectives.常见的错误包括错别字和矛盾的指令。错别字都拼错用户代理,目录,失踪冒号后,用户Agent和批驳,错别字等,可能比较难找到,但在某些情况下,验证工具的帮助。 更严重的问题在于逻辑错误。例如: User-agent:* Disallow:temp User-agent:Googlebot Disallow:images Disallow:temp Disallow:cgi-bin

上面的例子是从一个robots.txt的,让所有代理商,以获得网站上的一切,除了Temp目录。截至到这里,这是不错,但后来也有另一种记录,规定更严格的条件,当googlebot开始读robots.txt的,它会看到所有用户代理(包括googlebot自己),让所有文件夹中除了temp这还不够,为googlebot知道,所以它不会读文件除了imagesandcgi-bin,其中,你认为你告诉它不要触摸。你看,结构的robots.txt文件很简单,但仍犯了严重错误,可以很容易取


本文来源:https://www.dywdw.cn/2b6260beb4daa58da0114ad7.html

相关推荐
推荐阅读