seoer大神们,怎样分析一个网站代码组织结构代码证是否不利于搜索引擎蜘蛛抓取内容?

安全检查中...
请打开浏览器的javascript,然后刷新浏览器
seosrx.net 浏览器安全检查中...
还剩 5 秒&一起学习网,一个一起免费的网络建站教程资源共享和seo教程、黑帽教程学习交流的学习网站,,一起学习,共同进步!
搜索引擎蜘蛛程序抓取原理是什么
时间: 11:33&&&文章来源:一起学习网&&&访问次数:
  记得刚做SEO的时候,半道出家,并不是很懂搜索引擎的抓取过程和原理,慢慢的也研究了一下,这边简单的做一个小结,希望对大家有用。之前写过一篇《》,大家有时间可以参考一下。这篇是针对搜索引擎的,搜索引擎不像我们人类,去选取一些信息的时候不能自己去看,去筛选,它用来爬行和访问页面的程序被称为蜘蛛(spider),这个是比较的形象的,有的也叫机器人(bot)。搜索引擎蜘蛛访问网站页面时类似于普通用户使用浏览器,蜘蛛程序发出页面访问请求后,服务器返回HTML代码,蜘蛛程序把收到的代码存入原始页面数据库,搜索引擎为了提高爬行和抓取的速度,都使用多个蜘蛛分布爬行。
  那么当一个蜘蛛访问网站的时候是怎么进门,怎么走的呢,我们之前做SEO的时候,新网站上线之后都会做一个robots文件,之所以要设置这个文件是因为蜘蛛首先会访问网站根目录下的robots.txt文件,如果robots.txt文件禁止搜索引擎抓取某些网页或者内容,再或者网站,蜘蛛将遵循协议,不对其进行抓取。
  这里要说的是不同的搜索引擎的蜘蛛也是有自己的代理名称的,这个可以在站长日志中可以看出蜘蛛爬行的痕迹,这也就是为什么这么多站长解答问题的时候,都会说先查看网站日志(作为一个出色的SEO你必须具备不借助任何软件查看网站日志的能力,并且要非常熟悉其代码的意思)。
  好了,下面一起来看下搜索引擎蜘蛛程序具体的抓取原理和工作流程。
  一、搜索引擎蜘蛛抓取和工作的基本原理
  前面说把搜索引擎称为蜘蛛很形象,因为互联网就像一张很大的一个蜘蛛网,那么Spider就是在网上爬来爬去的蜘蛛。
  spider蜘蛛都是通过网页的链接地址来寻找网页的,通常是从网站首页开始进去,然后读取页面的内容,找到在网页中的其它链接地址,然后通过这些链接地址寻找下一个网页,这样一直循环下去,直到把这个网站所有的网页都抓取完为止。
  因为互联网的网站很多,因此蜘蛛需要有自己的抓取方法,这个可以简单的用下图来表示,如果把整个互联网当成一个网站,那么网络蜘蛛就可以用这个原理把互联网上所有的网页都抓取下来。
  整个互联网中的站点太多,对于任何一个搜索引擎来说,都没有足够大的力量去抓取互联网上所有的网页,这个没有具体的数字,但是从目前公布的数据来看,容量最大的搜索引擎也不过是抓取了整个网页数量的百分之四十左右。
  为什么说无法百分之百的抓取这个大网呢?这其中的原因一方面是抓取技术的瓶颈,100亿网页的容量是100&2000G字节,即使能够存储,下载也存在问题(按照一台机器每秒下载20K计算,需要340台机器不停的下载一年时间,才能把所有网页下载完毕),同时,由于数据量太大,在提供搜索时也会有效率方面的影响。
  面对这个瓶颈,肯定需要有一个侧重或者解决方法,许多搜索引擎的网络蜘蛛只是抓取那些重要的网页,而在抓取的时候评价重要性主要的依据是某个网页的链接深度。
  为了节约更多的抓取占用资源,有些网络蜘蛛对一些不太重要的网站,设置了访问的层数,例如,下图中所示:
  可以看下上图的示例,假设A为起始网页,属于0层,B、C、D属于第1 层,E、F、G属于第2层,H属于第3层,如果网络蜘蛛设置的访问层数为2的话,网页H是不会被访问到的,这也让有些网站上一部分网页能够在搜索引擎上搜索到,另外一部分不能被搜索到。
  很多在做SEO的同学一定也都知道,网站最好是面平化设计,目录的层数越浅越好,就是为了搜索引擎抓取其更多的网页。
  并不是所有的页面都是蜘蛛能够直接访问的,网络蜘蛛在访问网站网页的时候,经常会遇到加密数据和网页权限的问题,有些网页是需要会员权限才能访问。
  网站的所有者可以通过协议让网络蜘蛛不去抓取,但对于一些出售报告的网站,他们希望搜索引擎能搜索到他们的报告,但又不能完全免费的让搜索者查看,这样就需要给网络蜘蛛提供相应的用户名和密码。
  网络蜘蛛也是非常的智能的,不,应该说人类是非常的智能的,可以通过所给的权限对这些网页进行网页抓取,从而提供搜索,而当搜索者点击查看该网页的时候,同样需要搜索者提供相应的权限验证。
  二、蜘蛛的追踪链接原理
  因为每一个网站都有一个主入口,网站的首页,但是搜索引擎蜘蛛必须要能够抓取网上尽量多的页面,才能展现网络的强大力量,所以蜘蛛会追踪网页上的链接,从一个页面爬到下一个页面,就好像是蜘蛛在蜘蛛网上爬行那样,这就是搜索引擎蜘蛛这个名称的来因,这也是我们为什么需要在网站做内链外链一样。
  一般认为,整个互联网网站都是相互链接组成的,也就是说,搜索引擎蜘蛛从任何一个页面出发最终都会爬完所有页面。
  所以根据蜘蛛的追踪原理,网站尽量链接结构做的清晰并且有序,如果一个网站和页面链接结构太过于复杂,蜘蛛只有采用一定的方法和策略才能够爬完所有页面,最简单的爬行策略有3种:
  爬行策略一、最佳优先
  这个是针对页面的质量而言的,最佳优先搜索策略按照一定的网页分析算法,预测候选URL与目标网页的相似度,或与主题的相关性,并选取评价最好的一个或几个URL进行抓取,它只访问经过网页分析算法预测为&有用&的网页。
  最佳优先这里可能会存在一个问题,在爬虫抓取路径上的很多相关网页可能被忽略,因为最佳优先策略是一种局部最优搜索算法,因此需要将最佳优先结合具体的应用进行改进,以跳出局部最优点,这样的闭环调整可以将无关网页数量降低30%~90%。
  爬行策略二、深度优先
  顾名思义,深度优先是指蜘蛛沿着发现的链接一直向前爬行,直到前面再也没有其他链接,然后返回到第一个页面,沿着另一个链接再一直往前爬行。
  爬行策略三、广度优先
  这个是跟深度优先策略相对的,广度优先是指蜘蛛在一个页面发现多个链接时,不是顺着一个链接一直向前,而是把页面上所有链接都爬一遍,然后再进入第二层页面沿着第二层上发现的链接爬向第三层页面。
  搜索引擎蜘蛛也希望能够抓取一个网站所有的链接,事实上,无论是深度优先还是广度优先,只要给蜘蛛足够的时间,都能爬完整个互联网。
  但是在蜘蛛抓取的时候,由于蜘蛛的带宽资源、时间都不是无限的,也不能爬完所有页面,实际上最大的搜索引擎也只是爬行和收录了互联网的一小部分,当然也并不是搜索引擎蜘蛛爬取的越多越好。
  因此,之所以采取上面的策略是为了尽量多的抓取用户信息,深度优先和广度优先通常是混合使用的,这样既可以照顾到尽量多的网站,也能照顾到一部分网站的内页。
  三、搜索引擎蜘蛛工作中的信息收集
  搜索引擎抓取就是为了搜集和收录信息,抓取只是一个过程,而信息收集才是目的,蜘蛛信息收集模块包括&蜘蛛控制&和&网络蜘蛛&两部分,&蜘蛛&这个称呼形象的描述出了信息收集模块在网络数据形成的&Web&上进行信息获取的功能。
  前面也说了,网络蜘蛛从种子网页出发,通过反复下载网页并从文档中寻找未曾见过的URL,达到访问其他网页得以遍历Web的目的。
  而其工作策略一般则可以分为累积式抓取(cumulative crawling)和增量式抓取(incremental crawling)两种。
  1、累积式抓取
  累积式抓取是指从某一个时间点开始,通过遍历的方式抓取系统所能允许存储和处理的所有网页。在理想的软硬件环境下,经过足够的运行时间,累积式抓取的策略可以保证抓取到相当规模的网页集合。
  由于Web数据的动态特性,集合中网页的被抓取时间点是不同的,页面被更新的情况也不同,因此累积式抓取到的网页集合事实上并无法与真实环境中的网络数据保持一致。
  2、增量式抓取
  与累积式抓取不同,增量式抓取是指在具有一定量规模的网络页面集合的基础上,采用更新数据的方式选取已有集合中的过时网页进行抓取,以保证所抓取到的数据与真实网络数据足够接近。
  进行增量式抓取的前提是,系统已经抓取了足够数量的网络页面,并具有这些页面被抓取的时间信息。面向实际应用环境的网络蜘蛛设计中,通常既包括累积式抓取,也包括增量式抓取的策略。
  累积式抓取一般用于数据集合的整体建立或大规模更新阶段,而增量式抓取则主要针对数据集合的日常维护与即时更新。
  在确定了抓取策略之后,如何从充分利用网络带宽,合理确定网页数据更新的时间点就成了网络蜘蛛运行策略中的核心问题。
  总体而言,在合理利用软硬件资源进行针对网络数据的即时抓取方面,已经形成了相对比较成熟的技术和实用性解决方案,个人觉得在这方面目前所需解决的主要问题是如何更好的处理动态网络数据问题(如数量越来越庞大的Web2.0数据等),以及更好的根据网页质量修正抓取策略的问题。
  四、搜索引擎的数据库
  就像一个网站的数据库一样,数据库就是为了存储数据,但是搜索引擎的数据库和普通的数据库的作用又不太一样,其目的是为了避免重复爬行和抓取网址,所以搜索引擎会建立一个数据库,记录已被发现还没有抓取的页面和已经被抓取的页面,那么数据库中的URL是怎么来的呢?
  1、人工提交,人工录入网站
  这就是我们做好一个网站之后会提交到各大搜索引擎,这个简单的来说,就是我们建好一个新站后,向百度、Google或360提交的网址收录。
  2、蜘蛛主动抓取页面
  因为互联网就是一张大网,每天都有很多未知的网站,如果搜索引擎蜘蛛在爬取的过程中,发现了新连接URL,数据库中没有,就会存入待访问数据库(网站观察期)。
  对于待访问数据库中的站点,蜘蛛会按重要性从待访问数据库中提取URL,访问并抓取页面,然后把这个URL从待访问地址库中删除,放进已访问地址库中,所以建议各位站长在网站观察期的时候尽量有规律的更新网站是必要的。
  3、站长提交网站
  跟刚说的第一点类似,提交网站只是把网站存入待访问数据库,如果网站持久不更新蜘蛛也不会光顾,搜索引擎收录的页面都是蜘蛛自己追踪链接得到的,主动提交的是不会直接收录的。
  这就是为什么网站强调更新,就像一个人一样,每天需要饮食,产生新鲜的血液,你提交给搜索引擎其实用处不大,还是要根据后期你网站更新程度来考虑,搜索引擎更喜欢自己沿着链接发现新页面,当然如果说你的SEO技术够老练,并且有这能力,可以试一下,说不定会有意想不到的效果,不过,对于一般在站长来说,还是建议让蜘蛛自然的爬行和抓取到新站页面。
  五、如何吸引蜘蛛
  通过上面的原理我们都知道了,蜘蛛在理论上说蜘蛛可以爬行和抓取所有页面,但是由于有瓶颈,实际上是不可能完成的,那么SEO人员想要收录更多的页面就只有想办法引诱蜘蛛抓取。
  既然抓不了所有页面,那么我们就要让它抓取重要页面,因为重要页面在索引中起到重要决定,直接影响排名的因素,哪么那些页面算是比较重要的呢?对此,小编也特意整理了以下几个我认为比较重要页面,具体有这么几个特点:
  认为比较重要页面一:网站和页面权重
  域名年龄对于一个网站的起步确实是有影响的,质量高、年龄老的网站被给予很高的权重,这种网站上的页面蜘蛛爬行的深度比较高,所以会有更多的内页被收录。
  认为比较重要页面二:页面更新频率
  上面说了,蜘蛛每次爬行都会把页面数据储存在数据库,如果蜘蛛在第二次爬行时发现此页面与第一次收录的内容完全一样,说明页面没有更新,蜘蛛也没必要经常再来爬行和抓取。
  蜘蛛为了节省本身的资源,不去浪费过多资源,如果页面内容经常更新,蜘蛛就会频繁的爬行和抓取,那么,页面上的新链接自然的会被蜘蛛更快的追踪和抓取,这也就是为什么需要每天更新文章。
  认为比较重要页面三:导入的链接
  前面也说了,蜘蛛是靠链接爬去整个网站的,无论是外部链接还是同一个网站的内部链接,要被蜘蛛抓取,就必须有导入链接进入页面,否则蜘蛛根本不知道页面的存在。此时的URL链接起着非常重要的作用,内链的重要性发挥出来了。并且,高质量的导入链接也经常使页面上的导出链接被爬行的深度增加。
  搜索引擎的算法在更新,垃圾的链接已经没有作用了,相反,高质量的链接对于网站有很大的意义。这也就是为什么大多数站长或SEO都要高质量友情链接,因为蜘蛛从对方网站爬行到你网站之次数多,深度也高。
  认为比较重要页面四:与首页点击距离
  对于一个网站来说,页面的权重是不一样的,首页的权重最高,大部分外部链接都指向首页,蜘蛛访问最频繁的也是首页,离首页点击距离越近,页面权重越高,被蜘蛛爬行的机会也就越大。这也就是为什么要求网站框架建设点击三次就能查看完整个网站的意思。
  六、蜘蛛爬行时的复制内容检测
  从用户的体验度上来考虑,搜索引擎不喜欢重复度过高,这个可以参考《》中的第三点,在搜索引擎索引环节中,蜘蛛会进行去重处理,其实在蜘蛛爬行的时候已经在进行检测,当蜘蛛爬行和抓取文件时会进行一定程度的复制内容检测,遇到权重低的网站上大量转载或抄袭内容时,很可能不再继续爬行。
  有很多人做好网站之后,就开始大量的采集文章,成千上万的文章,都是重复度很高的,这样会发现搜索引擎一直不收录,原因就在这,所以对于新站来说切莫采集和抄袭,这也就是为什么很多站长查看日志的时候发现了蜘蛛,但是页面从来没有被抓取的原因,因为爬行发现是重复内容那么它讲放弃抓取也就只停留在爬行过的阶段。
  最后补充一点,有时很多网站是设置禁止一些垃圾蜘蛛去爬的,是因为虽说蜘蛛的作用就是让搜索引擎对有效链接进行搜寻,但并不意味着蜘蛛越多越好,有时过多的蜘蛛来网站抓取会造成一定的负面效果,会影响服务器的运行,导致网页打开缓慢。所以可以针对性的让你需要的搜索引擎蜘蛛去爬去你的页面。
您可能还会对以下这些文章感兴趣!
记得刚做SEO的时候,半道出家,并不是很懂搜索引擎的抓取过程和原理,慢慢的也研究了一下,这边简单的做一个小结,希望对大家有用。之前写过一篇《 浅谈百度搜索引擎及其基……
我们每做一件事的时候都需要透过现象看本质,SEO搜索引擎优化推广的本质任务是什么呢?做好排名,提高网站的浏览量,而且在一般情况下,在搜索引擎当中越是靠前的网站,越是……
在SEO届有这么一种说法:资深SEOer的做法是找到搜索引擎的算法,并且迎合搜索引擎的算法。大神级的SEOer是预测搜索引擎的算法,让搜索引擎来迎合自己。 那么对于小白的我那……
网络发展到今天,细分出了很多环节,对于网站SEO来说,其目的是为了推广企业的产品或者品牌,目……
很多做SEO的朋友都知道黑帽,因为当前网络竞争力很大,有些企业需要快速推广,但是竞价的方式成……
最近有一个比较热的话题,那就是淘宝黑搜,可能很多人没有听过,黑搜的发展其实有两大派系:人气……
玩SEO的人肯定都知道黑帽,这个是相对于常规的白帽SEO而言的,首先需要说明的是一起学习网培训优……
人心有黑白,万物皆如此。做SEO优化排名的同学,想必大都听说过白帽SEO与黑帽SEO之说。其实这两……
投资有很多的区域可以投资,在互联网行业,域名也是可以投资的,我们经常会听说某个公司以多少万……
耽误您几分钟时间,静下心仔细看一下操作说明!!! 1. 首先感谢您对一起学习网的支持 2. 做网站的……
这节课讲webshell,webshell被站长常常用于网站管理、服务器管理等等,根据FSO权限的不同,作用……
第一节讲了asp劫持的方法,这节课来说下php劫持的方法,直接来看一下php劫持的代码是什么样的。 ……
今天讲第一课,asp劫持,我们看下这个网站,他的网址是这个,但是我们一打开,他的网址跳转了。……
本月热点文章
Copyright & 2015- 一起来学网 版权所有 备案号
最新最精品资源,每日更新,请收藏我们的网站
声明:本站部分数据来源于网络与网友发布,版权归原作者所有,如有问题请发邮件到
收到确认后,24小时内删除,谢谢&&网站做优化前的4项分析工作;分析工作一:结构分析;1、html代码是否使用了影响SEO的标签,代码;3、是否进行了URL静态化;4、网站内部链接设置的;关键字的选择对于SEO是第一步,也是至关重要的一;链接包括内部链接也包括外部链接;引擎蜘蛛在网站中循环抓取,用内链将网站所有页面串;讲解网站四个位置链接的设置技巧;一、地图和导航每一
网站做优化前的4项分析工作
分析工作一 :结构分析 1、html代码是否使用了影响SEO的标签,代码是否精炼。 2、网站代码是否过多采用了不利于搜索引擎蜘蛛抓取的flash、JS、图片等 3、是否进行了URL静态化 4、网站
内部链接设置的是否合理方便 5、每一页的标题、关键字、描述是否可以很方便自定义
分析工作二:确定网站关键词
关键字的选择对于SEO是第一步,也是至关重要的一步。我们都是知道,网站优化基本就是围绕着确定下来的这些关键词进行优化。如果关键词不好,可能会对以后的工作带来很多不便,可能造成事倍功半。所以确定关键词要格外用心,也要认真的下一些功夫。
网站关键词的选择可以通过百度指数、Google关键词工具、百度竞价后台关键词工具,还有相关搜素、下拉框,以及竞争对手的关键词,在这还可以通过朋友或者自己的头脑风暴。
分析工作三:链接
链接包括内部链接也包括外部链接。外部链接是引导蜘蛛给它提供进入本网站的入口,方便了搜索引擎的爬行到网站,通过也有利于增加网站的自身权重,提升网站关键词排名。但是这几年随着百度搜索引擎算法不断更新,单纯的外链不是越多越好,更加要求外链的质量,高质量相关性的外链才真正对网站有用的。内链 链接是有利于搜索引擎蜘蛛在网站中循环抓取,用内链将网站所有页面串联起来,让蜘蛛充分抓取网站页面。但是内链也不是越多越好,数量很多但是质量不高,而 且存在很多死链接,那就得不偿失了
讲解网站四个位置链接的设置技巧 一、地图和导航
每一个seoer应该都会给自己的网站做一个网站地图,可以是列出网站大纲形式的,也可以是使用地图生成工具列出每一个链接形式的,考虑到网站 地图并不仅仅是为了帮助蜘蛛的爬行,建议还是选择大纲形式的,列出网站全部的内容架构,对用户来说也会清晰的了解你的网站是一个什么形态,简单而又清晰的网站,蜘蛛和用户都会喜欢的。
在这里说的导航包括了很多内容,最主要提及的就是面包屑导航,它存在于网站内页,是链接网站首页、栏目和文章的主要表现方式之一,面包屑导航可以说是整个网站里最平衡的一种内链设置,添加以后就无需考虑如何设置的问题。
总的来说,网站
内部链接建设的方法与表现形式很多,合理的内链布局是会对整个网站的权重有很大影响的,做到让整个网站权重不至于有倾斜感,使其看起来像一张网,但又不会看起来有任何一处大的漏洞。头部栏目、底部链接、相关链接、地图和导航应该是比较通用的,很多网站都会有这些内链设置,最主要的还是文章里的一些,文章里的链接多少个为宜,放在哪里合适都需要认真考虑一下。网站优化的核心是,不要为了seo而seo,文章内锚文本链接设置的好,还有增加网站的好处,细节的地方,当然需要细心的考虑。
二、相关链接
网站首页的文章展示链接(比如企业站的动态新闻)也算是一种相关链接,其次是网站内页的文章页,加入一些相关内容链接会把整个网站都串连起来,如果把一个网站看做一个整体,那这些相关链接就像一张网把整个网站内部链接起来,而且相关链接不只是显示为版块的增加,主要的内部链接还是文章内容之间的关键词锚文本链接,这样传递出关键词链接信息,提高网站对某些关键词的重视程度,也是能做出分别的。
三、头部栏目链接
头部栏目链接也算是一种导航链接的形式,是大部分网站都有的内部链接设置,以网站整体为主干的话,栏目链接则是显示了一个网站整体的次分支结构,在每一个栏目下面又可以分出更多的细分化栏目,可以说这些栏目是贯穿整个网站 骨架,是给用户一个分类的引导,其重要性就不言而喻了。对于这些栏目的设置也是网站展示给用户看的重要内容,在设置的时候要考虑为用户提供什么信息,可以让用户看到以后一目了然,这些具体设置就是根据网站内容要求来设置。
四、底部链接
网站底部链接虽然不是很多,但也是会有一定的作用,像一些大型网站或者企业网站一般放的信息有“关于网站”、“联系我们”、“”或者“网站地图”之类的内容,主要提供的信息不是主要针对用户的,这样的内部链接加上头部栏目链接使整个网站显示的更自然化,也可以说是有一定的视觉效果吧。如果是和头部一些栏目相关的内容,可以在链接上加入性,网站过多的重复链接并不是网站内链建设的一个良策。
三亿文库包含各类专业文献、高等教育、幼儿教育、小学教育、行业资料、应用写作文书、文学作品欣赏、网站做优化前的4项分析工作78等内容。 
 通过对摸底测试数据的分析和问题定位,却定出优化工作的下一步工作: 1) 对簇...输出相应的优化报告并记录优化过程中所修改的参数和天馈调整数据。 4.校园网放号...  新增帮助 帮助信息管理 回收站管理 4. 网站推广优化...进行网站 上传录入工作 第一项 第二项 5 第三项 ...推广分析系 统 物流管理系 统 支付管理系 统 内部...  做好网站内站优化的四点必... 暂无评价 1页 免费 网站优化前期需要做的几项...这里谈谈 SEO 人员进行网站优化前的必 备的分析工作。 分析工作一 :结构分析 ...  也要分析网站外链 发布的内容的质量(之前遇到过内容发布质量过低显现);网站内容...4、网站外链收录数据分析 对于 SEO 工作大家都是外部链接的工作需要稳定增进,...  网站优化前期需要做的工作 1、页面加载速度大多数...4、三大标签规划对于初建的网站而言, 获取流量的...Photoshop的抠图技巧分析©2014 Baidu 使用百度前必读...  对于统计数据、规划数据要做好保存、归档工作,加强对规划数据库、优化数据库的维...网研究和发展的新技术进行跟踪和分析,保持一定的技术储备,跟上发展的步伐; 4....  好地帮助到需要的人群,让他们充分明白网站优化需要做的事情,以便于更好地工作...4、网站内,搜索引擎“蜘蛛”的爬行分析 在这一方面我们主要要从“蜘蛛”的爬行...  百度排名前 -1 词三, 且属较 0 ( 1、分析总结各网站关键词排名情况 2、...死链等 SEO 日常工作、代码优化、关键词密度 -4 2站内 化 0 优化 5 30% ...搜索引擎技术抓取网络中海量信息,随着信息增长该技术作用变得越来越凸出,作为SEO技术人员,虽没
必要像ZAC对搜索引擎优化技术了解的很透彻,但是分析了解搜索引擎的蜘蛛其对文件的处理方法,研究
其搜索与更新策略,是作为SEOer该有的业务发展需要。任何一个网站只要内容更新+外链都能看到搜索引
擎对该网站做出相对应的分析,进而增加页面权重,了解搜索引擎技术,从而为我们根据实质性的原理来
进行搜索引擎优化,这才是SEO明智之举,而不是每天在那发外链更新网站内容,业余时间还是得学学相
关技术。下面介绍下搜索引擎核心检索技术。
  一蜘蛛工作原理
  网络蜘蛛也就是搜索引擎蜘蛛,是通过链接地址来寻找网页的。搜索引擎蜘蛛名称根据搜索引擎都不
同。那它的原理是由一个启始链接开始抓取网页内容,同时也采集网页上的链接,并将这些链接作为它下
一步抓取的链接地址,如此循环,直到达到某个停止条件后才会停止。停止条件的设定通常是以时间或是
数量为依据,可以通过链接的层数来限制网络蜘蛛的爬取。同时页面信息的重要性为客观因素决定了蜘蛛
对该网站页面的检索。站长工具中的搜索引擎蜘蛛模拟器其实它就是这个原理,准不准确笔者也不清楚。
基于这蜘蛛工作原理,站长都会不自然的增加页面关键词出现次数,虽然对密度产生量的变化,但对蜘蛛
而言并没达到一定质的变化。这在搜索引擎优化过程中应该要避免的。
  二搜索引擎蜘蛛与网站的交互问题
  搜索引擎技术基础中,蜘蛛爬取到网站中,通常会去检索一个文本文件Robots.txt,通常存放在网站
的根目录下。它是专门用来同网络蜘蛛交互用的专用文件。这也就是SEOer老是去屏蔽网站页面不想被搜
索引擎抓取的原因,它是一个网站和搜索引擎蜘蛛对话的重要工具,但是蜘蛛是否都遵循站长对其实施的
规则呢?其实蜘蛛遵循还是得看蜘蛛出身,素质高的会遵循规则,相反则不遵循。另外在网站中放入一个
叫做sitmap.htm的网页,并将它作为网站的入口文件,这也是蜘蛛与网站的交互方法。对于交互性的SEO
手段,我们了解了就可以针对性的做出符合搜索引擎的蜘蛛喜好的网站地图。
  页面Meta字段也是站长经常使用的搜索引擎优化技术,这个字段通常会放在文档的头部,很多站点都
只是简单的写个允许百度抓取的字段,正不正确笔者不清楚,SEO其实很多现象都是基于数据分析对比才
能得知。Meta字段蜘蛛可以在没有读取到全部文档的情况下就了解文档的相关信息,可以避免将无效的网
页取下来后又将其废弃而造成无谓的浪费。
  三搜索引擎蜘蛛对于文件的处理
  (一)二进制文件处理
  网络中除了HTML文件和XML文件外,也有大量的二进制文件,搜索引擎对二进制文件采用单独处理的
方式,其对内容的理解完全需要依靠二进制文件的锚点描述来完成。锚点描述通常代表了文件的标题或是
基本内容,也就是通常所说的锚文字这就是为什么我们要对网站锚文字的分析选择的原因所在。
  (二)脚本文件的处理
  网页中的客户端脚本,当网页加载至读取到该脚本,搜索引擎往往会直接省略对它的处理。但是由于
现在网站设计者对于无刷新页面要求的提高和对ajax技术的大量使用,对它的分析处理往往会采用另外一
种网页检索程序,由于脚本程序复杂和多样性,通常站长会根据自身网站将这些脚本存放到一个文档中,
采用调用技术,从而加快页面加载速度,同时蜘蛛也不能对调用文件分析处理。这也属于搜索引擎优化技
术,如果忽略了对它的处理将会是一项巨大的损失。
  (三)不同文件类型处理
  对于网页内容的提取分析一直是网络蜘蛛的重要技术环节,这也是SEO需要去了解的搜索引擎技术,
这取决于网站信息更新的多样性。这也就是为什么专业网站上会在网站内附有下载的execl,pdf等各种文
件类型,这也是属于搜索引擎优化过程中需要注意的。网上不同文件类型文件的处理,网络蜘蛛通常是采
用插件的方式来处理。如果有能力,网站信息内容的更新尽可能采取多样性,来帮助网站达到一个搜索信
息多样化的SEO体系。
  四搜索引擎蜘蛛的策略分析
  (一)搜索策略
  搜索策略一般有深度优先的搜索策略和广度优先的搜索策略两种。
  广度优先的搜索策略一般被认为是盲目的搜索。它是一种以搜索更多的网页为优先的一种贪婪的搜索
策略。只要有东西检索,它就抓取。它会先读取一个文档,保存下文档上的所有链接,然后读取所有这些
链接文档,并依次进行下去。
  深度优先的搜索策略网络蜘蛛程序分析一个文档,并取出它的第一个链接所指的文档继续分析,然后
如此继续下去。这样的搜索策略达到了网站结构的分析,以及页面链接深度分析,从而传达网站信息。
  还有网络上说的算法,如Hash算法,遗传算法等都是基于搜索引擎核心技术,这些也可以去了解下,
比如最新的熊猫算法,这也是基于搜索策略的一种新算法,谷歌对其已经更新好几次了。
  (二)更新策略
  以网页变化的周期为依据,只对那些经常变化的网页做更新操作也是一些小型的搜索引擎常采用的方
法。这也就是为什么站长会每个几周对网站页面内容的一个小更新,这是基于搜索引擎优化的技术。网络
爬虫也经常采用个体更新的策略。它是以个别网页的变化频率来决定对网页的更新频率,这样一来基本上
每个网页都会有一个独立的更新频率。
  基于对搜索引擎原理了解的SEOer来提升搜索引擎优化技术,这也是一种SEO技术。搜索引擎优化过程
当中自然就能做到自己在做什么,为什么要这样做,而不是只会发外链的机械操作者。SEO技术其实都不
难,只要网站优化做的多了,自然而然就可以得心应手叻,加油,SEO!
原创文章作者 哈尔滨彩钢板( )转载以链接形式注明!
楼主邀你扫码
参与上面帖子讨论
你尚未登录或可能已退出账号:(请先或者
【敬请阅读】
亲爱的网友们,、有更新哦!
请您务必审慎阅读、充分理解各条款内容,特别是免除或者限制责任的条款、法律适用和争议解决条款。免除或者限制责任将以粗体标识,您应重点阅读。
【特别提示】
如您继续使用我们的服务,表示您已充分阅读、理解并接受《西祠站规》、《西祠胡同用户隐私保护政策》的全部内容。阅读《西祠站规》、《西祠胡同用户隐私保护政策》的过程中,如果您有任何疑问,可向平台客服咨询。如您不同意《西祠站规》、《西祠胡同用户隐私保护政策》的任何条款,可立即停止使用服务。
南京西祠信息技术股份有限公司
我已阅读并同意、中的全部内容!

我要回帖

更多关于 组织结构代码证 的文章

 

随机推荐