十二月 21st, 2008

[博客SEO, 天天小语]从搜索引擎的工作原理谈博客SEO[下]!

Category: 博客SEO, 天天小语, Author: 天天小雨 , ( 1128 个脚印 )

上一次谈到了搜索引擎的工作原理,写来一篇日志,题目是《从搜索引擎的工作原理谈博客SEO[上]!》,而当搜索器搜索到你的网站或者博客并产生收录的时候,“索引器”开始工作,它的功能是理解搜索器所搜索的信息,由分析索引系统程序对收集回来的网页进行分析,提取相关网页信息(包括网页所在URL、编码类型、页面内容包含的关键词、关键词位置、生成时间、大小、与其他网页的链接关系等),根据一定的相关度算法进行大量复杂计算,得到每一个网页针对页面内容中及超链接中每一个关键词的相关度(或重要性),然后用这些相关信息建立网页索引数据库以便今后用户的查询,到此,以上就是基本上的收录原理。

        全书下载:《搜索引擎的工作原理博客SEO-www.tianliang.org分享!.pdf

        今天接着将[下]完成,同样是本着边学习边提高的态度,介绍一下“网页的搜集与提取”!

        1、网页的搜集

        搜索器虽然是时时刻刻在工作,但是不一定每天都会到我的博客中来,基本上有两种搜集方法。一个是“定期搜集法”,比如GG不定期的大更新,它每次搜集替换上一次的全部内容,我们称之为“批量搜集”。由于每次都是重新来一次,对于大规模搜索引擎来说,每次搜集的时间通常会花费几周的时间。第二个方法是“增量搜集法”,意味着搜索引擎最初时搜集好一批数据,以后只是搜集新出现的网页和改变的网页并删除不再存在的网页。每天进行的搜索都是缘于此!

        2、网页的提取

        首先是“关键词的提取”,网页处理阶段的一个基本任务,就是要提取出网页源文件的内容部分所包含的关键词。对于中文来说,就是要根据一个词典Σ,用一个“切词软件”,从网页文字中切出Σ所含的词语来。这样一篇网页就可以由一组词来近似代表了,p={t1,t2,…,tn}。

        然后是“重复或转载网页的消除”,消除内容重复或主题重复的网页是网页处理阶段的一个重要任务。我们知道Internet上的信息存在大量的重复现象。统计分析表明,网页的重复率平均大约为4。这种现象对于搜索引擎来说,它在搜集网页时要消耗机器时间和网络带宽资源,而且如果在查询结果中出现,将消耗了查询者计算机的资源。

        还有“链接分析”,从信息检索的角度讲,如果系统面对的仅仅是内容的文字,我们能依据关键词和词在文档集合中出现的频率来统计该词的相对重要性以及和某些内容的相关性。尤其HTML文档中所含的指向其他文档的链接信息是人们特别关注的对象,认为它们不仅给出了网页之间的关系,而且还对判断网页的内容有很重要的作用。

        最后是“网页重要程度的计算”,如何理解一篇网页比另外一篇网页重要?人们参照科技文档重要性的评估方式,核心想法就是“被引用多的就是重要的”。“引用”这个概念恰好可以通过在网页之间的超链进行体现,Google核心技术的PageRank就是这种思路。网页和文档的不同点,即一些网页主要是大量对外的链接,其本身基本没有一个明确的主题内容,而另外有些网页则被大量的其他网页链接。从某种意义上讲,这形成了一种对偶的关系,这种关系使得人们可以在网页上建立另外一种重要性指标。

        完结!

        关于搜索引擎的工作原理就先写到这吧,自己也是查阅了很多相关资料才写出来的,很多内容来自互联网,不过感觉一边学习一边写的方式确实能让自己的知识充实起来,有些内容原来自己也不是很理解,可是当自己要写出来的时候,就的反复琢磨与思考,这也在无形当中对知识进行了二次分析,收获的不再是“复制与粘贴”,而是真的有所收获!

        全书PDF下载:《从搜索引擎的工作原理谈博客SEO-www.tianliang.org分享!.pdf

        

原创文章[除网络转载]转载请注明: 转载自天天小雨博客
本文链接地址:从搜索引擎的工作原理谈博客SEO[下]!

Add Comments

本文网址:http://www.tianliang.org/635720/

There are No comments.

» You can leave a response or Feed for this Entry or Trackback .

leave a reply