您现在的位置:首页 - 电商学院 - 最新推荐

【佛山网站推广】搜索引擎原理

字体大小:

  众所周知,网站收录和流量都是建立在搜索引擎原理上。搜索引擎的基本原理分为四个阶段:爬取,过滤去重,建立索引,搜索展现。每个阶段所涉及的工作原理过程都是非常复杂的。佛山网站推广带你来了解下
  
  一、抓取
  
  搜索引擎蜘蛛会顺着链接到网站进行数据爬取,而数据爬取分为深度优先和广度优先。深度优先:是指搜索蜘蛛从起始页开始,一个链接一个链接地追踪下去,知道这条线路处理完毕再转到下一个起始页。这个方法的有点是网络蜘蛛在设计的时候比较容易。广度优先:搜索蜘蛛在爬取一个页面时会把页面内所有的链接都爬取完再进行下一链接页面的数据爬取。这是最常用的方式,这种方法可以让蜘蛛并行处理,提高其抓取速度。

  深度优先搜索,广度优先搜索

  二、过滤去重
  
  蜘蛛数据抓取完获取HTML代码,并存入数据库。将已经抓取到的数据进行技术过滤是否在数据库中存在大量重复内容,采集和没有价值的内容会在这个过程被pass掉。
  
  三、建立索引
  
  由分析索引系统程序对收集回来的网页进行分析,提取相关网页信息,根据一定的相关度算法进行大量复杂计算,得到每一个网页针对页面文字中及超链中每一个关键词的相关度,然后用这些相关信息建立网页索引数据库。
  
  四、搜索展现
  
  经过网页抓取、页面去重、建立索引后再通过中文分词分析超链接、结合网页的重要度及内容丰富度这些过滤后才展示给我们的用户。

搜索引擎系统流程

更新日期:2018-08-06