发布时间:2019-11-20
搜索引擎工作过程非常复杂,搜索引擎的工作过程大体上可以分成三个阶段。
(1)爬行和抓取:
爬行和抓取是搜索引擎工作的第一步,完成数据收集的任务。搜索引擎蜘蛛通过跟踪链接发现和访问网页,读取页面HTML代码,存入数据库。
(2)预处理:
索引程序对抓取来的页面数据进行文字提取、中文分词、索引、倒排索引等处理,以备排名程序调用。搜索引擎蜘蛛抓取的原始页面,并不能直接用于查询排名处理。搜索引擎数据库中的页面数都在数万亿级别以上,用户输入搜索词后,靠排名程序实时对这么多页面分析相关性,计算量太大,不可能在一两秒内返回排名结果。因此抓取来的页面必须经过预处理,为最后的查询排名做好准备。和爬行抓取一样,预处理也是在后台提前完成的,用户搜索时感觉不到这个过程。
(3)排名:
用户输入查询词后,排名程序调用索引库数据,计算相关性,然后按一定格式生成搜索结果页面。经过搜索引擎蜘蛛抓取页面,索引程序计算得到倒排索引后,搜索引擎就准备好可以随时处理用户搜索了。用户在搜索框填入查询词后,排名程序调用索引库数据,计算排名显示给用户,排名过程是与用户直接互动的。
文章由成都网站建设公司 - 零一 编辑整理,部分图文摘自网络,如有侵权请联系删除
推荐阅读
HOT INFORMATION