蜘蛛爬行:搜索引擎派出“蜘蛛”(網頁抓取程序)進行網頁抓取,爬取網頁時一般采用深度優(yōu)先、寬度優(yōu)先或最佳優(yōu)先策略;抓取建庫:將蜘蛛抓取到的網頁放到原始數(shù)據庫中,并丟棄掉不符合抓取規(guī)則的網頁;網頁處理:對符合規(guī)則的網頁進行預處理,主要包括網頁結構化、分詞、降噪、建立索引等;檢索服務:根據用戶提交的關鍵詞從數(shù)據庫中將符合匹配規(guī)則的網頁調取,并根據權重排序規(guī)則對其進行排序;結果展示:將排序好的網頁按不同的方式呈現(xiàn)給用戶。
本文地址:http://93xgc8e.cn//article/27632.html