腾讯分分彩独胆二期
智軟工作室主要是為寧波公司提供寧波網站建設,寧波網站制作,寧波做網站公司,寧波外貿網站建設公司,寧波網站優化等項目,以優質的服務,優惠的價格,深的客戶信賴。相信有你的加入我們的明天會更有動力!期待與你合作!
  • 寧波智軟設計工作室,打造寧波網站制作工作室頂級品牌
  • 智軟擁有專業的設計團隊
  • 多年網站建設團隊為你服務
  • 智軟期待與你合作
  • 我們的技能
  • 我們掌握的技能有:dreamweaver,flash,photoshop
  • 寧波高端網站建設服務公司
    2014已經悄然到來,在新的一年我們恭賀所有客戶事業蒸蒸日上,同事慶祝智軟設計工作室成立5周年,在5周年為眾多客戶提供了保質量的網站設計與網站制作。 我們在新的一年質量與服務將會更加進一步為更多的客戶帶來高端的網站設計與服務!期待與你合作
  • 企業網站制作建設原因與服務介紹

    智軟設計工作室多年為寧波企業網站制作建設服務一直以來我們以最優惠價格,最優質的質量,最突出的設計!得到了客戶的一致認可,我們的服務包括:寧波網站設計,寧波網站建設,寧波網站制作,寧波網站優化,寧波英文網站制作我們會以優質的服務,最低的價格來報答客戶!

  • 點擊鏈接網站優化推廣介紹

    點擊連接網站優化推廣-對企業的網站優化和網站推廣--對企業的重要性-點擊進行詳細了解

  • 2014開幕,寧波網站設計服務全面優惠.

    2014開幕,寧波智軟設計為寧波企業提供更加優秀的設計和實惠的價格

  • 鏈接到網站案例展示平臺
    智軟設計工作為寧波客戶網站設計案例展示平臺-案例均為定期更新,讓新老客戶更好的看到我們做的案例,點擊查看我們做的網站案例吧!
  • 我們寧波網絡公司提供網站一站式解決方案
    智軟(寧波網絡公司)幫你輕松解決網絡問題,網站一站式解決方案
你當前的位置:智軟工作室 > 營銷與網絡 >

網站優化必看-搜索引擎三段式工作流程

2010-11-15 16:38

現代的大規模搜索引擎一般采用三段式的工作流程,即:網頁搜集、預處理、查詢服務。   現在我對這三點簡單的闡述下:

一、網頁搜集

  搜索引擎是通過爬蟲去搜集互聯網中的網頁,放入數據庫,但是這不可能是用戶提交查詢的時候才去抓取,而是預先就搜集好一批網頁,可以把WEB上的網頁集合看成是一個有向圖,搜集過程從給定起始URL集合S開始,沿著這些網頁中的鏈接,按照先深或先寬某種策略遍歷,不停的從S中移除URL,下載相應的網頁,解析出網頁中的超鏈接URL,看是否已經訪問過,或者有未訪問過的那些URL加入集合S。我們這里可以是定期搜集,增量搜集,或者是用戶自主提交的方式進行爬取。并且對這批網頁進行維護。這種維護,是為了能及時發現網頁的新特征,搜集新的網頁,改變過的網頁,或者已經不存在的網頁。

  二、預處理

  預處理主要包括四個方面:關鍵詞的提取、鏡像網頁或轉載網頁的消除、鏈接分析和網頁重要程度的計算

  1.關鍵詞的提取

  作為預處理階段的一個基本任務,就是要提取出網頁源文件的內容部分包括的關鍵詞。對于中文來說,就是根據一個詞典,用一個所謂的“切詞軟件”,從網頁文字中切除詞典所包含的詞語來,在那之后,一篇網頁主要是由一組詞來代表,p={a,b,c,……d}.一般來講,我們會得到很多詞,同一個詞可能在一篇網頁中出現多次。然后我們要去掉”停用詞“,例如”的,在,是”這一類的詞語。再加以對這些詞的詞頻(TF)和文檔頻率(DF)之類的計算統計,從而指示出詞語在一篇文檔中的相對重要性和某種內容的相關性。

  2.鏡像或者轉載網頁的消除

  在WEB上,存在著大量的重復信息,這種信息對于搜索引擎來說可能是負面的,因為需要消耗機器時間和帶寬資源,并且無意義的消耗了計算機顯示屏資源,也可以帶來用戶的抱怨,這么多重復,給我一個就夠了。所以搜索引擎對于消除這些重復信息也是預處理中一個很重要的任務。

  3.鏈接分析

  搜索引擎除了對內容進行分析外,并且最重要的還需要對鏈接進行分析,鏈接信息不僅給出了網頁之間的關系,而且還對判斷網頁的內容起到很重要的作用。網頁中的內部鏈接和外部鏈接對網站的排序起到了很大的影響。

  4.網頁重要程度的計算

  搜索引擎返回給用戶是一個和查詢相關的結果列表,列表中的條目順序是很重要的問題。因此搜索引擎必須提供一種統計意義上的排序結果給用戶,但并不能給所有用戶都能提供滿意的結果。如何對網頁權重進行評估,是搜索引擎最需要解決的問題,例如GOOGLE的pr算法,其中思路就是認為“被引用越多的就是重要的”,和HITS算法等等。這些算法,有些在預處理階段計算,有些則在查詢服務階段進行計算,從而最終形成最優的排序結果。

  三、查詢服務

  當從一個S集合開始,通過預處理后得到的就是S的一個子集元素的某種內部顯示,至少包含幾個方面:原始網頁文檔,URL和標題,編號,所含重要關鍵詞的集合(包括出現位置)等其他的一些指標。而系統關鍵詞的總體集合和編號一起構成了一個倒排文件結構,使得一旦得到一個關鍵詞輸入,就立刻能給出相文檔編號的集合輸出。這里主要有三方面的:查詢方式和匹配,結果排序,文檔摘要。

  1.查詢方式和匹配

  用戶一般查詢都是“要什么就輸入什么”,這對于搜索引擎來說,是一種模糊的說法,它可能不知道你真正想要的是什么,所以就是希望網頁中包含有該詞或者短語中的詞,也就對用戶查詢的詞語或短語進行分詞,形成一個q,他的每一個元素都對應倒排文件中的一個倒排表,即文檔編號的集合。從而實現了查詢和文檔的匹配。

  2.結果排序

  要想給用戶提供最高質量的網頁信息,必須對結果進行排序,例如GOOGLE的PageRank算法,Kleinberg的HITS算法等,是目前搜索引擎給出查詢結果排序的主要方法。

  3.文檔摘要

  搜索引擎給出的結果是一個有序的條目列表,每一個條目都包含標題,URL,摘要,其中的摘要需要從網頁正文中生成,這里可以歸納為兩種方法,一種是靜態方式,從正文中提取中一些文字,如正文開頭的512個字節,或者每段第一句拼湊起來等,但這種有個弊端是可能與查詢的詞語無關。所以第二種方式就是動態摘要,根據查詢的詞在文檔中的位置,提取出周圍的文字來,顯示時將查詢詞標亮。這種方式是目前大多數搜索引擎采用的方式,為了保證查詢效率,需要在預處理分詞階段記住每個關鍵詞在文檔中出現的位置。

更多

【責任編輯:小戴工程師】

關鍵字: 網站優化 工作流程 搜索引擎

上一篇:今天寧波網站建設-網站排名掉的不明不白 下一篇:簡單的運用讓谷歌搜索可以查看所有國家的搜索內容

最新文章

2010-11-15 16:38

相關文章

2010-11-15 16:38
網站制作咨詢:
QQ:277728291
電話:18668277799
郵箱:[email protected]
期待你來電咨詢
回頂部
Copyright 2010 智軟工作室 版權所有    智軟為寧波公司提供最優惠的網絡服務【寧波網站建設,寧波網站制作公司,寧波做網站公司,寧波外貿網站建設公司】我們竭誠為你服務!
腾讯分分彩独胆二期