今天我們上海網站制作公司聊聊關于搜索引擎搜錄網頁的幾個相關概念,希望能夠讓大家更好理解搜索引擎的工作原理,幫助大家提升網站優化方面的技能。搜索引擎相關的幾個詞是:爬行,抓取,索引,收錄。
關于爬行與抓取
爬行是指搜索引擎蜘蛛在頁面上沿著鏈接發現新頁面,然后“爬”過去抓取新頁面。抓取是指蜘蛛發現新頁面后,打開頁面,把頁面HTML代碼存入自己的數據庫。通常引文是用crawl或spider(這里是動詞)表示搜索引擎的爬行的工作。
顯然,爬行和抓取是相互交織的。抓取是實際發生的我們能夠觀察到的過程,在原始日志中,蜘蛛的抓取是有完整記錄的,比如:抓取確切時間、狀態碼、抓取的文件是哪個、抓取了多大文件等等。蜘蛛對頁面的抓取就和瀏覽器讀取文件是完全一樣的。
這里,人們使用爬行這個詞來形容搜索引擎對網站的訪問,很形象,這里我們上海網站制作公司需要說明的是,實際上并不存在蜘蛛抓取文件時發現鏈接然后立即跟蹤過去這樣一個過程。蜘蛛抓取文件后存入數據庫,程序解析出文件中的鏈接后將 URL存入頁面地址庫,然后蜘蛛從地址庫中按一定規則選取URL進行抓取。蜘蛛不是真的訪問頁面時看到一個URL就爬過去。
關于索引與收錄
索引指的是將一個URL的信息進行各種整理,如去重、分詞等等,然后將關于這個URL的信息存入數據庫,被稱為索引庫。真正用于搜索的是倒排索引,以后如果有機會的話,我們上海網站制作公司再為大家講講這方面的內容。要注意的是,索引庫中關于URL的信息不僅是組成頁面內容的關鍵詞及其特征(位置、格式等),還有鏈接、更新情況等信息。英文索引這個詞是 index。
收錄也是很多網站制作與優化技術人員關心也最常用的詞,其實也是4個概念中最不明確的。被收錄指的是我們能查到頁面被搜索引擎存入了索引庫。但后面我們會看到,進入索引庫的URL并不一定被抓取過,這和SEO們的直覺可能是不一樣的。
理解了搜索引擎的這幾個概念,我們上海網站制作公司認為,以后大家在網站制作的時候就清楚怎么做才能讓搜索引擎喜歡我們的網站了。
本文由上海藝覺網絡科技有限公司(http://www.gxxmybkw.com)原創編輯轉載請注明