|網(wǎng)站SEO建站,讓你的對手遙望我們一直在努力

網(wǎng)站優(yōu)化當(dāng)中的爬行、抓取、索引、收錄的說法

您現(xiàn)在正位于該位置:高至 > 網(wǎng)站優(yōu)化 > 搜索引擎優(yōu)化 > 網(wǎng)站優(yōu)化當(dāng)中的爬行、抓取、索引、收錄的說法
前言: 通過我們做網(wǎng)站優(yōu)化的時候遇到問題常常涉及到爬行、抓取、索引、收錄這些東西,而這些指的又是什么呢?
    通過我們做網(wǎng)站優(yōu)化的時候遇到問題常常涉及到爬行、抓取、索引、收錄這些東西,而這些指的又是什么呢?
    首先我們來看看網(wǎng)站優(yōu)化當(dāng)中的爬行是什么?
    爬行指的是搜索引擎蜘蛛從已知頁面上面解析出鏈接指向的URL,然后沿著鏈接發(fā)現(xiàn)新頁面(也就是鏈接指向的URL)的過程。當(dāng)然,蜘蛛并不是發(fā)現(xiàn)新URL就會馬上就爬過去抓取新頁面,而是把發(fā)現(xiàn)的URL存放到待抓地址庫中,蜘蛛按照一定順序從地址庫中提取要抓取的URL。
    什么叫作抓取是什么?
    抓取指的是搜索引擎蜘蛛從待抓地址庫中提取要抓的URL,訪問這個URL,把讀取的HTML代碼存入到數(shù)據(jù)庫。蜘蛛的抓取就是像瀏覽器一樣打開這個頁面,和用戶瀏覽器訪問一樣,也會在服務(wù)器原始日志當(dāng)中留下記錄。
    網(wǎng)站索引又是什么?
索引指的是將一個URL的信息進(jìn)行整理,存入數(shù)據(jù)庫,也就是索引庫,用戶搜索時,搜索引擎從索引庫中提取URL信息并排序展現(xiàn)出來。索引的英文是index。索引庫是用于搜索的,所以被索引的URL是可以被用戶搜索到的,沒有被索引的URL用戶在搜索結(jié)果中是看不到的。
    要注意的是,所謂“一個URL的信息“,并不限于蜘蛛從URL上抓取來的內(nèi)容,還有來自其它來源的信息,如外部鏈接、鏈接的錨文字等。有的時候,索引庫中關(guān)于這個URL的的信息,根本沒有從這個URL抓取來的內(nèi)容,但搜索引擎知道這個URL的存在,并且有一些其它信息。
    抓取和索引不是一回事。但是相對之下索引比抓取更重要
網(wǎng)站優(yōu)化
    收錄是什么?
    我個人覺得收錄和索引沒有區(qū)別。只不過收錄是從搜索用戶角度看的,搜索時能找到這個URL,就是這個URL被收錄了。從搜索引擎角度看,URL被收錄了,也就是這個URL的信息在索引庫中存在。英文并沒有收錄這個詞,和索引用的是同一個詞index。
    noindex的作用是什么?
    頁面頭信息中放上meta noindex標(biāo)簽是告訴搜索引擎不要索引這個URL,也就是用戶搜索時找不到這個URL的信息,這個URL不會返回在搜索結(jié)果列表中。
    noindex不是告訴搜索引擎不要抓取這個URL,實際上,noindex要起作用,這個URL是必須先被抓取的,不然搜索引擎怎么看到頁面HTML代碼中有noindex標(biāo)簽?zāi)兀?/div>
    robots文件的作用是什么?
    robots文件是告訴搜索引擎,某些URL不要抓取。注意,這里說的是不要抓取,沒說不要索引。和noindex是正相反的。
    nofollow的作用是什么?
    給鏈接加上nofollow屬性是告訴搜索引擎,不要沿著這個鏈接爬行,就當(dāng)這個鏈接不存在。注意,nofollow只是告訴蜘蛛不要爬這個鏈接,沒有說不要抓取鏈接指向的URL,也沒有說不要索引鏈接指向的URL,nofollow既沒禁止抓取,也沒禁止索引。
    概念說過后,指出幾個SEO們經(jīng)常弄不明白的情況:
沒有被抓取的頁面是可以被索引的
也就是說,蜘蛛沒有訪問和抓取這個頁面(比如被robots文件禁止抓?。?,這個頁面卻有信息存在索引庫中,用戶搜索時還能看到。
    被抓取的頁面是可以不被索引的
    最常見的就是上面說過的,頁面頭信息使用noindex禁止索引,頁面被抓取,讀到noindex后,不被索引,不會在搜索結(jié)果中返回。老頁面新加noindex也不是馬上刪除索引,還會保留索引一段時間,但不會返回在搜索結(jié)果中。
    加了noindex的頁面上的鏈接是可以被跟蹤一段時間的,但時間長了,有noindex的頁面搜索引擎可能就不再抓取和索引了,上面的鏈接也就無效了。
    還有可能是因為頁面內(nèi)容是抄襲、轉(zhuǎn)載、低質(zhì)量的,搜索引擎雖然抓取了頁面,索引過程中檢測出這些內(nèi)容問題,被丟棄,沒有被索引。所以頁面沒有被收錄,通常要先檢查原始日志,看看是否被抓取過,如果被抓取過,可能是內(nèi)容質(zhì)量問題,如果根本沒被抓取,建議先看看網(wǎng)站結(jié)構(gòu)是否有問題。
    加了nofollow的鏈接目標(biāo)頁面可以被抓取和索引
前面說了,nofollow既不禁止抓取,也不禁止索引。nofollow的作用是告訴蜘蛛不要跟著這個鏈接爬,就當(dāng)這個鏈接不存在,但nofollow只對這個鏈接起作用,對別的鏈接沒作用,這個鏈接加了nofollow,不意味著別的地方就沒有正常的指向這個URL的鏈接,只要別的地方出現(xiàn)了沒加nofollow的鏈接,目標(biāo)URL還是會被發(fā)現(xiàn)、抓?。僭O(shè)沒被robotx文件禁止)、索引(假設(shè)沒加noindex )。
    上面這些概念和應(yīng)用在SEO中是很重要的,如果還沒看懂,我也不知道該怎么再解釋了,只能建議再多讀幾遍。另外必須要多去了解搜索引擎算法,才能更好的知道搜索引擎需要的是什么內(nèi)容,以及應(yīng)該怎么做。
網(wǎng)站優(yōu)化
轉(zhuǎn)載請注明出處及附上該鏈接:http://ebqao.cn/wangzhanyouhua/288.html

鄭重聲明:本文版權(quán)歸原作者所有,轉(zhuǎn)載文章僅為傳播更多信息之目的,如作者信息標(biāo)記有誤,請第一時間聯(lián)系我們修改或刪除,多謝。

上一篇:<<網(wǎng)站優(yōu)化當(dāng)中關(guān)于內(nèi)容現(xiàn)狀的說法 下一篇:網(wǎng)站優(yōu)化當(dāng)中怎么可以吸引得了外鏈>>