|網(wǎng)站SEO建站,讓你的對手遙望我們一直在努力

百度索引量:大量的重復(fù)URL被搜索引擎索引怎么處理

您現(xiàn)在正位于該位置:高至 > 網(wǎng)站SEO優(yōu)化資訊 > 百度索引量:大量的重復(fù)URL被搜索引擎索引怎么處理
前言: 發(fā)現(xiàn)網(wǎng)站的收錄里面很多都是重復(fù)URL該怎么處理?今天高至傳媒在這篇文章里面給大家介紹關(guān)于百度索引量收錄了大量重復(fù)URL怎么處理。
我們只談?wù)撚袡z索意義的URL,也就是用戶會從搜索引擎查找的頁面.其他頁面按照常用的方法做屏蔽就好了.
    最近發(fā)現(xiàn)很多站長們都喜歡討論整體的收錄量,可以有時候必須潑一下冷水,也許你的有效收錄只是1/10.

    URL參數(shù)

    也叫URL query,是一個非常復(fù)雜,最容易被忽視,最容易被妥協(xié)的問題.他是網(wǎng)站運營里面必不可少的元素,假如簡單的去除,其他部門就沒辦法工作了.
    靜態(tài)化是的話題,URL參數(shù)經(jīng)常被用于以下的幾方面:
    同一個實體的不同狀態(tài)的展示,比如同一個酒店,在不同時間點會有不同的房間庫存.
    /hotel/123/?checkindate=2015-06-09&checkoutdate=2015-06-10
    為了統(tǒng)計不同渠道的流量
    /?tracking=website_a
    為了統(tǒng)計不同渠道,具體模塊的點擊量
    /?tracking=website_a&click_spot=zone_abc
    調(diào)試
    /product/item123/?debug=true
    全世界最奇葩的是亞馬遜,居然把統(tǒng)計參數(shù)放到了路徑中
    /abc/dp/B005TZHJEQ/ref=lp_2130608051_1_1
百度索引量

    出現(xiàn)這種問題的壞處有幾點:

    浪費搜索引擎對你網(wǎng)站的各項配額,從而影響到其他正常的頁面.
    丟失很多本應(yīng)該拿到的鏈接加分,站外渠道的鏈接往往是最為優(yōu)質(zhì)的.同一個URL的分值可能分散成幾十份.
    SEO的流量被統(tǒng)計到別的渠道(因為tracking字段寫的是別的渠道,而且被收錄被點擊)
    往往形成一種局面,產(chǎn)品用一套URL,SEO用另外一套URL, 甚至不同渠道用不同的URL,后期開發(fā)以及維護(hù)的成本非常高.
為了解決這個問題,首先需要先弄清網(wǎng)頁的URL的定義.以我的理解,每一個URL是一個靜態(tài)的,獨立不重復(fù)的,有意義的實體,一般也有檢索意義(就是有人會搜).比如一個人,一輛車,一條道路,一個零件.而不能混入各種"狀態(tài)",比如這個人生病的時候,難道就不是他自己了么? 一件商品在促銷的狀態(tài)難道就是另一件商品了么?
    理論上面canonical標(biāo)簽就可以解決這個問題了, 但是從實際測試結(jié)果看,百度對于這個標(biāo)簽的支持優(yōu)先級非常低, 幾乎可以忽略不計.那么我的解決方案是這樣的:
    建立好網(wǎng)站的思維導(dǎo)圖以及元信息. (可參考:SEO健康度 )
    所有和SEO元信息相關(guān)的參數(shù)都放到路徑里面去
    所有和SEO元信息不相干的參數(shù)都放到#后邊,因為#后邊不影響web服務(wù)器返回的內(nèi)容.簡單的說就是用"#"替代"?".
    每個頁面里面都利用js獲取#后邊的參數(shù)對,通過二次請求發(fā)回給統(tǒng)計服務(wù)器
    如果#后邊的參數(shù)影響頁面內(nèi)容,比如酒店的入住日期.那么這部分內(nèi)容用ajax加載就可以了,他是不穩(wěn)定的,不屬于頁面內(nèi)容的一部分.(當(dāng)然還有變通的辦法,暫不贅述.)
    原始的#錨點定義肯定會沖突,定義一個#后邊的變量,并用js控制屏幕滾動,來保證原始錨點的作用.
    有人可能會想到,根據(jù)ua判斷,假如是搜索引擎爬蟲,就用跳轉(zhuǎn)的方式去掉URL參數(shù).但效率最高的方法肯定是從一開始就不展示錯誤URL.那么前面的例子優(yōu)化后就變成了:
/hotel/123/#checkindate=2015-06-09&checkoutdate=2015-06-10
/#tracking=website_a
/#tracking=website_a&click_spot=zone_abc
/product/item123/#debug=true
    其實我們的競爭對手早就使用這種方式了,但是因為我們的開發(fā)效率所以沒辦法及時實現(xiàn),還沒有趕上行業(yè)的進(jìn)度.所以對于一般的小網(wǎng)站,一定要考慮開發(fā)成本,不要輕易冒進(jìn).只要可以避免問題的發(fā)生,變通的方法還是比較多的.

    路徑里面使用非必要元素

    很多網(wǎng)站仿照亞馬遜的做法,把商品名體現(xiàn)在URL里面,然后再通過id來決定頁面展示的內(nèi)容:
     /博集典藏館043•基督山伯爵-亞歷山大·仲馬/dp/B005TZHJEQ/
     這樣雖然可以提高一些相關(guān)性,但是很危險.在長期甚至短期的時間里面,大量商品的名稱是非??赡苡凶兓?那么URL也就跟著變化.成本也是相當(dāng)高的,因為加大了技術(shù)實現(xiàn)難度,不管從站內(nèi)還是站外,每次增加鏈接都是一件非常麻煩的事情.
    在我接手某個公司外包之前,URL被全部改成了這樣,對我早期的工作造成了非常巨大的負(fù)擔(dān):
    /Shangrila_International_Hotel-12345678-hotel/
    通過日志分析發(fā)現(xiàn)基本所有的百度蜘蛛發(fā)起的請求都被301跳轉(zhuǎn)了一次(日志分析方法可參考SEO健康度 )
    細(xì)致調(diào)查后發(fā)現(xiàn),從SEO拼接規(guī)則到后臺的漢字和翻譯數(shù)據(jù)被一直修改.也就是說,這個URL相關(guān)的元素有:
    中文 (非必要元素)
    由中文翻譯的英文 (非必要元素)
    id (必要元素)
    而當(dāng)時負(fù)責(zé)SEO的同事把英文和id拼接在了URL里面
    那么這樣一個URL先后變成過:
    /Shangrila_International_Hotel-12345678-hotel/
    /Xianggelila_International_Hotel-12345678-hotel/
    /XiangGeLiLa_International_Hotel-12345678-hotel/
    /Shangrila_guoji_Hotel-12345678-hotel/
    跟"相關(guān)性"比,URL的唯一性以及穩(wěn)定性更加重要.所以針對這個問題,URL的最佳策略應(yīng)該是
    /hotel/12345678/
    如果這個id是隸屬于一個分類下的,比如城市,那么就可以
    /hotel/beijing/123/
    從技術(shù)的角度來說, id通常是數(shù)據(jù)庫的primary key,可以是數(shù)字也可以是字符串,那么這個時候URL是一維的; id也可以是聯(lián)合的唯一索引,那么URL就是二維的,就像上面的(bejing,123)缺一不可.電商類網(wǎng)站列表頁經(jīng)常用到三維以上.
    大小寫
    如果網(wǎng)站的技術(shù)架構(gòu)用的是開源系統(tǒng),通常是不會有這個問題的.如果使用了微軟的技術(shù)架構(gòu),這個問題就非常常見.
    /newyork/
    /Newyork/
    /NewYork/
    我的建議是統(tǒng)一使用小寫,大寫自動跳轉(zhuǎn)為小寫(小心301死循環(huán)!).

    目錄的規(guī)范

    很多網(wǎng)站同時存在這樣的URL,無形當(dāng)中把收錄量擴大了一倍.
    /product/123
    /product/123/
    上邊第一個路徑的意思是在product目錄下有一個123文件.第二個路徑的意思是在product目錄下有一個123目錄,這個目錄下面可能有很多文件,但是他代表眾多文件里面的index.html或者是index.php或default.aspx等優(yōu)先級最高的那個文件.為了避免歧義,我定義文件都是用".html"結(jié)尾的.
    為了減少重復(fù)收錄,那么按照我的習(xí)慣是:
    /product/123  => /product/123/
    或者
    /product/123  => /product/123.html

    最后的總結(jié):

    所有部門統(tǒng)一使用SEO定義的URL,屏蔽非SEO URL的入口.
    用"#"替代"?"
    統(tǒng)一使用小寫
    保證目錄的規(guī)范
    把不規(guī)范的URL跳轉(zhuǎn)到規(guī)范的URL
    關(guān)于百度索引量:大量的重復(fù)URL被搜索引擎索引怎么處理就介紹到這里了,通過上面這么詳細(xì)的總結(jié),你應(yīng)該明白URL的幾種寫法了把?想了解更多關(guān)于網(wǎng)站seo優(yōu)化的資訊歡迎關(guān)注我們。
轉(zhuǎn)載請注明出處及附上該鏈接:http://ebqao.cn/news/384.html

鄭重聲明:本文版權(quán)歸原作者所有,轉(zhuǎn)載文章僅為傳播更多信息之目的,如作者信息標(biāo)記有誤,請第一時間聯(lián)系我們修改或刪除,多謝。

上一篇:<<seo外鏈專員告訴你發(fā)布外鏈的技巧有哪些可以進(jìn)一步提升網(wǎng)站 下一篇:什么叫權(quán)重?怎么在30天里面迅速積累權(quán)重!>>