來源:m.mjyil.cn 時間:2020-10-22 10:02:50 瀏覽:2926次
熊貓一般是單胎生產(chǎn),但是現(xiàn)在我們在動物園內(nèi)經(jīng)常能看到雙胞胎或者三胞胎的熊貓,暫且不論原有,我們看到這樣的情況會感覺很新奇,但是如果這樣的情況出現(xiàn)在一個網(wǎng)站中,那么不論是搜索引擎還是用戶看到了,就不是感覺到新奇了,而是感覺到厭煩。正因為如此搜素引擎針對重復(fù)內(nèi)容也發(fā)布了針對性的算法規(guī)則。國內(nèi)的百度網(wǎng)去重算法和有我們SEO老大谷歌的Panda算法。針對重復(fù)率這邊,筆者個人感覺谷歌這樣的Panda算法更為細(xì)致明顯,所以本篇文章就以谷歌的Panda算法來進(jìn)行搜索引擎對重復(fù)文字的判別與處罰問題進(jìn)行討論。
什么是重復(fù)文字呢?字面上的意思就是當(dāng)任何兩個或更多的網(wǎng)站頁面共享相同內(nèi)容時,就存在了重復(fù)內(nèi)容,也就是我們常說到的樣板文字。聽著如此簡單,那為什么這么簡單的概念會造成如此大的困難呢?一個問題是,人們常常誤以為“頁面”是位于其Web服務(wù)器上的文件或文檔。對于爬蟲而言,頁面是它碰巧找到的任何唯一URL,通常通過內(nèi)部或外部鏈接找到。特別是在大型的動態(tài)網(wǎng)站上,創(chuàng)建兩個位于相同內(nèi)容上的URL非常容易而且常常是網(wǎng)編無意而為的。
那么為什么搜索引擎會對重復(fù)文字如此重視呢?其實重復(fù)內(nèi)容是SEO的問題,早在Panda更新之前就已經(jīng)存在,并且隨著算法的改變,其形式已經(jīng)多種多樣。簡單來舉例列舉一下:
1、補充索引
在Google成立之初,僅索引網(wǎng)絡(luò)是一項巨大的計算挑戰(zhàn)。為了應(yīng)對這一挑戰(zhàn),一些被視為重復(fù)項或質(zhì)量很低的頁面被存儲在稱為“補充”索引的二級索引中。從SEO角度來看,這些頁面自動成為二等頁面且失去了任何競爭排名能力。那么在2006年末左右,Google將補充結(jié)果重新納入了主要索引,但是這些結(jié)果仍然經(jīng)常被過濾掉。我們知道,只要我們在Google搜索引擎結(jié)果頁面底部看到以下警告,就可以達(dá)到過濾結(jié)果:在Google中省略了結(jié)果,即使該索引是統(tǒng)一的,結(jié)果仍然被“忽略”,對SEO產(chǎn)生了明顯的影響。當(dāng)然,在許多情況下,這些頁面實際上是重復(fù)的或搜索價值很小,并且對SEO的實際影響可以忽略不計,但并非總是如此。
2、抓取“預(yù)算”
談到Google時,說話總是很困難,因為人們希望聽到一個絕對的數(shù)字。Google沒有絕對的爬網(wǎng)預(yù)算,也沒有固定數(shù)量的Google將在網(wǎng)站上爬網(wǎng)的頁面。但是,在某些時候Google可能會放棄一段時間的爬網(wǎng),特別是如果我們一直在沿著蜿蜒的路徑發(fā)送蜘蛛。盡管“預(yù)算”不是絕對的,但是即使對于給定的網(wǎng)站,我們也可以在Google網(wǎng)站站長工具“抓取統(tǒng)計信息”中了解Google對我們的網(wǎng)站的抓取分配:GWT抓取圖,當(dāng)Google擊中了很多重復(fù)的路徑和頁面而導(dǎo)致一天放棄時,實際上,我們想要索引的頁面可能不會被抓取。
3、指數(shù)“上限”
同樣的Google不會為網(wǎng)站索引多少頁面設(shè)置上限。但是,似乎確實存在動態(tài)限制,并且該限制與站點的權(quán)限有關(guān)。如果用無用的重復(fù)頁面填充索引,則可以推出更重要,更深的頁面。
4、處罰辯論
在熊貓問世之前很久,每隔幾個月就要進(jìn)行一次辯論,討論是否存在重復(fù)的內(nèi)容懲罰。這些辯論雖然提出了正確的論點,但它們通常側(cè)重于語義,重復(fù)的內(nèi)容是否引起了Capital-P處罰。盡管我們認(rèn)為處罰和過濾器之間的概念差異很重要,但網(wǎng)站所有者的看法通常是相同的。如果網(wǎng)頁由于內(nèi)容重復(fù)而沒有排名,那么無論我們叫什么名字,都將遇到問題。自從Panda以來,重復(fù)內(nèi)容的影響在某些情況下變得更加嚴(yán)重。過去,重復(fù)的內(nèi)容只會損害該內(nèi)容本身。如果有重復(fù)項,則可能會補充或過濾掉。通常,沒關(guān)系。在極端情況下,大量重復(fù)項可能會使索引膨脹,或?qū)е屡谰W(wǎng)問題并開始影響其他頁面。熊貓將重復(fù)內(nèi)容視為更廣泛的質(zhì)量方程式的一部分。現(xiàn)在,重復(fù)內(nèi)容問題可能會影響我們的整個網(wǎng)站。如果我們受到Panda的打擊,則非重復(fù)頁面可能會失去排名能力,完全停止排名甚至落入索引。重復(fù)的內(nèi)容不再是一個獨立存在的問題。
我們在深入研究重復(fù)內(nèi)容以及用于處理重復(fù)內(nèi)容的工具之前,筆者想介紹3個廣泛的重復(fù)類別。
1、完全重復(fù),真正的副本是指與另一頁面100%相同內(nèi)容上的任何頁面,這些頁面的唯一區(qū)別在于URL。
2、幾乎重復(fù),幾乎重復(fù)的內(nèi)容與另一個頁面或多個頁面之間的差異非常小,可能是文本塊,圖片甚至內(nèi)容的順序。
3、跨網(wǎng)域重復(fù),當(dāng)兩個網(wǎng)站共享相同的內(nèi)容時,就會發(fā)生跨域重復(fù)。
這些重復(fù)可以是完全或接近重復(fù),與某些人的看法相反,即使對于合法的聯(lián)合內(nèi)容,跨域重復(fù)也可能是一個問題。這看起來似乎是亂序的,但是在深入研究特定例子之前,我們想討論用于處理重復(fù)項的工具。這樣,我們可以推薦適當(dāng)?shù)墓ぞ邅硇迯?fù)每個示例,而不會引起任何混淆。
1、404。處理重復(fù)內(nèi)容的最簡單方法是將其刪除并返回404錯誤。如果內(nèi)容確實對訪問者或搜索沒有任何價值,并且沒有明顯的入站鏈接或訪問量,則完全刪除是一種完全有效的選擇。
2、301重定向。刪除頁面的另一種方法是通過301重定向。與404不同,301告訴訪問者頁面已永久移動到另一個位置,用戶訪客無縫地到達(dá)新頁面。從SEO角度來看,大多數(shù)入站鏈接權(quán)限也將傳遞到新頁面。如果重復(fù)的內(nèi)容具有清晰的規(guī)范URL,并且重復(fù)的內(nèi)容具有流量或入站鏈接,則301重定向可能是一個不錯的選擇。
3、Robots.txt。另一種選擇是使重復(fù)內(nèi)容可供用戶使用,但將其阻止給搜索爬網(wǎng)程序。執(zhí)行此操作的最古老且可能仍然最簡單的方法是使用robots.txt文件,通常位于我們的根目錄中,如:
User-agent:*
Disallow:/dupe-page.htm
Disallow:/dupe-folder/
robots.txt的優(yōu)點之一是封鎖整個文件夾甚至URL參數(shù)相對容易。缺點是這是一種極端的解決方案,有時甚至是不可靠的解決方案。盡管robots.txt可有效阻止未抓取的內(nèi)容,但對于刪除索引中已有的內(nèi)容卻不是很好。主流搜索引擎似乎也對它的過度使用不滿意,因此通常不建議使用robots.txt來復(fù)制內(nèi)容。
4、元機器人。我們還可以使用稱為“元機器人”標(biāo)記的標(biāo)頭級指令在頁面級別控制搜索機器人的行為。標(biāo)簽以最簡單的形式看起來像這樣:
<head>
<meta name="robots" content="noindex,nofollow"/>
</head>
該指令告訴搜索機器人不要為此特定頁面編制索引或跟隨其上的鏈接,同時我們還發(fā)現(xiàn)它比Robots.txt更具SEO友好性,并且由于可以使用代碼動態(tài)創(chuàng)建標(biāo)簽,因此通常更靈活。Meta Robots的另一個常見變體是內(nèi)容值“NOINDEX,F(xiàn)OLLOW”,它使機器人可以在不將頁面添加到搜索索引的情況下爬行頁面上的路徑。對于內(nèi)部搜索結(jié)果之類的頁面,這可能很有用,我們可能希望阻止某些變化,但仍遵循產(chǎn)品頁面的路徑。其實無需在頁面上添加帶有“INDEX,F(xiàn)OLLOW”的Meta Robots標(biāo)簽。默認(rèn)情況下,所有頁面都被索引并遵循索引。
5、Rel=Canonical。搜索引擎聯(lián)合起來創(chuàng)建了Rel=Canonical指令,有時也稱為“Rel-canonical”或“Canonical Tag”。這使網(wǎng)站管理員可以為任何頁面指定規(guī)范版本。標(biāo)簽位于頁面標(biāo)題中,如:
<head>
<link rel="canonlcal" />
</head>
當(dāng)搜索引擎到達(dá)帶有規(guī)范標(biāo)簽的頁面時,它們會將頁面歸為規(guī)范URL,而不管它們用來訪問該頁面的URL是什么。因此,搜索引擎通常不會為附加的非規(guī)范URL編制索引,而是入站鏈接果汁也通過規(guī)范標(biāo)記傳遞。不過值得我們注意的是對于任何給定的網(wǎng)站模板,我們需要清楚地了解什么是正確的規(guī)范頁面。將整個站點規(guī)范化為一頁或錯誤的頁面可能會造成災(zāi)難性的后果。當(dāng)搜索引擎到達(dá)帶有規(guī)范標(biāo)簽的頁面時,它們會將頁面歸為規(guī)范URL,而不管它們用來訪問該頁面的URL是什么。
6、Rel=Prev & Rel=Next。Google為我們提供了一種新工具,可用于解決特定形式的近重復(fù)內(nèi)容,分頁搜索結(jié)果。我們可以通過使用一對類似于Rel-Canonical的標(biāo)簽來告訴Google分頁內(nèi)容如何連接。它們分別稱為Rel-Prev和Rel-Next,舉例來說:
<head>
<link rel="prev" />
<link rel="next" />
</head>
搜索引擎已登陸搜索結(jié)果的第3頁,因此我們需要兩個標(biāo)簽:(1)指向第2頁的Rel-Prev和(2)指向第4頁的Rel-Next。但我們幾乎總是必須動態(tài)生成這些標(biāo)簽,因為我們的搜索結(jié)果可能是由一個模板驅(qū)動的,結(jié)果表明這些標(biāo)簽確實有效。
7、內(nèi)部鏈接。處理重復(fù)內(nèi)容的最佳工具就是不要一開始就創(chuàng)建它。當(dāng)然,這并非總是可能的,但是如果我們發(fā)現(xiàn)必須修補許多問題,則可能需要重新檢查內(nèi)部鏈接結(jié)構(gòu)和網(wǎng)站架構(gòu)。當(dāng)我們確實解決了重復(fù)問題時,讓其他網(wǎng)站提示反映出這一變化也很重要。我們經(jīng)常看到有人在頁面的一個版本中設(shè)置301或規(guī)范,然后繼續(xù)內(nèi)部鏈接到非規(guī)范版本,并用非規(guī)范URL填充其XML網(wǎng)站地圖。內(nèi)部鏈接是很強的信號,發(fā)送混合信號只會給我們帶來麻煩。
上一篇:常見的頁面重復(fù)形式
下一篇:不建鏈接增加流量的方法
24小時服務(wù)熱線:400-1180-360
業(yè)務(wù) QQ: 444961110電話: 0311-80740308
渠道合作: 444961110@qq.com
河北供求互聯(lián)信息技術(shù)有限公司(河北供求網(wǎng))誕生于2003年4月,是康靈集團(tuán)旗下子公司,也是河北省首批從事網(wǎng)站建設(shè)、電子商務(wù)開發(fā),并獲得國家工業(yè)和信息化部資質(zhì)認(rèn)證的企業(yè)。公司自成立以來,以傳播互聯(lián)網(wǎng)文化為已任, 以高科技為起點,以網(wǎng)絡(luò)營銷研究與應(yīng)用為核心,致力于為各企事業(yè)單位提供網(wǎng)絡(luò)域名注冊、虛擬主機租用、網(wǎng)站制作與維護(hù)、網(wǎng)站推廣和宣傳、網(wǎng)站改版與翻譯、移動互聯(lián)網(wǎng)營銷平臺開發(fā)與運營、企業(yè)郵局、網(wǎng)絡(luò)支付、系統(tǒng)集成、軟件開發(fā)、電子商務(wù)解決方案等優(yōu)質(zhì)的信息技術(shù)服務(wù),與中國科學(xué)院計算機網(wǎng)絡(luò)信息中心、騰訊、百度、阿里巴巴、搜狗、360、電信、聯(lián)通、中國數(shù)據(jù)、萬網(wǎng)、中資源、陽光互聯(lián)、點點客、北龍中網(wǎng)、電信通等達(dá)成戰(zhàn)略合作伙伴關(guān)系。
版權(quán)所有 ? 河北供求互聯(lián)信息技術(shù)有限公司-優(yōu)秀的石家莊網(wǎng)站建設(shè)公司,為您提供石家莊網(wǎng)站建設(shè)、網(wǎng)站推廣等優(yōu)質(zhì)服務(wù).
服務(wù)熱線:400-1180-360 增值電信業(yè)務(wù)經(jīng)營許可證:冀B2-20105159 冀ICP備09010972號