網(wǎng)站一直不收錄怎么回事?跟這個(gè)關(guān)系很大!官方已經(jīng)實(shí)錘
你的網(wǎng)站抓取頻次為什么那么低?網(wǎng)站一直不收錄怎么回事?想必很多站長(zhǎng)開(kāi)發(fā)者面對(duì)這樣的問(wèn)題就開(kāi)始使出自己的大招,比如301引蜘蛛,或者大量更新文章,那么這樣做是對(duì)還是錯(cuò)?今天小編就來(lái)重點(diǎn)解讀下網(wǎng)站收錄以及網(wǎng)站抓取頻次的相關(guān)問(wèn)題,值得注意的是,以下觀點(diǎn)為官方解讀觀點(diǎn),所以可信度99.99%。
了解網(wǎng)站抓取之前,我們首先先了解下百度爬蟲(chóng)抓取原理。
一、百度蜘蛛是如何工作的?
百度蜘蛛程序運(yùn)行的流程是怎樣的呢?百度抓取器(蜘蛛程序)對(duì)你網(wǎng)站服務(wù)器進(jìn)行交互,拿到首頁(yè)后對(duì)你的頁(yè)面進(jìn)行理解,這個(gè)理解包含站點(diǎn)類型、價(jià)值的計(jì)算,此外會(huì)把網(wǎng)站所有超鏈接提取出來(lái),這些提取出的鏈接稱為后鏈,這個(gè)后鏈就是下一輪抓取的集合,然后等到下一輪抓取的時(shí)候,會(huì)從上一輪提取的后鏈中選擇需要抓的數(shù)據(jù)中繼續(xù)和網(wǎng)站交互,拿到頁(yè)面進(jìn)行提煉,形成一層層抓取循環(huán)和環(huán)路,對(duì)于新站來(lái)講,經(jīng)過(guò)幾輪抓取后,基本可以把整個(gè)頁(yè)面抓取完,之后就是抓取首頁(yè)和老頁(yè)面發(fā)現(xiàn)增量?jī)?nèi)容,保證新資源可以收錄進(jìn)來(lái)。
我們舉個(gè)例子:
比如站點(diǎn)A,超鏈接有www.test.com/1.html、www.test.com/2.html、www.test.com/3.html..
那么第一次抓取鏈接是1.html,那么2.html、3.html...就屬于后鏈,第二次抓取鏈接就從2、3、4..等抓取,直到抓完整個(gè)超文本鏈接。
二、蜘蛛抓取對(duì)URL有何規(guī)范?
url相當(dāng)于網(wǎng)站的門牌號(hào),所以百度官方介紹的url其實(shí)只有兩點(diǎn):主流、簡(jiǎn)單。我們可以拿實(shí)際例子做說(shuō)明:
例:www.test.com/zhishi/1.html
例:www.test.com/chengyu/seo_123.html
實(shí)際工作中,有不少?gòu)臉I(yè)者在對(duì)url進(jìn)行處理時(shí),認(rèn)為html前綴是隨機(jī)就可以吸引蜘蛛抓取,其實(shí)這個(gè)觀點(diǎn)是錯(cuò)誤的,官方并沒(méi)有說(shuō)html前綴是英文要比id更有優(yōu)勢(shì),但在url設(shè)計(jì)中,更傾向于目錄結(jié)構(gòu)的有利于蜘蛛抓取。所以建議大家在做URL的時(shí)候,保持URL規(guī)范性、簡(jiǎn)單性。
三、如何設(shè)計(jì)網(wǎng)站布局有利蜘蛛抓?。?/strong>
其實(shí)大部分站點(diǎn)在設(shè)計(jì)初期都對(duì)蜘蛛不友好,也就是說(shuō),很多開(kāi)發(fā)者在選擇模板的時(shí)候,并沒(méi)有考慮到模板的層級(jí)結(jié)構(gòu),常規(guī)的層級(jí)結(jié)構(gòu)是這樣的:
所以盡量選擇模板的時(shí)候,依照這個(gè)布局選擇模板或更改為這個(gè)層級(jí)結(jié)構(gòu),另外頁(yè)面布局隨機(jī)url,是有利于蜘蛛爬取的,這個(gè)已經(jīng)在多個(gè)站點(diǎn)測(cè)試有效。
四、抓取頻次與什么有關(guān)系?
事實(shí)上我之前也因?yàn)檫@個(gè)問(wèn)題咨詢過(guò)百度,百度給的結(jié)果是抓取頻次和頁(yè)面質(zhì)量和用戶需求有關(guān)系,而這次百度開(kāi)發(fā)工程師直接說(shuō)了抓取跟內(nèi)容質(zhì)量有關(guān)系,另外還提到了一點(diǎn),新站如果內(nèi)容質(zhì)量高,經(jīng)過(guò)一段時(shí)間,抓取會(huì)有提升,而老站則是通過(guò)更新頻率提升抓取頻次,換句話說(shuō),以前行業(yè)內(nèi)提到的新站上線的時(shí)候,發(fā)布一些原創(chuàng)內(nèi)容,然后過(guò)一個(gè)階段后,定時(shí)定量采集內(nèi)容也可以提升抓取頻次,這樣做是有道理的。
所以,你應(yīng)該搞明白了一點(diǎn),想提升抓取頻次,就好好整內(nèi)容吧,過(guò)一個(gè)階段后(1個(gè)月后)可以定時(shí)定量更新內(nèi)容了。
最后,想談?wù)勱P(guān)于做新站的時(shí)候遇到的一些問(wèn)題,很多人做新站的時(shí)候,認(rèn)為老域名比新域名有優(yōu)勢(shì),其實(shí)這是個(gè)誤區(qū),在初期可能有效果,但長(zhǎng)久來(lái)看,老域名跟新域名的機(jī)會(huì)是平等的。另外我之前說(shuō)的,現(xiàn)在百度對(duì)新站判斷是基于ICP備案數(shù)據(jù),事實(shí)上這個(gè)數(shù)據(jù)很好拿到,這點(diǎn)已經(jīng)被百度實(shí)錘了,百度判斷新站的時(shí)候,就考察的是站內(nèi)容和ICP備案數(shù)據(jù),那么做新站的開(kāi)發(fā)者可以開(kāi)心一波了,事實(shí)上百度對(duì)新站是有扶持的,這個(gè)扶持不確定是流量扶持還是抓取頻次的扶持,但有扶持是百度確認(rèn)的。(為什么我覺(jué)得新站也還是不容易起來(lái)?)
另外,關(guān)于域名領(lǐng)域的問(wèn)題,比如這個(gè)域名領(lǐng)域是科技,后期改版成娛樂(lè)內(nèi)容,事實(shí)上,百度會(huì)懲罰站點(diǎn)的,還不如來(lái)個(gè)新域名效果來(lái)的快。
以上內(nèi)容全部來(lái)源于最新一期站長(zhǎng)資源平臺(tái)直播內(nèi)容分析結(jié)果,如不認(rèn)同其中內(nèi)容,歡迎看完直播回放后深度交流,我們歡迎百花齊放,百家爭(zhēng)鳴。