robots.txt的搜索引擎優化技術
這是一篇很長,但重要的一個。 我建議你搶一杯熱巧克力,你開始之前 ![]()
如果你還沒有聽說過的 robots.txt文件,它只是一個小文件,位於您網站的根目錄,指示搜索引擎,他們可以什麼和不能做什麼。 雖然沒有嚴格執行,一般會尊重搜索引擎機器人在robots.txt文件中提出的規則。 例如,有了一個正確配置的robots.txt文件,可以抵禦垃圾郵件機器人的企圖,告訴Google不要索引你的圖像或指示機器人跳過頁面可能包含重複的內容。
機器人是由搜索引擎公司,垃圾郵件和內容蓄電池用來抓取互聯網找到新的或修改的內容軟件件。 機器人的工作,是按照網站上爬行,從頁面和站點到站點的鏈接。 這是一種像六學位凱文·培根的事情。 按照足夠的鏈接,並最終你應該找到所有的淨含量。 這是為什麼反向是如此重要。 你有越多的反向鏈接,就越容易找到你的內容對於搜索引擎。 從字面上有BOT實例拖網網,在任何一個時間的數百萬。 BOT官方術語是其中有成千上萬的用戶代理 。 讓我們採取例如谷歌。 谷歌有許多不同的使用索引你的網站用戶代理,提取圖像和視頻,找到新聞提要,發現手機的內容,廣告質量檢查您的網站等。 該網站詳細介紹了被稱為用戶代理的完整列表。
robots.txt文件中已經出現了年齡。 它實際上是由AltaVista的推出在1994年,但現在仍然是一個網絡蜘蛛的主食。 有關的文件和標準符號的完整描述,請訪問這裡 。 總之,robots.txt文件可以限制特定的機器人爬行你的整個網站或部分。 要做到這一點,所有的機器人有一個特殊的簽名。 例如,谷歌的索引機器人被稱為Googlebot,冰的機器人被稱為MSNBot會,雅虎的BOT被稱為雅虎思樂普。
在robots.txt文件中的一個條目可能看起來像這樣:
User-Agent: Yahoo! Slurp
Allow: /public*/
Disallow: /*_print*.html
在這裡,我們告訴思樂普的用戶代理,它可以訪問任何與“公共”的起始目錄中的所有網頁,並沒有訪問頁面的URI“_print”。
下面是一個完整的robots.txt文件我實驗的WordPress網站(我會發表一篇文章,解釋我試驗場意味著另一天)。 細心的讀者可能會注意到,我不允許從特定目錄中的所有用戶代理,並只允許一些特定的用戶代理訪問我的網站其餘地區。 最近更新的標準,也讓我列出我的站點地圖的位置,以幫助搜索引擎找到我的所有網頁。
User-agent: *
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content
Disallow: /search/*/feed
Disallow: /search/*/*
User-agent: Mediapartners-Google
Allow: /
User-agent: Adsbot-Google
Allow: /
User-agent: Googlebot-Image
Allow: /
User-agent: Googlebot-Mobile
Allow: /
User-agent: Mediapartners-Google
Allow: /
User-agent: Adsbot-Google
Allow: /
User-agent: Googlebot-Image
Allow: /
User-agent: Googlebot-Mobile
Allow: /
Sitemap: http://beginnerchess.org/sitemap.xml
不允許訪問的內容不打算用於消費的機器人,將確保您的網站將保留所有網頁上優化的關鍵字,從而促進您的網站在搜索引擎中的排名。 說比如你一直在所有網頁優化關鍵字“體重增加”和各種長尾巴硬。 你的工作可能會被過濾的搜索引擎的眼睛,如果它能夠抓取您的登錄頁面,隱私頁面和聯繫方式。
一些SEO專家也認為,谷歌懲罰年輕的網站,有利於老年人建立網站。 谷歌顯然使用互聯網檔案館(發現這裡 )來判斷一個網站的年齡。 如果它不能找到歸檔的站點,它顯然是假定該網站是某一年齡。 出於這個原因,許多人積極阻止其網站索引互聯網檔案館的用戶代理。 這可以包括以下幾行:
User-agent: ia_archiver-web.archive.org
Disallow: /
你可能想也停止訪問您的照片,如果他們借用其他網站的非圖像的圖像機器人。 這是可以做到像這樣:
User-agent: Googlebot-Image
Allow: /
最後,robots.txt的,可以用來排除特定網頁的機器人,可用於顯示其他網站或網頁上提供的內容可能。 它經常被認為谷歌會懲罰你的評分顯示重複的內容。 我個人沒有看到作為一個大問題,這一點,相信重複的內容,實際上可以幫助您的網站在某些情況下(另一天)的評級。 無論如何,以阻止訪問特定頁面的BOT,添加以下幾行:
User-agent: *
Disallow: */my-duplicate-page.html
請注意,這是不是一個傻瓜證明方法。 如果你不允許它從另一個網站的鏈接,它仍然會被機器人抓取。
我可以繼續下去,但我敢肯定,你現在都無聊。 歡迎在下面的評論,或直接與我聯繫,如果您想了解更多。
快樂roboting。



















