Nobyembre 17, 2009 2 Comments

Robots.txt SEO techniques

http://markbeljaars.com/wp-content/plugins/sociofluid/images/digg_48.png http://markbeljaars.com/wp-content/plugins/sociofluid/images/reddit_48.png http://markbeljaars.com/wp-content/plugins/sociofluid/images/stumbleupon_48.png http://markbeljaars.com/wp-content/plugins/sociofluid/images/delicious_48.png http://markbeljaars.com/wp-content/plugins/sociofluid/images/furl_48.png http://markbeljaars.com/wp-content/plugins/sociofluid/images/technorati_48.png http://markbeljaars.com/wp-content/plugins/sociofluid/images/facebook_48.png http://markbeljaars.com/wp-content/plugins/sociofluid/images/yahoobuzz_48.png http://markbeljaars.com/wp-content/plugins/sociofluid/images/mixx_48.png http://markbeljaars.com/wp-content/plugins/sociofluid/images/twitter_48.png

Ang post na ito ay isang mahaba ngunit mahalagang isa. Inirerekomenda ko sa inyo mang-agaw ng isang tasa ng mainit na tsokolate bago ang iyong simulan :)

Kung hindi mo narinig ng robots.txt file, ito ay lamang ng isang maliit na file na matatagpuan sa iyong website root directory na instructs mga search engine sa kung ano ang maaaring sila at hindi maaaring gawin. Kahit na hindi mahigpit na ipapatupad, search engine bots ay karaniwang paggalang sa mga patakaran-set sa pasulong na ang robots.txt file. Sa pamamagitan ng isang maayos na isinaayos robots.txt file na maaari mong, halimbawa, pagtatangka na palayasin bots spam, sabihin ng google ay hindi sa index ng iyong mga imahe o magturo bots upang laktawan ang mga pahina na maaaring maglaman ng mga dobleng nilalaman.

Bots ay mga piraso ng software na ginagamit ng mga kumpanya ng search engine, ang mga spammer at nilalaman accumulators sa crawl ang internet upang makahanap ng mga bagong o mga binagong nilalaman. Ang isang trabaho bot ay upang sundin ang mga link sa isang website sa paggapang mula sa pahina sa mga pahina at site sa site. Ito ay uri ng tulad ng isang Six Degrees ng Kevin Bacon bagay. Sundin ang link na sapat at dapat mong huli mahanap ang lahat ng nilalaman sa net. Ito ay kung bakit mga backlink ay kaya mahalaga. Ang mas maraming mga backlink mo, mas madali ito ay para sa mga search engine upang mahanap ang iyong nilalaman. May mga literal milyon-milyong mga pangyayari bot trawling ang net sa kahit anong oras. Ang opisyal na kataga para sa isang bot ay isang user-ahente ng kung saan may mga libo-libo. Nagbibigay-daan sa kumuha ang Google para sa halimbawa. Google ay may maraming iba't-ibang user-ahente na ginamit sa index ng iyong site, kunin ng mga imahe at mga video, hanapin ang mga balita feed, hanapin ang mga mobile na telepono nilalaman, suriin ang iyong site para sa kalidad ng Adsense at iba pa. Ang site na detalye sa isang kumpletong listahan ng mga kilalang user-ahente.

Ang robots.txt na file ay na-paligid para sa edad. ay talagang Ito ipinakilala sa pamamagitan ng AltaVista sa 1994, ngunit ngayon ay nananatiling isang sangkap na hilaw pagkain para sa spiders web. Para sa isang kumpletong paglalarawan ng mga file at ang kanyang standard notasyon, bisitahin ang dito . Sa maikli, ang isang robots.txt file ay maaaring rendahan ang mga tiyak na bots mula sa crawling ang iyong buong site o bahagi nito. Upang gawin ito, ang lahat ng mga bots ay may isang espesyal na lagda. Halimbawa, ang indeks ng Google bot ay tinatawag na Googlebot, Bing's bot ay tinatawag na MSNbot, at Yahoo's bot ay tinatawag na Yahoo! Slurp.

Ang isang entry sa file na robots.txt ay maaaring magmukhang ito:

User-Agent: Yahoo! Slurp
Allow: /public*/
Disallow: /*_print*.html

Narito kami ay sinasabi ng ahente Slurp user na ito ay maaaring ma-access ang lahat ng mga pahina na nakalagay sa anumang direktoryo na nagsisimula sa "pampublikong", at walang access sa mga pahina na may "_print" sa URI.

Nasa ibaba ang isang kumpletong file na robots.txt para sa isa sa aking mga experimental sites WordPress (I'll post ang isang artikulo na nagpapaliwanag kung ano ang ibig sabihin ako sa pamamagitan ng experimental site ng ibang araw). Matalino mga mambabasa ay maaaring tandaan na ako ay disallowing lahat ng mga ahente ng gumagamit mula sa mga tiyak na direktoryo, at lamang na nagpapahintulot sa ilang tiyak na ma-access ang mga ahente ng gumagamit upang ang natitirang bahagi ng aking site. Ang isang kamakailan-lamang na i-update sa mga pamantayan ay nagbibigay-daan din ako sa listahan ng mga lokasyon ng aking site mapa upang matulungan ang mga search engine mahanap ang lahat ng aking mga pahina.

User-agent: *
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content
Disallow: /search/*/feed
Disallow: /search/*/*

User-agent: Mediapartners-Google
Allow: /

User-agent: Adsbot-Google
Allow: /

User-agent: Googlebot-Image
Allow: /

User-agent: Googlebot-Mobile
Allow: /

User-agent: Mediapartners-Google
Allow: /

User-agent: Adsbot-Google
Allow: /

User-agent: Googlebot-Image
Allow: /

User-agent: Googlebot-Mobile
Allow: /

Sitemap: http://beginnerchess.org/sitemap.xml

Disallowing bots mula sa pag-access sa nilalaman ay hindi inilaan para sa paggamit ay siguraduhin na ang iyong site ay mananatiling keyword optimized sa lahat ng pahina, kaya pagtulong sa itaguyod ang iyong site sa loob ng ranggo sa search engine. Say halimbawa ikaw ay nagtrabaho nang husto sa pag-optimize ng lahat ng mga pahina para sa keyword na "timbang makakuha ng" at ang iba't-ibang haba krus. Ang iyong trabaho ay maaaring nasala down sa mata ng mga search engine na kung ito ay ma-crawl ang iyong pahina sa pag-login, sa pagkapribado na pahina at makipag-ugnayan sa form.

Ang ilang mga SEO eksperto din magtaltalan na ang Google punishes kabataan website sa pabor ng mas matanda pa itinatag na sites. Google tila ay gumagamit ng Internet Archive (matatagpuan dito ) upang matukoy ang edad ng isang site. Kung hindi ito maaari hanapin ang site sa archive, ito tila Ipinapalagay ng site ay isang tiyak na edad. Para sa mga kadahilanang ito, maraming mga tao ay aktibong itigil ang user Internet Archive-ahente mula sa index ang kanilang mga site. Ito ay maaaring gawin sa pamamagitan ng kasama ang mga sumusunod na linya:

User-agent: ia_archiver-web.archive.org
Disallow: /

Baka gusto mong ihinto din bots imahe mula sa access ng iyong mga larawan kung sila ay may mga imahe hiniram non-stock mula sa iba pang mga site. Ito ay maaaring gawin gaya ito:

User-agent: Googlebot-Image
Allow: /

Sa wakas, robots.txt ay maaaring gamitin upang ibukod ang mga bots mula sa mga mismong mga pahina na maaaring gamitin upang ipakita ang nilalaman na maaaring hindi magagamit sa iba pang mga site o mga pahina. madalas Ito ay argued na ang Google ay parusahan ang iyong mga rating para sa pagpapakita ng mga dobleng nilalaman. Ako personal na hindi makita ito bilang isang malaking isyu at naniniwala na ang dobleng nilalaman ay maaari talagang tulong rating ng iyong site sa ilang mga pagkakataon (ang nalalaman tungkol sa ito sa ibang araw). Anyway, na huminto sa isang bot-access mula sa isang tiyak na pahina, idagdag ang sumusunod na linya:

User-agent: *
Disallow: */my-duplicate-page.html

Tandaan na ito ay hindi isang siguradong paraan. Kung ang iyong pahina ng hindi pinayagan ay may mga link sa mga ito mula sa iba pang site, ito ay pa rin ma-crawl sa pamamagitan ng mga bots.

kaya kong panatilihin ang pagpunta, ngunit ako na ang lahat ng sa iyo ay naiinip sa pamamagitan ng ngayon. Huwag mag-atubili na puna sa ibaba o makipag-ugnayan sa akin nang direkta kung nais mong malaman ang nalalaman.

Happy roboting.

Related Posts

2 sagot sa "robots.txt SEO techniques"

  1. Bernier Nobyembre 29, 2009 at 03:19 #

    Hi diyan,
    markbeljaars.com sa GoogleReader!
    Salamat
    Bernier


Trackbacks / Pingbacks.

  1. Robots.txt SEO techniques - MarkBeljaars.com WP Air - 17. Nobyembre, 2009

    [...] Tingnan ang orihinal na post: robots.txt SEO techniques - MarkBeljaars.com [...]

Iwanang isang Sumagot