Teknika robots.txt SEO
Ky post është e gjatë, por të rëndësishme. Unë rekomandoj që ju kap një filxhan çokollatë të nxehtë para se të fillojë tuaj ![]()
Nëse ju nuk keni dëgjuar për skedar robots.txt, ajo është thjesht një fotografi e vogël e vendosur në faqen e internetit root directory tuaj që udhëzon motorë kërkimi për atë që ata mund dhe nuk mund të bëjë. Edhe pse nuk zbatohet në mënyrë rigoroze, bots search engine në përgjithësi do të respektojnë rregullat e vendosura përpara në dosjen robots.txt. Me një robots.txt si duhet konfiguruar kartelën që mund, për shembull, përpjekje për të shmangur spam bots, them nuk google me index imazhet tuaja ose udhëzon bots të kaloni faqet që mund të përmbajnë kopjuar përmbajtjen.
Bots janë pjesë e programeve të përdorura nga kompanitë search engine, spammers dhe akumulatorët përmbajtje të zvarritem në internet për të gjetur përmbajtje të re ose të modifikuar. punë Një bot është të ndiqni lidhjet në një faqe interneti zvarritje nga faqja në faqe dhe në faqen site. Kjo është lloj i si një Gjashtë Diplomat e Kevin Bacon gjë. Ndiqni lidhje të mjaftueshme dhe ju duhet përfundimisht të gjeni të gjitha përmbajtjet në net. Kjo është arsyeja pse backlinks janë aq të rëndësishme. Backlinks më shumë që keni, aq më lehtë është për motorët e kërkimit për të gjetur përmbajtjen tuaj. Ka fjalë për fjalë miliona raste bot trawling neto në çdo kohë. Termi zyrtar për një bot është një user-agent të cilat ka mijëra. Google lejon të marrë për shembull. Google ka shumë përdorues të ndryshme-agjentë të përdorura për të indeksi faqen tuaj, ekstrakt imazhe dhe video, të gjeni lajmet e ushqen, gjeni përmbajtjen e telefonit celular, shikoni në faqen tuaj për cilësinë Adsense dhe kështu me radhë. Kjo faqe detaje listën e plotë të përdoruesit agjentëve të njohura.
Skedari robots.txt ka qenë rreth moshës. Ajo u fut në fakt nga Altavista në 1994, por tani mbetet një element kryesor për ushqim spiders web. Për një përshkrim të plotë e file dhe standarde simbol të saj, vizitoni ketu . Me pak fjalë, një fotografi robots.txt mund të kufizojnë bots specifike nga zvarritje të tërë faqen tuaj ose pjese të tyre. Për ta bërë këtë, të gjithë bots kanë një firmë të veçantë. Për shembull, bot Google indeks është quajtur Googlebot, bot Bing është quajtur MSNbot, dhe bot Yahoo është quajtur Yahoo! Slurp.
Një hyrje në dosjen robots.txt mund të duket kështu:
User-Agent: Yahoo! Slurp
Allow: /public*/
Disallow: /*_print*.html
Këtu jemi duke u thënë agjenti i përdoruesit Slurp se ajo mund të përdorni të gjitha faqet e vendosur në çdo drejtori duke filluar me "publike", dhe nuk kanë qasje në faqet me "_print" në URI.
Më poshtë është një robots.txt file të plotë për një nga faqet e mia WordPress eksperimentale (unë do të postoj një artikull të shpjeguar se çfarë dua të them me faqen eksperimentale një ditë tjetër). lexuesit i zgjuar mund të vini re se unë jam disallowing të gjithë agjentët e përdoruesit nga directories të veçanta, dhe vetëm duke lejuar disa të veçanta qasje agjentët përdorues në zonat e mbetura të web faqen time. Një update kohëve të fundit për standardin edhe lejon mua tek lista vendin e hartes web faqen time për të ndihmuar Search Engines gjeni të gjitha faqet e mia.
User-agent: *
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content
Disallow: /search/*/feed
Disallow: /search/*/*
User-agent: Mediapartners-Google
Allow: /
User-agent: Adsbot-Google
Allow: /
User-agent: Googlebot-Image
Allow: /
User-agent: Googlebot-Mobile
Allow: /
User-agent: Mediapartners-Google
Allow: /
User-agent: Adsbot-Google
Allow: /
User-agent: Googlebot-Image
Allow: /
User-agent: Googlebot-Mobile
Allow: /
Sitemap: http://beginnerchess.org/sitemap.xml
Disallowing bots nga qasja në përmbajtje nuk ka si qëllim të konsumit do të sigurojë që faqja e juaj do të mbetet fjalen optimizuar në të gjitha faqet, duke ndihmuar promovimin e faqes tuaj në renditjen. Të them për shembull ju keni punuar shumë në të gjitha faqet e optimizuar për fjalen "shtim në peshë" dhe bishtin e ndryshme të gjatë. Puna juaj mund të filtruar poshtë në sytë e motorit të kërkimeve në qoftë se ajo ishte në gjendje të zvarritem faqen tuaj të hyrjes, faqe private dhe formularin e kontaktit.
Disa ekspertë SEO gjithashtu argumentojnë se Google ndëshkon faqet e internetit të rinj në favor të vendeve të vjetra më të themeluar. Google me sa duket përdor Arkivi internet (gjendet këtu ) për të përcaktuar moshën e një vendi. Në qoftë se kjo nuk mund të gjejnë vend në këtë arkiv, ajo me sa duket merr këtë faqe interneti është një moshë të caktuar. Për këtë arsye, shumë njerëz në mënyrë aktive të ndaluar Arkivi përdorues të Internetit agjent-nga Indexing faqen e tyre. Kjo mund të bëhet duke përfshirë linjat e mëposhtme:
User-agent: ia_archiver-web.archive.org
Disallow: /
Ju mund të dëshironi të edhe imazhin e ndaluar bots nga qasja në fotografitë tuaja në qoftë se ata kanë marrë hua jo të aksioneve imazhe nga zona të tjera. Kjo mund të bëhet si kështu:
User-agent: Googlebot-Image
Allow: /
Së fundi, robots.txt mund të përdoret për të përjashtuar bots nga faqet specifike që mund të përdoret për të shfaqur përmbajtjen që mund të jenë në dispozicion në faqe të tjera ose faqe. Shpesh diskutohet se Google do të ndëshkojë ratings tuaj për të shfaqur përmbajtjen e kopjuar. Unë personalisht nuk e shoh këtë si një çështje e madhe dhe besoj se kopjuar përmbajtjen fakt mund të ndihmojë vlerësimin faqen tuaj në disa raste (më shumë për këtë ditë një tjetër). Gjithsesi, për të ndaluar një bot nga qasja në një faqe të veçantë, shtoni linjat e mëposhtme:
User-agent: *
Disallow: */my-duplicate-page.html
Vini re se kjo nuk është një metodë e budalla-provë. Nëse juaj ndaluar faqe ka lidhje me atë nga një faqe tjetër, ajo do të vazhdojë të crawled nga bots.
Unë mund të të mbajë, por unë jam i sigurt që janë të gjitha të mërzitur deri tani. Të ndjehen të lirë për të komentuar më poshtë ose më kontaktojnë direkt nëse doni të dini më shumë.
roboting Gëzuar.


















Hi there,
markbeljaars.com të GoogleReader!
Falënderim
Bernier