Técnicas de SEO robots.txt
Este post é longo, pero importante. Eu recomendo que tome unha cunca de chocolate quente antes do seu inicio ![]()
Se aínda non escoitou o arquivo robots.txt, é simplemente un pequeno ficheiro situado no directorio raíz do sitio que instrúe os motores de busca sobre o que pode eo que non pode facer. Aínda que non sexa estrictamente cumprida, buscador robots xeralmente respectar as regras establecidas para a fronte no ficheiro robots.txt. Cun arquivo robots.txt correctamente configurado, pode, por exemplo, intento de defender-se contra spam bots, diga google non indexar as súas imaxes ou instruír bots para saltar páxinas que conteñan contido duplicado.
Bots son anacos de software empregados por empresas de motores de busca, os spammers e acumuladores contido para rastrexar a Internet para atopar contido novo ou modificado. O traballo dun bot é para seguir as ligazóns nun sitio web de rastreamento de páxina para páxina e sitio para web. É como unha especie de Six Degrees of Kevin Bacon cousa. Estes son os links suficientes e ten que, finalmente, atopar todo o contido na rede. É por iso que backlinks son tan importantes. Os backlinks máis ten, máis fácil é para os motores de busca para atopar o seu contido. Existen literalmente millóns de casos de bot arrastre da rede en calquera momento. O prazo oficial para un bot é un axente de usuario de que hai miles de persoas. Imos dar Google por exemplo. Google ten moitos diferentes axentes utilizados polo usuario para o sitio web indexar o seu, extraer imaxes e vídeos, atopar fontes novas e atopar contido para o móbil, comprobar o seu sitio web para a calidade do AdSense e así por diante. Este lugar detalla unha lista completa de coñecidos usuario-axentes.
O arquivo robots.txt ten sido en torno de idades. De feito, foi introducida polo AltaVista , en 1994, pero agora segue a ser un alimento básico para arañas. Para unha descrición completa do ficheiro ea súa notación estándar, visite aquí . En suma, un arquivo robots.txt pode restrinxir bots específicas de indexación do seu sitio web completo ou parte. Para iso, todos os robots ten unha sinatura especial. Por exemplo, bot de Google índice se chama de Google, Bing bot chámase MSNbot e Yahoo bot chámase Slurp Yahoo!.
Unha entrada no ficheiro robots.txt pode ser coma este:
User-Agent: Yahoo! Slurp
Allow: /public*/
Disallow: /*_print*.html
Aquí estamos dicindo o axente de usuario Slurp que pode acceder a todas as páxinas localizadas en calquera directorio con "público", e non ten acceso ás páxinas de "_print" na URI.
Abaixo está un arquivo robots.txt completa para un dos meus sitios experimentais WordPress (vou publicar un artigo explicando o que quero dicir con web experimental outro día). Lectores astutos poden notar que estou prohibindo todos os axentes de usuário a partir de directorios específicos, e só permitindo que algúns axentes de usuario específico acceso ás restantes áreas do meu sitio. Unha actualización recente a norma tamén me permite incluír a localización do meu mapa do sitio web para axudar os motores de busca atopar todas as miñas páxinas.
User-agent: *
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content
Disallow: /search/*/feed
Disallow: /search/*/*
User-agent: Mediapartners-Google
Allow: /
User-agent: Adsbot-Google
Allow: /
User-agent: Googlebot-Image
Allow: /
User-agent: Googlebot-Mobile
Allow: /
User-agent: Mediapartners-Google
Allow: /
User-agent: Adsbot-Google
Allow: /
User-agent: Googlebot-Image
Allow: /
User-agent: Googlebot-Mobile
Allow: /
Sitemap: http://beginnerchess.org/sitemap.xml
Impedindo bots acceder o contido non destinados ao consumo vai garantir que o seu sitio permanecerá contrasinal óptimo en todas as páxinas, contribuíndo así a promover o seu sitio nos motores de busca. Digamos, por exemplo, ten a traballar duro para a optimización de todas as páxinas para o "aumento de peso" palabra clave e as colas varios longas. O seu traballo pode ser filtrada nos ollos do motor de procura se foi capaz de rastrexar a súa páxina de usuario, a páxina de Privacidade e formulario de contacto.
Algúns especialistas en SEO tamén argumentan que Google castiga sitios novos en favor dos máis antigos sitios máis establecidos. Google aparentemente usa a Internet Archive (atopado aquí ) para determinar a idade de un sitio web. Se non pode atopar o sitio web no arquivo morto, aparentemente asume o sitio é dunha certa idade. Por esta razón, moitas persoas activamente deter o Internet Archive user-agent de indexar o seu sitio. Isto pódese facer por incluíndo as seguintes liñas:
User-agent: ia_archiver-web.archive.org
Disallow: /
Tamén pode querer deixar de bots imaxe de acceder as súas imaxes se ter prestado sen imaxes de outros sitios. Isto pódese facer así:
User-agent: Googlebot-Image
Allow: /
Finalmente, robots.txt pode ser usada para eliminar bots de páxinas específicas que poden ser utilizados para amosar o contido que poden estar dispoñibles en outros sitios ou páxinas. Adóitase argumentar que Google vai castigar os seus ratings para a visualización de contido duplicado. Eu persoalmente non vexo iso como un gran problema e crer que o contido duplicado realmente pode axudar a clasificación do seu sitio web nalgúns casos (máis sobre isto outro día). En fin, para deixar un bot de acceder a unha páxina específica, engade as seguintes liñas:
User-agent: *
Disallow: */my-duplicate-page.html
Teña en conta que este non é un método infalible. Se a súa páxina permitiu con el outro sitio, aínda vai ser Rastrexar polos robots.
Podería seguir, pero estou seguro que todos vostedes están entediados ata agora. Sinto-se libre para comentar a continuación ou póñase en contacto directamente comigo se quere saber máis.
Roboting feliz.



















