Techniques SEO Robots.txt
Ce post est long, mais important. Je vous recommande de prendre une tasse de chocolat chaud avant votre départ ![]()
Si vous n'avez pas entendu parler du fichier robots.txt, il est tout simplement un petit fichier situé dans votre répertoire racine du site qui indique les moteurs de recherche sur ce qu'ils peuvent et ne peuvent pas faire. Bien que n'étant pas strictement appliquées, les robots des moteurs de recherche seront généralement de respecter les règles mises de l'avant dans le fichier robots.txt. Avec un fichier robots.txt fichier correctement configuré, vous pouvez, par exemple, tenter de repousser les robots collecteurs de mails, d'indiquer à Google de ne pas indexer vos images ou charger les robots collecteurs de sauter des pages que peut contenir un contenu en double.
Les bots sont des morceaux de logiciels utilisés par les moteurs de recherche, les spammeurs et les accumulateurs au robot d'exploration d'Internet pour trouver des contenus nouveaux ou modifiés. Le travail d'un bot est de suivre les liens sur un site Web rampant de page en page et site à site. C'est un peu comme un Six Degrees of Kevin Bacon chose. Suivre les liens assez et vous devriez trouver finalement tout le contenu sur le net. C'est pourquoi backlinks sont si importants. Les backlinks plus vous avez, plus il est facile pour les moteurs de recherche pour trouver votre contenu. Il ya littéralement des millions de cas bot chalutage le net à un moment donné. Le terme officiel pour un bot est un agent utilisateur dont il existe des milliers. Prenons par exemple Google. Google a beaucoup de différents agents utilisateurs utilisé pour indexer votre site, extraire des images et des vidéos, de trouver de nouvelles RSS, de trouver du contenu mobile, vérifiez la qualité de votre site pour Adsense et ainsi de suite. Ce site d'informations une liste complète des user-agents connus.
Le fichier robots.txt a été autour depuis des siècles. Il a été effectivement mis en place par AltaVista en 1994, mais il reste aujourd'hui un aliment de base pour araignées. Pour une description complète du fichier et sa notation standard, reportez-vous ici . En bref, un fichier robots.txt permet de limiter les robots collecteurs spécifiques de l'exploration de votre site tout ou partie de celle-ci. Pour ce faire, tous les robots ont une signature particulière. Par exemple, l'index de Google bot est appelé Googlebot, bot Bing est appelé MSNbot et bot de Yahoo est appelé Yahoo! Slurp.
Une entrée dans le fichier robots.txt peut ressembler à ceci:
User-Agent: Yahoo! Slurp
Allow: /public*/
Disallow: /*_print*.html
Ici, nous disons à l'agent utilisateur Slurp qu'il peut accéder à toutes les pages situées dans n'importe quel répertoire commençant par "public", et n'ont pas accès aux pages contenant "_print" dans l'URI.
Ci-dessous est un fichier robots.txt complète pour un de mes sites WordPress expérimental (je posterai un article expliquant ce que je veux dire par site expérimental un autre jour). Les lecteurs astucieux peut noter que je suis rejeter la totalité des agents utilisateurs à partir des répertoires spécifiques, et de n'autoriser que certains agents spécifiques d'accès utilisateur à des zones restantes de mon site. Une mise à jour récente de la norme me permet aussi à la liste de l'emplacement de ma carte du site pour les moteurs de recherche à trouver toutes mes pages.
User-agent: *
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content
Disallow: /search/*/feed
Disallow: /search/*/*
User-agent: Mediapartners-Google
Allow: /
User-agent: Adsbot-Google
Allow: /
User-agent: Googlebot-Image
Allow: /
User-agent: Googlebot-Mobile
Allow: /
User-agent: Mediapartners-Google
Allow: /
User-agent: Adsbot-Google
Allow: /
User-agent: Googlebot-Image
Allow: /
User-agent: Googlebot-Mobile
Allow: /
Sitemap: http://beginnerchess.org/sitemap.xml
Interdire les robots collecteurs d'accéder au contenu non destinés à la consommation en sorte que votre site restera mot clé optimisé sur toutes les pages, contribuant ainsi à la promotion de votre site dans les moteurs de recherche. Supposons par exemple que vous avez travaillé dur pour optimiser toutes les pages pour le mot clé le gain de poids »et les queues différentes long. Votre travail peut être filtré par les yeux du moteur de recherche si elle a été en mesure d'explorer votre page de connexion, la page la vie privée et le formulaire de contact.
Certains experts SEO font également valoir que Google punit sites Web des jeunes en faveur des personnes âgées sites les plus établies. Google utilise apparemment l'Internet Archive (qui se trouve ici ) afin de déterminer l'âge d'un site. Si elle ne trouve pas le site dans les archives, il assume apparemment le site est d'un certain âge. Pour cette raison, de nombreuses personnes activement arrêter l'utilisateur d'Internet Archive-agent de l'indexation de leur site. Cela peut être fait en incluant les lignes suivantes:
User-agent: ia_archiver-web.archive.org
Disallow: /
Vous pouvez également arrêter les robots collecteurs de l'image d'accéder à vos photos si elles ont emprunté des images non-stock à partir d'autres sites. Cela peut être fait comme ceci:
User-agent: Googlebot-Image
Allow: /
Enfin, robots.txt peut être utilisé pour exclure les robots collecteurs de pages spécifiques qui peuvent être utilisés pour afficher du contenu qui peut être disponible sur d'autres sites ou pages. Il est souvent avancé que Google punir votre avis pour afficher un contenu en double. Personnellement, je ne vois pas cela comme un gros problème et je crois que reproduire le contenu peut réellement aider classement de votre site dans certains cas (plus un autre jour). Quoi qu'il en soit, pour arrêter un bot d'accéder à une page spécifique, ajoutez les lignes suivantes:
User-agent: *
Disallow: */my-duplicate-page.html
Notez que ce n'est pas une méthode infaillible. Si votre page a refusé des liens depuis un autre site, il sera encore exploré par les bots.
Je pourrais continuer, mais je suis sûr que vous êtes tous ennuyé maintenant. N'hésitez pas à commenter ci-dessous ou me contacter directement si vous souhaitez en savoir plus.
roboting Heureux.


















Salut à tous,
markbeljaars.com à Googlereader!
Merci
Bernier