robots.txtのSEOテクニック
このポストは長いが、重要な一つです。 私はあなたの開始前にホットチョコレートのカップをつかむお勧めします ![]()
あなたがrobots.txtファイルのことを聞いていない場合、それは単に彼らができることとできないことで、検索エンジンに指示しますあなたのウェブサイトのルートディレクトリにある小さなファイルです。 厳密に施行されていませんが、検索エンジンのボットは、一般的にrobots.txtファイルで前方に設定したルールを尊重します。 適切に構成されたrobots.txtファイルを使用すると、たとえば、スパムボットをかわすための試みは、Googleがインデックスしない画像をに教えたり、ボットが重複したコンテンツを含めることができますページをスキップするように指示することができます。
ボットは、新規または変更されたコンテンツを見つけるためにインターネットをクロールする検索エンジンの会社、スパマーやコンテンツアキュムレータで使用されるソフトウェアの一部です。 ボットの仕事は、ページからページやサイトへのサイトにクロールのウェブサイトにリンクをたどることである。 それはケヴィン·ベーコンの事Six Degreesはのような種類のです。 十分なリンクをたどって、あなたは最終的にネット上のすべてのコンテンツを見つける必要があります。 バックリンクが非常に重要な理由です。 あなたが持っている多くのバックリンクは、簡単にそれはあなたのコンテンツを見つけるために検索エンジンのためのものです。 任意の一時点でネットをトローリングボットのインスタンス数百万の文字通りあります。 ボットのための公式の用語は、何千人も存在しているのUser-Agentです。 例えば、Googleを取ることができます。 Googleがインデックスをあなたのサイトに使用される多くの異なったユーザエージェントを持っているので、上に、画像や動画を抽出するニュースフィードを見つけて、携帯電話のコンテンツを検索する、Adsenseの品質をあなたのサイトをチェックします。 このサイトでは、詳細を知られているユーザエージェントの完全なリストを。
robots.txtファイルは、年齢のために行ってきた。 それが実際に紹介されましたAltaVistaの 1994年が、今のWebスパイダーのために主食のままです。 ファイルとその標準表記法の詳細については、訪問ここに 。 要するに、robots.txtファイルは、サイト全体または一部のそのをクロールから特定のボットを制限することができます。 これを行うには、すべてのボットは、特別な署名を持っています。 たとえば、GoogleのインデックスボットはGooglebotが呼び出されると、BingのボットはMSNbotと呼ばれ、YahooのボットはYahoo!読まと呼ばれています。
Robots.txtファイルのエントリは次のようになります。
User-Agent: Yahoo! Slurp
Allow: /public*/
Disallow: /*_print*.html
ここではそれが "公共"で始まる任意のディレクトリにあるすべてのページにアクセスし、URIに "_print"を持つページへのアクセス権を持たないことを吸い込みユーザエージェントに指示しています。
以下の私の実験のWordPressサイト(私は別の日に実験的なサイトが何を意味するのかを説明する記事を投稿します)のいずれかの完全なrobots.txtファイルです。 賢明な読者は、私は特定のディレクトリからすべてのユーザエージェントを許可しない、唯一のいくつかの特定のユーザーエージェントは、私のサイトの残りの領域へのアクセスを許可していことに気づくかもしれません。 標準への最近のアップデートでは、私は検索エンジンが私のすべてのページを見つけるために私のサイトマップの場所を一覧表示することができます。
User-agent: *
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content
Disallow: /search/*/feed
Disallow: /search/*/*
User-agent: Mediapartners-Google
Allow: /
User-agent: Adsbot-Google
Allow: /
User-agent: Googlebot-Image
Allow: /
User-agent: Googlebot-Mobile
Allow: /
User-agent: Mediapartners-Google
Allow: /
User-agent: Adsbot-Google
Allow: /
User-agent: Googlebot-Image
Allow: /
User-agent: Googlebot-Mobile
Allow: /
Sitemap: http://beginnerchess.org/sitemap.xml
消費するためのものではありませコンテンツへのアクセスをボットを禁止すると、あなたのサイトはこのように検索エンジンのランキングの中であなたのサイトを促進する助け、すべてのページに最適化されたキーワード残ることが保証されます。 例えば、あなたがキーワード "体重増加"と様々な長い尾のためにすべてのページを最適化することで懸命に働いたと言います。 それはあなたのログインページ、プライバシーページと問い合わせフォームをクロールすることができたならば、あなたの仕事は、検索エンジンの目にはダウンしてフィルタリングすることができます。
いくつかのSEOの専門家はまた、Googleは、古いより確立されたサイトの賛成で若いサイトを罰すると主張している。 Googleはどうやらインターネットアーカイブ(見つから使用ここにサイトの年齢を決定する)。 それは、アーカイブ内のサイトを見つけることができない場合、それは明らかにサイトが一定の年齢であると仮定します。 このような理由から、多くの人々が積極的に自分のサイトをインデックスからインターネットアーカイブのユーザーエージェントを停止します。 これは、次の行を含めることによって行うことができます。
User-agent: ia_archiver-web.archive.org
Disallow: /
また、彼らは他のサイトから非ストック画像を借用している場合はあなたの映像にアクセスしてからイメージボットを停止することができます。 これは次のように行うことができます。
User-agent: Googlebot-Image
Allow: /
最終的には、robots.txtは、他のサイトやページ上で利用可能なコンテンツを表示するために使用することができ、特定のページからボットを除外するために使用することができます。 それはしばしば、Googleが重複したコンテンツを表示するためのあなたの評価を罰することを主張されています。 私は個人的に大きな問題としてこれを見て、重複したコンテンツは、実際にいくつかのインスタンス(この別の日についての詳細)にサイトの評価を助けることができると信じていません。 とにかく、特定のページにアクセスするボットを停止するには、次の行を追加します。
User-agent: *
Disallow: */my-duplicate-page.html
これは、フールプルーフの方法ではありませんので注意してください。 あなたの許可されないページが別のサイトからそれへのリンクを持つ場合でも、ボットにクロールされます。
私は続けるかもしれませんが、私はあなたがすべて、今では退屈していると確信しています。 以下のコメントまたは詳細をお知りになりたい場合は、直接私に連絡して自由に感じる。
roboting満足しています。



















