Robots.txt एसईओ तकनीक
इस पोस्ट में एक लंबा है, लेकिन महत्वपूर्ण एक है. मैं सुझाव है कि आप अपने शुरू होने से पहले हॉट चॉकलेट की एक कप ले लो ![]()
यदि आप robots.txt फ़ाइल के बारे में नहीं सुना है, यह केवल एक छोटे से अपनी वेबसाइट के रूट निर्देशिका है कि वे क्या करना है और नहीं कर सकते हैं पर खोज इंजन के निर्देश में स्थित फ़ाइल है. हालांकि सख्ती से लागू नहीं है, खोज इंजन bots आम तौर पर आगे robots.txt फ़ाइल में निर्धारित नियमों का सम्मान करेंगे. आप को ठीक से विन्यस्त robots.txt फ़ाइल के साथ, उदाहरण के लिए, स्पैम bots से रोकना करने का प्रयास कर सकते हैं, गूगल सूचकांक करने के लिए अपनी छवियों को नहीं बता सकते हैं या बॉट पृष्ठों है कि डुप्लिकेट सामग्री को शामिल कर सकते हैं छोड़ करने के लिए हिदायत.
Bots इंटरनेट क्रॉल नया या संशोधित सामग्री खोजने के लिए खोज इंजन कंपनियों स्पैमर्स, सामग्री और accumulators के द्वारा प्रयोग किया सॉफ्टवेयर के टुकड़े कर रहे हैं. एक बॉट काम के लिए एक पृष्ठ से पृष्ठ और साइट के लिए साइट पर रेंगने वेबसाइट पर लिंक का अनुसरण है. यह केविन बेकन बात एक छह डिग्री की तरह की तरह है. पर्याप्त लिंक का पालन करें और आप अंततः नेट पर सभी सामग्री का पता लगाना चाहिए. यही कारण है कि पश्च बहुत महत्वपूर्ण हैं. अधिक backlinks आप, यह आसान खोज इंजन के लिए अपनी सामग्री मिल. वहाँ का शाब्दिक हैं बॉट उदाहरण किसी भी एक समय पर नेट से trawling के लाखों. एक bot के लिए सरकारी शब्द एक उपयोगकर्ता - एजेंट जिनमें से वहाँ हजारों हैं है. चलो उदाहरण के लिए गूगल ले. गूगल सूचकांक आपकी साइट के लिए प्रयोग किया जाता है कई अलग अलग उपयोगकर्ता के एजेंट है, चित्र और वीडियो निकालने, समाचार फ़ीड, सामग्री खोजने के मोबाइल फोन, ऐडसेंस गुणवत्ता के लिए अपनी साइट की जांच और इतने पर. इस साइट पर जाना जाता है - उपयोगकर्ता एजेंटों की एक पूरी सूची के विवरण.
robots.txt फ़ाइल के आसपास उम्र के लिए किया गया है. वास्तव में यह किया गया था द्वारा शुरू अल्ताविस्ता 1994 में, लेकिन अब वेब मकड़ियों के लिए एक प्रधान भोजन है. फ़ाइल और उसके मानक अंकन का एक पूर्ण विवरण के लिए, यहाँ पर जाएँ . संक्षेप में, एक robots.txt फ़ाइल अपने पूरे साइट या उसके किसी भाग को रेंगने से विशिष्ट bots के सीमित कर सकते हैं. ऐसा करने के लिए, सभी bots एक विशेष हस्ताक्षर है. उदाहरण के लिए, गूगल के सूचकांक बॉट Googlebot को कहा है, बिंग बॉट MSNbot कहा जाता है, और याहू बॉट याहू Slurp कहा जाता है.
Robots.txt फ़ाइल में एक प्रविष्टि इस तरह लग रहे हो सकता है:
User-Agent: Yahoo! Slurp
Allow: /public*/
Disallow: /*_print*.html
यहाँ हम कह रहे हैं Slurp उपयोगकर्ता एजेंट है कि यह किसी भी "सार्वजनिक" के साथ शुरू निर्देशिका में स्थित सभी पृष्ठों का उपयोग कर सकते हैं, और साथ _print "यूआरआइ में पृष्ठों के लिए पहुँच नहीं है.
नीचे मेरे प्रयोगात्मक से WordPress साइटों (मैं एक समझा क्या मैं एक और दिन प्रयोगात्मक साइट से मतलब लेख पोस्ट करेंगे) के लिए एक पूरा robots.txt फ़ाइल है. चतुर पाठकों नोट हो सकता है कि मैं विशिष्ट निर्देशिका से सभी उपयोगकर्ता एजेंट को अनुमति देने से मना कर रहा हूँ, और केवल कुछ विशिष्ट उपयोगकर्ता एजेंटों मेरी साइट के शेष क्षेत्रों के लिए उपयोग की अनुमति. मानक के लिए एक हाल ही में अद्यतन भी मुझे मेरी साइट मानचित्र के स्थान पर खोज इंजन अपने पृष्ठों के सभी मिल में मदद की सूची के लिए अनुमति देता है.
User-agent: *
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content
Disallow: /search/*/feed
Disallow: /search/*/*
User-agent: Mediapartners-Google
Allow: /
User-agent: Adsbot-Google
Allow: /
User-agent: Googlebot-Image
Allow: /
User-agent: Googlebot-Mobile
Allow: /
User-agent: Mediapartners-Google
Allow: /
User-agent: Adsbot-Google
Allow: /
User-agent: Googlebot-Image
Allow: /
User-agent: Googlebot-Mobile
Allow: /
Sitemap: http://beginnerchess.org/sitemap.xml
उपभोग के लिए इरादा नहीं है सामग्री तक पहुँचने से बोट्स को अनुमति न देने, यह सुनिश्चित करें कि आपकी साइट के सभी पृष्ठों पर अनुकूलित कीवर्ड रहते हैं, इस प्रकार की मदद से खोज इंजन रैंकिंग के भीतर अपनी साइट को बढ़ावा देने के. कहते हैं उदाहरण के लिए आप कठिन कीवर्ड "वजन" और विभिन्न लंबी पूंछ के लिए सभी पृष्ठों के अनुकूलन पर काम किया है. तुम्हारा काम खोज इंजन की आँखों में नीचे फ़िल्टर्ड किया जा सकता है अगर यह अपने प्रवेश पृष्ठ, पृष्ठ गोपनीयता और संपर्क फ़ॉर्म क्रॉल करने में सक्षम था.
कुछ एसईओ विशेषज्ञों का यह भी तर्क है कि गूगल पुराने अधिक की स्थापना की साइटों के पक्ष में युवा वेबसाइटों सज़ा है. गूगल जाहिरा तौर पर इंटरनेट का संग्रह का उपयोग करता है (पाया यहाँ ) एक साइट की उम्र निर्धारित करने के लिए. यदि यह संग्रह में साइट नहीं मिल सकता है, यह जाहिरा तौर पर मान लिया गया है साइट पर एक निश्चित उम्र के है. इस कारण से, कई लोगों को सक्रिय रूप से अपनी साइट अनुक्रमण से इंटरनेट पुरालेख उपयोगकर्ता एजेंट को रोकने. इस के बाद लाइनों को शामिल करके किया जा सकता है:
User-agent: ia_archiver-web.archive.org
Disallow: /
आप भी अगर वे अन्य साइटों से गैर स्टॉक छवियों उधार लिया है अपने चित्रों तक पहुँचने से रोक छवि बॉट चाहते हो सकता है. यह बहुत पसंद किया जा सकता है:
User-agent: Googlebot-Image
Allow: /
अंत में, robots.txt विशिष्ट पृष्ठों है कि सामग्री है कि अन्य साइटों या पेजों पर उपलब्ध हो सकता है प्रदर्शित करने के लिए इस्तेमाल किया जा सकता से bots को बाहर करने के लिए इस्तेमाल किया जा सकता है. अक्सर यह तर्क दिया है कि गूगल नकल सामग्री प्रदर्शित करने के लिए अपने रेटिंग सज़ा देगा. मैं व्यक्तिगत रूप से यह एक बड़ा मुद्दा के रूप में नहीं दिख रहा है और विश्वास है कि नकल सामग्री वास्तव में (एक और दिन के बारे में अधिक) कुछ उदाहरणों में आपकी साइट की रेटिंग की मदद कर सकते हैं. वैसे भी, एक bot एक विशेष पृष्ठ तक पहुँचने से रोकने के लिए, निम्नलिखित लाइनें जोड़ने:
User-agent: *
Disallow: */my-duplicate-page.html
ध्यान दें कि यह एक मूर्ख सबूत विधि नहीं है. यदि आपके अनुमति नहीं पृष्ठ एक अन्य साइट से लिंक है, यह अभी भी बॉट द्वारा क्रॉल किया जाएगा.
मैं जा रहा रखने के सकता है, लेकिन मुझे यकीन है कि तुम सब अब तक ऊब रहे हैं. नीचे टिप्पणी या मुझसे संपर्क सीधे यदि आप और अधिक जानना चाहते करने के लिए स्वतंत्र लग रहा है.
खुश roboting.



















