Robots.txt-ni qanday qilib to'g'ri sozlash kerak?

Mundarija:

Robots.txt-ni qanday qilib to'g'ri sozlash kerak?
Robots.txt-ni qanday qilib to'g'ri sozlash kerak?
Anonim

HTML sayti uchun toʻgʻri Robots txt fayli qidiruv tizimi botlari uchun harakat maketlarini yaratadi va ularga nimani tekshirishi mumkinligini aytadi. Ushbu fayl ko'pincha Robotni istisno qilish protokoli deb ataladi. Veb-saytni skanerlashdan oldin botlar qidiradigan birinchi narsa bu robots.txt. U Sayt xaritasiga ma'lum subdomenlarni tekshirmaslikni ko'rsatishi yoki aytishi mumkin. Qidiruv tizimlari eng tez-tez topiladigan narsalarni qidirishni xohlasangiz, robots.txt fayli talab qilinmaydi. Bu jarayonda fayl toʻgʻri formatlanganligi va foydalanuvchi sahifasini foydalanuvchining shaxsiy maʼlumotlari bilan indekslamasligi juda muhim.

Robotni skanerlash printsipi

Robotlarni skanerlash printsipi
Robotlarni skanerlash printsipi

Qidiruv tizimi faylga duch kelganda va taqiqlangan URL manzilni koʻrsa, uni tekshirmaydi, lekin uni indekslashi mumkin. Buning sababi, robotlarga kontentni ko'rishga ruxsat berilmagan bo'lsa ham, ular taqiqlangan URL manziliga ishora qiluvchi qayta havolalarni eslab qolishlari mumkin. Havolaga kirish bloklanganligi sababli, URL qidiruv tizimlarida paydo bo'ladi, lekin parchalarsiz. Agar akiruvchi marketing strategiyasi uchun bitrix (Bitrix) uchun to'g'ri Robots txt fayli talab qilinadi, ular skanerlar orqali foydalanuvchi so'roviga ko'ra saytni tekshirishni ta'minlaydi.

Boshqa tomondan, agar fayl toʻgʻri formatlanmagan boʻlsa, bu sayt qidiruv natijalarida koʻrinmasligi va topilmasligiga olib kelishi mumkin. Qidiruv mexanizmlari bu faylni chetlab o'tolmaydi. Dasturchi istalgan saytning robots.txt faylini uning domeniga kirib, uni robots.txt bilan kuzatib borishi mumkin, masalan, www.domain.com/robots.txt. Unamo’ning SEO optimallashtirish bo‘limi kabi vositadan foydalanib, u yerda istalgan domenga kirishingiz mumkin va xizmat fayl mavjudligi haqidagi ma’lumotlarni ko‘rsatadi.

Skanerlash uchun cheklovlar:

  1. Foydalanuvchida eskirgan yoki nozik kontent bor.
  2. Saytdagi rasmlar rasm qidiruv natijalariga kiritilmaydi.
  3. Sayt hali robot tomonidan indekslanishi uchun demoga tayyor emas.

Yodda tutingki, foydalanuvchi qidiruv tizimidan olmoqchi boʻlgan maʼlumotlar URL manzilini kiritgan har bir kishi uchun mavjud. Maxfiy ma'lumotlarni yashirish uchun ushbu matn faylidan foydalanmang. Agar domenda 404 (topilmadi) yoki 410 (o'tdi) xatosi bo'lsa, qidiruv tizimi robots.txt mavjudligiga qaramay saytni tekshiradi, bu holda fayl yo'q deb hisoblaydi. 500 (Ichki server xatosi), 403 (taqiqlangan), vaqt tugadi yoki "mavjud emas" kabi boshqa xatolar robots.txt ko'rsatmalariga mos keladi, biroq chetlab o'tish fayl mavjud bo'lguncha kechiktirilishi mumkin.

Qidiruv fayli yaratilmoqda

Qidiruv faylini yaratish
Qidiruv faylini yaratish

KoʻpWordPress kabi CMS dasturlari allaqachon robots.txt fayliga ega. Robots txt WordPress-ni to'g'ri sozlashdan oldin, foydalanuvchi unga qanday kirishni tushunish uchun uning imkoniyatlari bilan tanishishi kerak. Agar dasturchi faylni o'zi yaratsa, u quyidagi shartlarga javob berishi kerak:

  1. Kichik harf bilan yozilishi kerak.
  2. UTF-8 kodlashdan foydalaning.
  3. Matn muharririda fayl (.txt) sifatida saqlang.

Foydalanuvchi uni qaerga joylashtirishni bilmasa, domen ildiziga qanday kirishni bilish uchun veb-server dasturiy ta'minot sotuvchisiga murojaat qiladi yoki Google konsoliga o'tib, uni yuklab oladi. Bu funksiya yordamida Google botning to‘g‘ri ishlayotganligini va fayl yordamida bloklangan saytlar ro‘yxatini ham tekshirishi mumkin.

Bitrix (Bitrix) uchun toʻgʻri Robots txt faylining asosiy formati:

  1. Legend robots.txt.
  2. , faqat qayd sifatida ishlatiladigan fikrlarni qo'shadi.
  3. Ushbu fikrlar skanerlar tomonidan e'tiborga olinmaydi, shuningdek foydalanuvchi xatolari bilan birga.
  4. User-agent - fayl uchun koʻrsatmalar qaysi qidiruv tizimida berilganligini koʻrsatadi.
  5. Yulduzcha () qoʻshish skanerlarga koʻrsatmalar hamma uchun ekanligini bildiradi.

Ma'lum bir botni ko'rsatmoqda, masalan, Googlebot, Baiduspider, Applebot. Ruxsat bermaslik brauzerlarga veb-saytning qaysi qismlarini tekshirib chiqmaslik kerakligini aytadi. Bu shunday ko'rinadi: User-agent:. Yulduzcha "barcha botlar" degan ma'noni anglatadi. Biroq, siz aniq sahifalarni belgilashingiz mumkinbotlar. Buning uchun tavsiyalar oʻrnatilgan bot nomini bilishingiz kerak.

Yandeks uchun toʻgʻri robot txt fayli quyidagicha koʻrinishi mumkin:

Yandex uchun to'g'ri robotlar txt
Yandex uchun to'g'ri robotlar txt

Agar bot saytni tekshirmasa, uni belgilashingiz mumkin va foydalanuvchi agentlari ismlarini topish uchun useragentstring.com onlayn imkoniyatlari bilan tanishib chiqish tavsiya etiladi.

Sahifani optimallashtirish

Sahifani optimallashtirish
Sahifani optimallashtirish

Quyidagi ikkita satr toʻliq robots.txt fayli hisoblanadi va bitta robots faylida skanerlashni oʻchirib qoʻyuvchi yoki faollashtiradigan bir nechta foydalanuvchi agentlari va direktivalari boʻlishi mumkin. To'g'ri Robots txt ning asosiy formati:

  1. Foydalanuvchi agenti: [agent foydalanuvchi nomi].
  2. Ruxsat bermaslik: [suratlanmagan URL satri].

Faylda har bir direktiv bloki chiziq bilan ajratilgan diskret sifatida ko'rsatiladi. Agent foydalanuvchi katalogi yonidagi faylda har bir qoida bo'limdan ajratilgan qatorlarning ma'lum bir to'plamiga qo'llaniladi. Agar faylda koʻp agentli qoida boʻlsa, robot faqat eng aniq koʻrsatmalar guruhini koʻrib chiqadi.

Texnik sintaksis

Texnik sintaksis
Texnik sintaksis

Uni robots.txt fayllari "tili" deb hisoblash mumkin. Ushbu formatda mavjud bo'lgan beshta atama mavjud, asosiylari quyidagilardan iborat:

  1. Foydalanuvchi-agent - skanerlash koʻrsatmalariga ega veb-brauzer, odatda qidiruv tizimi.
  2. Disallow - bu foydalanuvchi agentiga chetlab o'tishni aytish uchun ishlatiladigan buyruqMuayyan URL manzilining (o'tkazib yuborilishi). Har biri uchun faqat bitta taqiqlangan shart mavjud.
  3. Ruxsat bering. Kirish huquqiga ega bo'lgan Googlebot uchun hatto foydalanuvchi sahifasi ham rad etilgan.
  4. Krawl-kechikish - skanerdan oldin brauzerga qancha soniya kerak bo'lishini belgilaydi. Bot buni tasdiqlamasa, tezlik Google konsolida o'rnatiladi.
  5. Sayt xaritasi - URL bilan bogʻlangan har qanday XML xaritalarini aniqlash uchun foydalaniladi.

Naqsh moslamalari

Aslida URL-manzillarni bloklash yoki haqiqiy Robots txt-ga ruxsat berish haqida gap ketganda, operatsiyalar juda qiyin bo'lishi mumkin, chunki ular bir qator mumkin bo'lgan URL parametrlarini qoplash uchun naqsh moslashtirishdan foydalanishga imkon beradi. Google va Bing ikkalasi ham SEO istisno qilmoqchi bo'lgan sahifalar yoki pastki papkalarni aniqlaydigan ikkita belgidan foydalanadi. Ikkita belgi yulduzcha () va dollar belgisidir ($), bu erda:har qanday belgilar ketma-ketligini ifodalovchi joker belgidir. $ - URL oxiriga mos keladi.

Google foydalanuvchiga Robots txt faylini qanday qilib toʻgʻri sozlashni tushuntirib beradigan shablon sintaksisining katta roʻyxatini taqdim etadi. Ba'zi umumiy foydalanish holatlari quyidagilardan iborat:

  1. Qidiruv natijalarida takroriy kontent paydo boʻlishining oldini oling.
  2. Veb-saytning barcha boʻlimlari maxfiy boʻlsin.
  3. Ochiq bayonot asosida qidiruv natijalarining ichki sahifalarini saqlang.
  4. Joylashuvni ko'rsating.
  5. Qidiruv tizimlarining aniq indekslanishini oldini olishfayllar.
  6. Bir vaqtning oʻzida bir nechta kontent hududini skanerlashda qayta yuklashni toʻxtatish uchun skanerlash kechikishi belgilanmoqda.

Robot fayli mavjudligi tekshirilmoqda

Agar saytda skanerlanishi kerak boʻlgan joylar boʻlmasa, robots.txt umuman kerak emas. Agar foydalanuvchi ushbu fayl mavjudligiga ishonch hosil qilmasa, u ildiz domenini kiritishi va uni URL oxiriga yozishi kerak, masalan: moz.com/robots.txt. Bir qator qidiruv botlari bu fayllarga e'tibor bermaydi. Biroq, qoida tariqasida, bu brauzerlar nufuzli qidiruv tizimlariga tegishli emas. Bular spamerlar, pochta agregatorlari va boshqa turdagi avtomatlashtirilgan botlardir, ular Internetda juda ko'p uchraydi.

Robotni istisno qilish standartidan foydalanish samarali xavfsizlik chorasi emasligini yodda tutish juda muhim. Aslida, ba'zi botlar foydalanuvchi ularni skanerlash rejimiga o'rnatgan sahifalardan boshlanishi mumkin. Standart istisno fayliga kiradigan bir nechta qismlar mavjud. Robotga qaysi sahifalarda ishlamasligi kerakligini aytishdan oldin, qaysi robot bilan gaplashish kerakligini belgilashingiz kerak. Aksariyat hollarda foydalanuvchi "barcha botlar" degan ma'noni anglatuvchi oddiy deklaratsiyadan foydalanadi.

SEO optimallashtirish

SEO optimallashtirish
SEO optimallashtirish

Optimallashtirishdan oldin foydalanuvchi chetlab oʻtilishi kerak boʻlgan sayt mazmuni yoki boʻlimlarini bloklamaganligiga ishonch hosil qilishi kerak. To'g'ri Robots txt tomonidan bloklangan sahifalarga havolalar hurmat qilinmaydi. Buning ma'nosi:

  1. Agar ular qidiruv tizimlarida mavjud boʻlgan boshqa sahifalarga bogʻlanmagan boʻlsa, yaʼni. sahifalar,robots.txt yoki meta robot tomonidan bloklanmagan va tegishli manbalar tekshirilmaydi va shuning uchun ularni indekslab bo‘lmaydi.
  2. Hech qanday havolani bloklangan sahifadan manzilga oʻtkazib boʻlmaydi. Agar shunday sahifa mavjud bo'lsa, robots.txt-dan ko'ra boshqa blokirovka mexanizmidan foydalangan ma'qul.

Boshqa sahifalar toʻgʻridan-toʻgʻri shaxsiy maʼlumotlarni oʻz ichiga olgan sahifaga havola qilishi mumkin va siz bu sahifani qidiruv natijalaridan bloklamoqchi boʻlganingiz uchun parolni himoyalash yoki noindex meta-maʼlumotlari kabi boshqa usuldan foydalaning. Ba'zi qidiruv tizimlarida bir nechta foydalanuvchi agentlari mavjud. Masalan, Google organik qidiruvlar uchun Googlebot-dan, tasvirlar uchun esa Googlebot-Image-dan foydalanadi.

Bir xil qidiruv tizimidagi koʻpchilik foydalanuvchi agentlari bir xil qoidalarga amal qiladi, shuning uchun bir nechta brauzerlarning har biri uchun koʻrsatma belgilashning hojati yoʻq, lekin buni amalga oshirish sayt kontentini tekshirishni nozik sozlashi mumkin. Qidiruv tizimi fayl mazmunini keshlaydi va odatda kuniga kamida bir marta keshlangan tarkibni yangilaydi. Agar foydalanuvchi faylni oʻzgartirsa va uni odatdagidan tezroq yangilamoqchi boʻlsa, robots.txt URL manzilini Google’ga yuborishi mumkin.

Qidiruv tizimlari

Robot fayli mavjudligi tekshirilmoqda
Robot fayli mavjudligi tekshirilmoqda

Robots txt qanday to'g'ri ishlashini tushunish uchun siz qidiruv tizimlarining imkoniyatlari haqida bilishingiz kerak. Muxtasar qilib aytganda, ularning qobiliyati ular dasturlari bo'lgan "skanerlar" ni yuborishlaridadirma'lumot olish uchun Internetni ko'rib chiqish. Keyin ular ushbu ma'lumotlarning bir qismini keyinchalik foydalanuvchiga etkazish uchun saqlaydilar.

Ko'pchilik uchun Google allaqachon Internetdir. Aslida, ular to'g'ri, chunki bu uning eng muhim ixtirosi bo'lishi mumkin. Va qidiruv tizimlari yaratilganidan beri juda ko'p o'zgargan bo'lsa-da, asosiy tamoyillar hali ham bir xil. "botlar" yoki "o'rgimchaklar" deb ham ataladigan skanerlar milliardlab veb-saytlardan sahifalarni topadi. Qidiruv tizimlari ularga qayerga borish bo‘yicha ko‘rsatmalar beradi, shu bilan birga alohida saytlar botlar bilan bog‘lanib, qaysi sahifalarga qarash kerakligini aytishi mumkin.

Umuman olganda, sayt egalari qidiruv tizimlarida koʻrinishni xohlamaydilar: administrator sahifalari, backend portallari, toifalar va teglar va boshqa maʼlumotlar sahifalari. Robots.txt fayli qidiruv tizimlarining sahifalarni tekshirishini oldini olish uchun ham ishlatilishi mumkin. Qisqasi, robots.txt veb-brauzerlarga nima qilish kerakligini aytadi.

Sahifalarni taqiqlash

Bu robotni istisno qilish faylining asosiy qismi. Oddiy deklaratsiya bilan foydalanuvchi botga yoki botlar guruhiga ma'lum sahifalarni skanerlamaslikni aytadi. Sintaksis oddiy, masalan, saytning "admin" katalogidagi hamma narsaga kirishni rad etish uchun quyidagilarni yozing: Ruxsat bermaslik: /admin. Bu qator botlarni yoursite.com/admin, yoursite.com/admin/login, yoursite.com/admin/files/secret.html va administrator katalogi ostidagi boshqa narsalarni skanerlashdan saqlaydi.

Bitta sahifani taqiqlash uchun uni taqiqlash qatorida koʻrsating: Ruxsat bermaslik: /public/exception.html. Endi "istisno" sahifasiko‘chirilmaydi, lekin “ommaviy” jilddagi barcha narsalar ko‘chiriladi.

Bir nechta sahifalarni qoʻshish uchun ularni roʻyxatlash kifoya:

Kataloglar va sahifalar
Kataloglar va sahifalar

Simfoniya uchun toʻgʻri Robots txt-ning ushbu toʻrt qatori https://www.symphonyspace.org/ uchunrobots.txt boʻlimining yuqori qismida keltirilgan istalgan foydalanuvchi agentiga taalluqlidir.

Sahifalarni taqiqlash
Sahifalarni taqiqlash

Sayt xaritasi:

Boshqa buyruqlar:jonli - veb-brauzerlarga cpresource/ yoki provayder/ni indekslashiga ruxsat bermang.

Foydalanuvchi agenti:Ruxsat bermaslik: /cpresources/.

Rad qilish: / sotuvchi / Ruxsat bermaslik: /.env.

Standartlarni belgilash

Foydalanuvchi oldingi ikkita elementni birlashtirib, turli botlar uchun maxsus sahifalarni belgilashi mumkin, bu shunday ko'rinadi. Barcha qidiruv tizimlari uchun to'g'ri Robots txt misoli quyida keltirilgan.

Standartlarni o'rnatish
Standartlarni o'rnatish

"Administrator" va "maxfiy" bo'limlar Google va Bingga ko'rinmaydi, ammo Google "maxfiy" katalogni ko'raveradi, Bing esa ko'rmaydi. Yulduzchali foydalanuvchi agenti yordamida barcha botlar uchun umumiy qoidalarni belgilashingiz va keyin keyingi bo'limlarda botlarga maxsus ko'rsatmalar berishingiz mumkin. Yuqoridagi bilimlar bilan foydalanuvchi barcha qidiruv tizimlari uchun to'g'ri Robots txt misolini yozishi mumkin. Shunchaki sevimli matn muharriringizni yoqing va botlarga ular saytning ayrim qismlarida yoqmasligini ayting.

Server unumdorligini oshirish boʻyicha maslahatlar

SublimeTextko'p qirrali matn muharriri va ko'plab dasturchilar uchun oltin standart. Uning dasturlash bo'yicha maslahatlari samarali kodlashga asoslangan. foydalanuvchilar dasturda yorliqlar mavjudligini qadrlashadi. Agar foydalanuvchi robots.txt faylining namunasini ko'rishni xohlasa, istalgan saytga o'tishi va oxiriga "/robots.txt" qo'shishi kerak. Bu yerda GiantBicycles robots.txt faylining bir qismi.

Dastur foydalanuvchilar qidiruv tizimlarida koʻrsatishni istamaydigan sahifalarni yaratishni taʼminlaydi. Bundan tashqari, kam odam biladigan bir nechta eksklyuziv narsalar mavjud. Misol uchun, robots.txt fayli botlarga qayerga bormaslik kerakligini aytsa-da, sayt xaritasi fayli buning aksini qiladi va ularga qidirayotgan narsani topishga yordam beradi va qidiruv tizimlari sayt xaritasi qayerda joylashganligini allaqachon bilishsa ham, u olinmaydi. yo'lda.

Ikki turdagi fayllar mavjud: HTML sahifa yoki XML fayl. HTML sahifasi tashrif buyuruvchilarga veb-saytdagi barcha mavjud sahifalarni ko'rsatadigan sahifadir. O'zining robots.txt faylida u quyidagicha ko'rinadi: Sitemap://www.makeuseof.com/sitemap_index.xml. Agar sayt qidiruv tizimlari tomonidan indekslanmagan boʻlsa-da, u veb-robotlar tomonidan bir necha marta tekshirilgan boʻlsa ham, siz fayl mavjudligiga va uning ruxsatlari toʻgʻri oʻrnatilganligiga ishonch hosil qilishingiz kerak.

Sukut boʻyicha, bu barcha SeoToaster oʻrnatishlarida sodir boʻladi, lekin agar kerak boʻlsa, uni quyidagi tarzda tiklashingiz mumkin: robots.txt fayli - 644. PHP serveriga qarab, agar bu foydalanuvchi uchun ishlamasa, u quyidagilarni sinab ko'rish tavsiya etiladi: robots.txt fayli - 666.

Skanerlash kechikishini sozlash

Bypass kechikish direktivasi aniq ma'lumot beradiqidiruv tizimlari saytdagi sahifani qanchalik tez-tez indekslashi mumkinligi. Bu soniyalarda o'lchanadi, garchi ba'zi qidiruv tizimlari buni biroz boshqacha talqin qiladi. Baʼzi odamlar har bir skanerdan soʻng keyingisini boshlash uchun besh soniya kutishlari aytilsa, skanerlash kechikishini 5 koʻradi.

Boshqalar buni har besh soniyada faqat bitta sahifani skanerlash boʻyicha koʻrsatma sifatida izohlaydilar. Robot server o'tkazish qobiliyatini tejash uchun tezroq skanerlay olmaydi. Agar server trafikka mos kelishi kerak bo'lsa, u chetlab o'tish kechikishini o'rnatishi mumkin. Umuman olganda, ko'p hollarda foydalanuvchilar bu haqda tashvishlanishlari shart emas. Sakkiz soniyalik skanerlash kechikishi shunday o'rnatiladi - Ko'rish kechikishi: 8.

Ammo hamma qidiruv tizimlari ham bu yoʻriqnomaga boʻysunmaydi, shuning uchun sahifalarga ruxsat bermaganingizda, ayrim qidiruv tizimlari uchun turli skanerlash kechikishlarini oʻrnatishingiz mumkin. Fayldagi barcha ko'rsatmalar o'rnatilgandan so'ng, uni saytga yuklashingiz mumkin, avval uning oddiy matnli fayl ekanligiga va robots.txt nomiga ega ekanligiga ishonch hosil qiling va uni yoursite.com/robots.txt manzilidan topishingiz mumkin.

Eng yaxshi WordPress boti

Eng yaxshi WordPress boti
Eng yaxshi WordPress boti

WordPress saytida har safar qulflanishi kerak boʻlgan baʼzi fayllar va kataloglar mavjud. Foydalanuvchilar ruxsat bermasligi kerak bo'lgan kataloglar cgi-bin katalogi va standart WP kataloglaridir. Ba'zi serverlar cgi-bin katalogiga kirishga ruxsat bermaydi, biroq foydalanuvchilar Robots txt WordPress-ni to'g'ri sozlashdan oldin uni taqiqlash direktivasiga kiritishlari kerak

Standart WordPress kataloglari,Bloklanishi kerak bo'lgan wp-admin, wp-content, wp-o'z ichiga oladi. Ushbu kataloglar dastlab qidiruv tizimlari uchun foydali bo'lgan ma'lumotlarni o'z ichiga olmaydi, lekin istisno mavjud, ya'ni wp-content katalogida uploads deb nomlangan kichik katalog mavjud. Bu kichik katalogga robot.txt faylida ruxsat berilishi kerak, chunki u WP media yuklash funksiyasi yordamida yuklangan barcha narsalarni o'z ichiga oladi. WordPress kontentni tuzish uchun teglar yoki toifalardan foydalanadi.

Agar toifalar ishlatilsa, dastur ishlab chiqaruvchisi tomonidan koʻrsatilgan Wordpress uchun toʻgʻri Robotlar txt faylini yaratish uchun qidiruvdan teglar arxivini bloklash kerak. Birinchidan, ular ma'lumotlar bazasini "Ma'muriyat" paneliga o'tish orqali tekshiradilar> "Sozlamalar"> "Doimiy havola".

Sukut boʻyicha, asosiy belgi teg hisoblanadi, agar maydon boʻsh boʻlsa: Ruxsat bermaslik: / teg /. Agar toifa ishlatilsa, robot.txt faylida toifani o'chirib qo'yishingiz kerak: Ruxsat bermaslik: /category/. Odatiy bo'lib, agar maydon bo'sh bo'lsa, taglik tag hisoblanadi: Disallow: / teg /. Agar turkum ishlatilsa, robot.txt faylida toifani o‘chirib qo‘yishingiz kerak: Ruxsat bermaslik: / kategoriya /.

Asosan kontentni koʻrsatish uchun foydalaniladigan fayllar Wordpress uchun toʻgʻri Robots txt fayli tomonidan bloklanadi:

Wordpress uchun robotlar txt
Wordpress uchun robotlar txt

Joomla asosiy sozlamalari

Foydalanuvchi Joomla-ni oʻrnatgandan soʻng, boshqaruv panelida joylashgan global konfiguratsiyada toʻgʻri Joomla Robots txt sozlamasini koʻrishingiz kerak. Bu erda ba'zi sozlamalar SEO uchun juda muhimdir. Avval sayt nomini toping va bunga ishonch hosil qilingsaytning qisqa nomidan foydalaniladi. Keyin ular bir xil ekranning o'ng tomonida SEO sozlamalari deb ataladigan sozlamalar guruhini topadilar. Albatta o'zgartirish kerak bo'lgan ikkinchisi: qayta yozish URL manzilidan foydalaning.

Bu murakkab tuyuladi, lekin u asosan Joomla-ga toza URL-manzillar yaratishda yordam beradi. Agar siz URL manzillaridan index.php qatorini olib tashlasangiz, eng sezilarli. Agar uni keyinroq o'zgartirsangiz, URL manzillari o'zgaradi va bu Googlega yoqmaydi. Biroq, ushbu sozlamani o'zgartirganda, Joomla uchun robotlar uchun to'g'ri txt yaratish uchun bir vaqtning o'zida bir nechta qadamlarni bajarish kerak:

  1. Htaccess.txt faylini Joomla ildiz jildidan toping.
  2. Uni.htaccess deb belgilang (kengaytmasiz).
  3. Sahifa sarlavhalariga sayt nomini kiriting.
  4. Meta-ma'lumotlar sozlamalarini global konfiguratsiya ekranining pastki qismida toping.

Bulutli robot MODX

MODX bulutidagi robot
MODX bulutidagi robot

Ilgari MODX Cloud foydalanuvchilarga asboblar panelidagi almashtirish asosida robots.txt fayliga xizmat koʻrsatishga ruxsat berish xatti-harakatlarini boshqarish imkoniyatini taqdim etgan. Bu foydali bo'lsa-da, asboblar panelidagi opsiyani o'zgartirish orqali staging/dev saytlarida tasodifan indekslashga ruxsat berish mumkin edi. Xuddi shunday, ishlab chiqarish saytida indekslashni o'chirib qo'yish oson edi.

Bugun xizmat fayl tizimida robots.txt fayllari mavjudligini taxmin qiladi, bundan mustasno: modxcloud.com bilan tugaydigan har qanday domen Ruxsat bermaslik vazifasini bajaradi: mavjudligidan qat'i nazar, barcha foydalanuvchi agentlari uchun /direktivasi yoki faylning yo'qligi. Haqiqiy tashrif buyuruvchilar oqimini oladigan ishlab chiqarish saytlari, agar foydalanuvchi o'z saytini indekslashni xohlasa, o'z domenidan foydalanishi kerak.

Ba'zi tashkilotlar Contexts yordamida bir oʻrnatishdan bir nechta veb-saytlarni ishga tushirish uchun modx uchun toʻgʻri Robots txt-dan foydalanadilar. Buni qoʻllash mumkin boʻlgan holat ochiq marketing sayti va ochilish sahifasi mikro saytlari va nodavlat intranet boʻlishi mumkin.

Koʻp foydalanuvchili oʻrnatishlar uchun anʼanaviy tarzda buni qilish qiyin boʻlgan, chunki ular bir xil tarmoq ildiziga ega. MODX Cloud bilan bu juda oson. Robots-intranet.example.com.txt deb nomlangan veb-saytga quyidagi tarkibga ega qo'shimcha faylni yuklang va u yaxshi ishlaydigan robotlar bilan indekslashni bloklaydi va boshqa maxsus nom tugunlari bo'lmasa, boshqa barcha xost nomlari standart fayllarga qaytadi.

Robots.txt - foydalanuvchiga Google, yirik qidiruv tizimlari va boshqa veb-saytlardagi saytga ulanishga yordam beradigan muhim fayl. Veb-serverning ildizida joylashgan fayl veb-robotlarga saytni skanerlashni, Botni istisno qilish protokoli deb nomlangan ko'rsatmalar to'plamidan foydalanib, qaysi papkalarni indekslashi yoki indekslamasligini belgilashni buyuradi. Barcha qidiruv tizimlari obots.txt uchun to'g'ri Robotlar txt misol SeoToaster bilan qilish, ayniqsa, oson. Buning uchun boshqaruv panelida maxsus menyu yaratilgan, shuning uchun botga kirish uchun hech qachon ortiqcha ishlamasligi kerak.

Tavsiya: