Robots.txt-da saytni indekslashni qanday bloklash mumkin: ko'rsatmalar va tavsiyalar

Mundarija:

Robots.txt-da saytni indekslashni qanday bloklash mumkin: ko'rsatmalar va tavsiyalar
Robots.txt-da saytni indekslashni qanday bloklash mumkin: ko'rsatmalar va tavsiyalar
Anonim

SEO-optimallashtiruvchining ishi juda keng ko'lamli. Yangi boshlanuvchilarga hech qanday qadamni o'tkazib yubormaslik uchun optimallashtirish algoritmini yozish tavsiya etiladi. Aks holda, reklamani muvaffaqiyatli deb atash qiyin, chunki sayt doimiy ravishda nosozliklar va xatolarga duch keladi, ularni uzoq vaqt davomida tuzatish kerak bo'ladi.

Optimallashtirish bosqichlaridan biri robots.txt fayli bilan ishlashdir. Har bir resursda ushbu hujjat bo'lishi kerak, chunki usiz optimallashtirishni engish qiyinroq bo'ladi. U siz tushunishingiz kerak bo'lgan ko'plab funktsiyalarni bajaradi.

Robot yordamchisi

Robots.txt fayli oddiy matnli hujjat boʻlib, uni tizimning standart bloknotida koʻrish mumkin. Uni yaratishda uni to'g'ri o'qish uchun kodlashni UTF-8 ga o'rnatishingiz kerak. Fayl http, https va FTP protokollari bilan ishlaydi.

Bu hujjat robotlarni qidirish uchun yordamchi hisoblanadi. Agar siz bilmagan bo'lsangiz, har bir tizim so'rovlar uchun tegishli saytlarni qaytarish uchun World Wide Webni tezda skanerlaydigan "o'rgimchaklardan" foydalanadi.foydalanuvchilar. Bu robotlar manba maʼlumotlariga kirish huquqiga ega boʻlishi kerak, buning uchun robots.txt ishlaydi.

O'rgimchaklar o'z yo'lini topishlari uchun siz robots.txt hujjatini ildiz katalogiga yuborishingiz kerak. Saytda ushbu fayl mavjudligini tekshirish uchun brauzerning manzil satriga “https://site.com.ua/robots.txt” kiriting. "site.com.ua" o'rniga kerakli manbani kiritishingiz kerak.

robots.txt bilan ishlash
robots.txt bilan ishlash

Hujjat funksiyalari

Robots.txt fayli brauzerlarni bir necha turdagi ma'lumotlar bilan ta'minlaydi. U "o'rgimchak" resursning muayyan elementlarini skanerlashi uchun qisman ruxsat berishi mumkin. To'liq kirish barcha mavjud sahifalarni tekshirish imkonini beradi. To'liq taqiq robotlarning hatto tekshirishni boshlashiga to'sqinlik qiladi va ular saytni tark etishadi.

Resursga tashrif buyurgandan so'ng, "o'rgimchaklar" so'rovga tegishli javob oladi. Ulardan bir nechtasi bo'lishi mumkin, barchasi robots.txt-dagi ma'lumotlarga bog'liq. Masalan, agar skanerlash muvaffaqiyatli boʻlsa, robot 2xx kodini oladi.

Ehtimol, sayt bir sahifadan boshqasiga yoʻn altirilgandir. Bunday holda, robot 3xx kodini oladi. Agar bu kod bir necha marta sodir bo'lsa, o'rgimchak boshqa javob olguncha uni kuzatib boradi. Garchi, qoida tariqasida, u faqat 5 ta urinishdan foydalanadi. Aks holda, mashhur 404 xatosi paydo bo'ladi.

Agar javob 4xx boʻlsa, robotga saytning butun mazmunini tekshirishga ruxsat beriladi. Ammo 5xx kodi bo'lsa, tekshirish butunlay to'xtashi mumkin, chunki bu ko'pincha vaqtinchalik server xatolarini ko'rsatadi.

Robotlarni qidirish
Robotlarni qidirish

Nima uchunrobots.txt kerakmi?

Siz taxmin qilganingizdek, bu fayl robotlar uchun sayt ildizi uchun qoʻllanma. Endi u nomaqbul kontentga kirishni qisman cheklash uchun ishlatiladi:

  • foydalanuvchilarning shaxsiy ma'lumotlari bilan sahifalar;
  • koʻzgu saytlar;
  • qidiruv natijalari;
  • maʼlumotlarni yuborish shakllari va h.k.

Agar sayt ildizida robots.txt fayli boʻlmasa, robot mutlaqo barcha kontentni tekshiradi. Shunga ko'ra, qidiruv natijalarida keraksiz ma'lumotlar paydo bo'lishi mumkin, ya'ni siz ham, sayt ham zarar ko'radi. Agar robots.txt hujjatida maxsus ko'rsatmalar mavjud bo'lsa, "o'rgimchak" ularga ergashadi va resurs egasi xohlagan ma'lumotni beradi.

Fayl bilan ishlash

Robots.txt-dan saytni indekslashni bloklash uchun foydalanish uchun ushbu faylni qanday yaratishni aniqlab olishingiz kerak. Buning uchun ko'rsatmalarga amal qiling:

  1. Bloknot yoki Notepad++ da hujjat yarating.
  2. ".txt" fayl kengaytmasini o'rnating.
  3. Kerakli ma'lumotlar va buyruqlarni kiriting.
  4. Hujjatni saqlang va sayt ildiziga yuklang.

Ko'rib turganingizdek, bosqichlardan birida robotlar uchun buyruqlar o'rnatish kerak. Ular ikki xil: ruxsat berish (Ruxsat berish) va taqiqlash (Ruxsat bermaslik). Shuningdek, baʼzi optimallashtiruvchilar skanerlash tezligi, xost va manba sahifasi xaritasiga havolani belgilashi mumkin.

Saytni indeksatsiyadan qanday yopish mumkin
Saytni indeksatsiyadan qanday yopish mumkin

Robots.txt bilan ishlashni boshlash va saytni indekslashni butunlay blokirovka qilish uchun siz foydalanilgan belgilarni ham tushunishingiz kerak. Masalan, hujjatda"/" dan foydalaning, bu butun sayt tanlanganligini bildiradi. Agar "" ishlatilsa, u holda belgilar ketma-ketligi talab qilinadi. Shu tarzda skanerlash mumkin bo‘lgan yoki noma’lum jildni belgilash mumkin bo‘ladi.

botlar xususiyati

Qidiruv tizimlari uchun "o'rgimchaklar" har xil, shuning uchun agar siz bir vaqtning o'zida bir nechta qidiruv tizimlarida ishlasangiz, bu daqiqani hisobga olishingiz kerak bo'ladi. Ularning nomlari har xil, ya'ni ma'lum bir robotga murojaat qilmoqchi bo'lsangiz, uning nomini ko'rsatishingiz kerak bo'ladi: "Foydalanuvchi agenti: Yandex" (tirnoqsiz).

Agar siz barcha qidiruv tizimlari uchun direktivalarni o'rnatmoqchi bo'lsangiz, u holda buyruqni ishlatishingiz kerak: "User Agent: " (tirnoqsiz). Saytni robots.txt yordamida indekslashni to'g'ri bloklash uchun siz mashhur qidiruv tizimlarining xususiyatlarini bilishingiz kerak.

Gap shundaki, eng mashhur Yandex va Google qidiruv tizimlarida bir nechta botlar mavjud. Ularning har biri o'z vazifalariga ega. Misol uchun, Yandex Bot va Googlebot saytni skanerlaydigan asosiy "o'rgimchaklar". Barcha botlarni bilsangiz, resursingizni indekslashni sozlash osonroq bo'ladi.

robots.txt fayli qanday ishlaydi
robots.txt fayli qanday ishlaydi

Misollar

Shunday qilib, robots.txt yordamida siz oddiy buyruqlar yordamida saytni indeksatsiyadan yopishingiz mumkin, asosiysi sizga aniq nima kerakligini tushunishdir. Misol uchun, agar siz Googlebot resursingizga yaqinlashmasligini istasangiz, unga tegishli buyruqni berishingiz kerak. Bu shunday ko'rinadi: "Foydalanuvchi-agent: Googlebot ruxsat bermaydi: /" (tirnoqsiz).

Endi biz ushbu buyruqda nima borligini va u qanday ishlashini tushunishimiz kerak. Shunday qilib, "Foydalanuvchi-agent"botlardan biriga to'g'ridan-to'g'ri qo'ng'iroq qilish uchun ishlatiladi. Keyinchalik, qaysi biriga, bizning holatlarimizda bu Google ekanligini ko'rsatamiz. "Ruxsat bermaslik" buyrug'i yangi qatordan boshlanishi va robotning saytga kirishini taqiqlashi kerak. Bu holatda slash belgisi resursning barcha sahifalari buyruq bajarilishi uchun tanlanganligini bildiradi.

robots.txt nima uchun?
robots.txt nima uchun?

Robots.txt-da siz oddiy buyruq bilan barcha qidiruv tizimlari uchun indekslashni o'chirib qo'yishingiz mumkin: "Foydalanuvchi-agent:Ruxsat bermaslik: /" (tirnoqsiz). Bu holda yulduzcha belgisi barcha qidiruv robotlarini bildiradi. Odatda, bunday buyruq saytni indekslashni to'xtatib turish va unda asosiy ishni boshlash uchun kerak bo'ladi, aks holda bu optimallashtirishga ta'sir qilishi mumkin.

Agar resurs katta va koʻp sahifali boʻlsa, unda koʻpincha oshkor etilishi istalmagan yoki reklamaga salbiy taʼsir koʻrsatishi mumkin boʻlgan xususiy maʼlumotlar mavjud. Bunday holda, sahifani robots.txt-da indekslashdan qanday yopish kerakligini tushunishingiz kerak.

Siz jild yoki faylni yashirishingiz mumkin. Birinchi holda, siz ma'lum bir bot yoki hamma bilan bog'lanish orqali qayta boshlashingiz kerak, shuning uchun biz "Foydalanuvchi-agent" buyrug'idan foydalanamiz va quyida ma'lum bir papka uchun "Ruxsat bermaslik" buyrug'ini belgilaymiz. Bu shunday bo'ladi: "Ruxsat bermaslik: / papka /" (tirnoqsiz). Shu tarzda siz butun papkani yashirasiz. Agar unda siz ko'rsatmoqchi bo'lgan muhim fayl bo'lsa, quyidagi buyruqni yozishingiz kerak: “Ruxsat bering: /folder/file.php” (tirnoqsiz).

Faylni tekshirish

Agar saytni yopish uchun robots.txt dan foydalansangizSiz indekslashda muvaffaqiyat qozondingiz, lekin barcha ko‘rsatmalaringiz to‘g‘ri ishlaganligini bilmayapsiz, ishning to‘g‘riligini tekshirishingiz mumkin.

Avvalo, hujjatning joylashuvini yana tekshirishingiz kerak. Esda tutingki, u faqat ildiz papkasida bo'lishi kerak. Agar u ildiz papkasida bo'lsa, u ishlamaydi. Keyin brauzerni oching va u erda quyidagi manzilni kiriting: “https://yoursite. com/robots.txt (tirnoqsiz). Agar veb-brauzeringizda xatolik yuzaga kelsa, fayl kerakli joyda emas.

Indekslashdan papkani qanday yopish mumkin
Indekslashdan papkani qanday yopish mumkin

Direktivalarni deyarli barcha veb-ustalar foydalanadigan maxsus vositalarda tekshirish mumkin. Biz Google va Yandex mahsulotlari haqida gapiramiz. Masalan, Google Search Console-da asboblar paneli mavjud bo'lib, unda siz "Crawl" ni ochishingiz kerak, keyin esa "Robots.txt File Inspection Tool" ni ishga tushirishingiz kerak. Hujjatdagi barcha ma'lumotlarni oynaga nusxalashingiz va skanerlashni boshlashingiz kerak. Aynan shu tekshirish Yandex. Webmaster-da amalga oshirilishi mumkin.

Tavsiya: