Індексний файл robots.txt: ключові рекомендації для вебмайстрів-початківців

Про швидку індексацію молодого сайту або нових сторінок старого ресурсу мріє кожен вебмайстер. Досягти успіхів у цьому питанні допоможе robots.txt, який є навігаційним маяком для пошукових систем. Ми підготували великий гайд, який стосується особливостей, функцій і налаштування robots.txt.

Що таке індексний файл?

В індексному файлі прописана інформація, що вказує пошуковим ботам на сторінки, розділи і теки, які потрібно і не потрібно індексувати. Для створення необхідно використовувати кодування UTF-8. Застосування інших символів може призвести до того, що пошукові роботи просто не розпізнають рекомендації. Він актуальний для протоколів HTTP, HTTPS і FTP. Коректне налаштування файлу приховує від індексації сторінки, теки, розділи:

  • веб-сторінки зі службовою інформацією;
  • адміністративна панель;
  • форми реєстрації, оформлення замовлення, порівняння товарів;
  • особисті кабінети;
  • персональні дані клієнтів;
  • кошики, інші «сміттєві сторінки».

Потрапляючи на сайт, роботи починають шукати robots.txt. Якщо він відсутній або оформлений неправильно, сканування буде виконуватися довільно. У підсумку нові сторінки і контент не потраплять у пошукову видачу протягом тривалого часу. Зауважте, що деякі конструктори сайтів формують файл автоматично. Для перевірки наявності файлу варто доповнити доменне ім'я рядком «/robots.txt ».

Навіщо потрібен індексний файл?

Заборона на індексацію сторінок - необхідність, адже деякі з них не призначені для користувачів. Використовуйте інструмент для вирішення таких завдань:

  • складання чіткого плану сторінок, які підлягають індексації;
  • зниження навантаження на сервер у той час, коли ресурс сканують пошукові роботи;
  • визначення головного дзеркала;
  • створення коректного шляху до карти сайту, що прискорює і суттєво спрощує індексацію;
  • попередження помилок, проблем і занадто повільної індексації.

Однак є один нюанс: robots.txt має рекомендаційний характер, він не може заборонити ботам індексувати ту чи іншу сторінку. Представники ПС Google вказують на те, що за допомогою індексного файлу не можна виконати блокування сторінок. Наприклад, доступ обмежено через файл, проте на іншій сторінці розміщено посилання на те, яке ви хочете закрити - в цьому випадку індексація може відбутися. У зв'язку з цим рекомендується використовувати не тільки потенціал robots.txt, але й інші методи обмежень для пошукових систем Яндекс і Google. У будь-якому випадку від індексного файлу не можна відмовитися, адже його наявність скорочує ризик потрапляння в загальний доступ сторінок, які потрібно приховати.

Вимоги до формату

Нерідко боти ігнорують розглянутий файл через помилки, допущені під час його складання. Під час виконання роботи потрібно враховувати такі правила і поширені помилки:

  • розмір файла визначає пошукову систему: 32 Кб - Яндекс, не більше 512 Кб - Google;
  • наявність помилок, помилок в посиланнях, інших проблем призводить до того, що рекомендації залишаються непоміченими або проігнорованими. Інші проблеми: під час запиту до сервера файл недоступний, формат не є текстовим, містить заборонені символи;
  • при наповненні використовується латиниця. Якщо ви виявили кириличні символи, то виконайте переклад, використовуючи потенціал Punycode-конвертера.

Рекомендується періодично здійснювати перевірку, спосіб виконання якої залежить від типу системи управління вмістом.

Синтаксис

До складу файлу входять директиви, які прописуються в суворій послідовності. При роботі з директивами важливо не допускати помилки, дотримуючись таких правил:

  • один рядок - одна директива;
  • відсутність пробілів, тире, зайвих символів, що особливо актуально для початку рядка;
  • використання знака ":"після кожної директиви.

Пам "ятайте, що для створення використовуються лише латинські символи!

Основні директиви

  • User Agent - звернення до робіт. Якщо використовується символ «*», сторінка відкрита для всіх ПС, Yandex - для ПС Яндекс. Для ПС для Google застосовується значення Googlebot.
  • Disallow - вказує на те, що пошуковим роботам заборонено сканувати, теки, розділи тощо. Якщо після Disallow вказано знак «/», то роботам заборонено сканувати сайт, а «/page »- розділ і категорії, що входять до нього.
  • Allow - директива, що дозволяє сканування. Якщо вона доповнена знаком «/», то всі пошукові боти зможуть здійснити сканування. Директива, позбавлена опису, працює як Disallow.
  • Noindex - обмежує індексацію частини контенту, розміщеного на сторінці, прописується в коді.
  • Sitemap - вказує шлях до карти сайту, що забезпечує більш швидке сканування.

Ми описали основні директиви, але їх набагато більше. Наприклад, Clean-param підтримує тільки ПС Яндекс, директива вказує на динамічні параметри. За допомогою Host можна вказати головне дзеркало. Знак «#» - примітка для вебмайстра, яку пошукові боти не бачать.

Як виконати перевірку?

Створити robots.txt можна вручну, простіший шлях - використання онлайн-інструментів, які попереджають людський фактор. Перевірка результату здійснюється через панелі вебмайстрів в Google і Яндекс. Можна перевірити фінішну перевірку лише після завантаження robots.txt до кореневої теки вашого сайту. Якщо його немає, буде показано повідомлення про помилку. Для завантаження використовується FTP-клієнт, після його виконання чекайте результат і спостерігайте за процесом індексації. Якщо є проблеми, то необхідно шукати помилку.

Як виконати перевірку файла на сайті конкурентів?

Якщо ви хочете побачити приклади, то зможете зробити це в кілька кліків. Використовуйте метод, який ми описали раніше:

  • введіть у рядок пошуку адресу: site.ru/robots.txt, де site.ru - реальна URL-адреса ресурсу, яку ви хочете перевірити;
  • вивчайте результат.

Насамкінець

Файл зберігається в кореневій теці вашого сайту. Під час його створення використовуються директиви, що розміщуються в суворій послідовності, і латинські символи. Деякі системи керування вмістом створюють robots.txt самостійно, в іншому випадку доводиться формувати документ вручну або за допомогою спеціального софта. У robots.txt можна додавати рекомендації як для всіх, так і для однієї ПС, але це не означає, що вони будуть враховані. Для попередження потрапляння в індекс небажаних сторінок, ви повинні уважно перевіряти файл на відсутність помилок, а також використовувати додаткові інструменти для обмежень.

© 2008 - 2023 Webdesign Odessa
Создание - Раскрутка - Поддержка