Створення файлів robots.txt і sitemap.xml — управляємо поведінкою пошукових роботів

Покращуємо індексацію сайту, допомагаючи роботам пошуковиків

Кожен сайт-статейник потребує швидкої індексації нових сторінок, і в обході роботами старих (оновлених) документів. Якщо подружитися з ботами пошуковиків, можна помітно поліпшити індексацію web-сайту. Як це зробити? Дуже просто. Зроби один крок назустріч роботу, і він зробить кілька назустріч тобі.

Тобто необхідно створити, правильно заповнити, та розмістити в кореневій директорії web-ресурсу два текстові файли: «robots.txt» і «sitemap.xml» (може бути кілька). Завдяки цим файлам ми можемо допомогти пошуковим роботам швидше та якісніше сканувати наш сайт. Пошукові павуки, також як і люди, дуже люблять коли про них пам'ятають й піклуються тим чи іншим способом. Сподіваюсь, ти не страждаєш арахнофобією. Клікнувши по фотографії нижче, вона відкриється на весь екран.

Файли robots.txt та sitemap.xml з павуком на павутині

Проявити турботу про пошукових павуків можна лише одним способом — допомогти їм в обробці нашого сайту. Коли ми завантажуємо на сервер правильно оформлені файли «sitemap.xml» та «robots.txt», це майже те ж саме, якщо кинути живу муху в павутину реального павука. Він її одразу ж опрацює як слід (запакує в кокон), і продовжить чекати чергову порцію, поправляючи свій слюнявчик.

Аналогічно себе поводить і скануючий робот (не дарма ж їх павуками називають), який спершу знаходить на сайті щось смачненьке, наприклад, нова стаття з авторськими текстами + фото, і тягне все це добро на сервер пошукової системи. А вже там його друзі всі ці знахідки розбирають до гвинтика, і найцінніше здають в ломбард заносять в свою базу даних.

Тим часом, скануючий павук продовжує борознити води всесвітньої павутини, в надії знайти хоч щось варте уваги своїх колег. Добре пам'ятаючи про ласощі на твоєму сайті, він періодично буде туди заглядати. Щоб він не ходив до тебе в гості даремно, та коли попало, потрібно підгодовувати його смакотою дотримуючись певного графіку.

Тобто потрібно публікувати нові статті з певним проміжком часу: раз в день, тиждень, місяць або рік. Скануючий бот, знаючи твій розпорядок дня, не буде зайвий раз стукати в двері серед ночі, а прийде в приймальний день і в потрібний час, коли привітний господар, чекаючи його візиту, щедро накриє стіл різними ласощами. Отже, вистачить метафор, настав час перейти до технічної мови. Поїхали!

Текстовий файл «robots.txt»

Навіщо він потрібен на сайті?

Почну розповідь про поліпшення взаємин сайт-робот з файлу «robots.txt», який за значущістю в кореневій директорії є третім після індексного та конфігураційного. При просуванні сайту білими методами SEO, важливість цього файлу важко переоцінити, адже без нього, не бачити нам високих позицій просувних сторінок у SERP-і.

Завдяки «robots.txt», ми можемо закривати від індексації певні типи файлів, якісь технічні сторінки веб-ресурсу, та навіть цілі розділи. Крім цього, використовуючи спеціальні директиви в файлі «robots.txt», в наших руках з'являється інструмент боротьби з дубльованим контентом. Правда, як говорять самі пошуковики, директиви роботса можуть бути проігноровані. Але все ж не варто упускати можливість управління поведінкою пошукового робота.

Як створити файл «Robots»?

Notepad++ в поміч

Для створення текстового файлу з ім'ям «robots» я використовую текстовий редактор Notepad++, який, по низці причин, найкращим чином підходить для веб-розробки. Про цей редактор я детальніше розповім в одній з майбутніх статей. Але якщо на твоїй машині поки що немає цього чудового інструменту, можеш скористатися звичайним блокнотом, який надає твоя операційна система.

Отже, створюєш новий текстовий документ з розширенням «txt», і називаєш його «robots». Після цього, зберігаєш порожній файл у якійсь папці або на робочому столі. Все, «robots.txt» створений, залишилося лише заповнити його вмістом. Вміст даного файлу спершу може налякати, або відбити в тебе бажання займатися всіма цими сеошними премудростями. Але не все так складно, як здається. Щоб розібратися що до чого в цьому файлі, потрібно просто звикнути до синтаксису написання правил, та запам'ятати кілька інструкцій.

Короткий опис інструкцій у «robots.txt»

Що означають всі ці коди?

На скріншоті нижче зображено приклад файлу «robots.txt» з деякими керуючими інструкціями для пошукових роботів. Нижче я викладу трохи технічної текстової інформації, але вона досить легка в засвоєнні, і ти зараз в цьому переконаєшся.

Приклад файлу robots.txt
  1. User-agent:

    У цій директиві вказують для якого саме пошукового робота написані інструкції нижче. Якщо потрібно, щоби усі нижчеописані правила застосовувалися для всіх роботів, потрібно поставити зірочку в якості значення для директиви юзер-агент (User-agent: *). У разі, якщо написані інструкції повинен виконувати бот Ґуґла чи Яндекса, слід вказувати директиви у такому вигляді: User-agent: Googlebot або User-agent: Yandex.

  2. Disallow:

    Це забороняюча директива, завдяки якій можемо вказати боту, куди ходити не потрібно, заощаджуючи дорогоцінний час, який той витрачає на сканування сайту. Цією директивою можемо заборонити пошуковому павуку сканувати як окрему сторінку/файл — (Disallow: /file-name.html) чи директорію — (Disallow: */nopubl/*), так і весь сайт — (Disallow: /). Якщо значення директиви не вказати — залишити пробіл (Disallow: ), в такому випадку, двері web-ресурсу для роботів будуть відкриті навстіж.

  3. Allow:

    Дану дозвільну директиву застосовують у тому випадку, якщо виникає потреба дозволити доступ скануючого павука до файлу, який лежить в закритій директорії — (Allow: */nopubl/seo-page.htm$). Тобто якщо папка з ім'ям «nopubl» закрита від роботів, є можливість відкрити для сканування документ з назвою «seo-page.htm», який лежить в даній директорії.

  4. Crawl-delay:

    Щоб сервер не ліг при одночасному зверненні голодного павука Яндекса і натовпу читачів, в параметрі даної директиви слід вказати одиницю часу. Тобто з якою частотою робот може звертатися до сервера при скануванні сторінок сайту. Щоб павук стрибав по сторінках один раз в секунду, відкриваючи тільки одну сторінку а не відразу 20, слід в файл «robots.txt» додати відповідне правило — (Crawl-delay: 1), де «1» — одна секунда.

  5. Clean-param:

    Ця директива потрібна для все того ж павука Яндекса, яка допомагає йому визначитися з канонічною URL-адресою документів, ігноруючи будь-які GET-параметри. Тобто якщо сторінка доступна за посиланнями з якимись динамічними параметрами в URL-і (site.com/index.php?publ=247&id=5z1f3014), при скануванні павуком вони відкидаються, і той ходить лише за основною адресою — (site.com/index.php). Директива буде виглядати так: (Clean-param: id /index.php).

  6. Sitemap:

    Щоб роботи пошуковиків точно знали, за якою адресою лежать всі файли карт сайту — «sitemap.xml», в значення директиви потрібно вписати абсолютні шляхи до файлів — (Sitemap: https://realcase.lviv.ua/sitemap.xml).

  7. Host:

    Роботу Яндекса потрібно повідомити яке дзеркало сайту є головним на веб-ресурсі. Для цих цілей і придумана ця директива. Виглядати у роботсі це може, наприклад, так: (Host: https://realcase.lviv.ua). Однак, якщо сайт працює по-старому, на незахищеному протоколі передачі даних — «http», в такому випадку, варіант написання даного правила повинен бути приблизно таким: (Host: realcase.lviv.ua).

  8. # — хеш

    Даний символ дає можливість залишити послання для тих, хто захоче переглянути вміст твого «robots.txt». Тобто спеціальний символ — хеш (#) перетворює тексти на коментарі. Важливо стежити за тим, щоб екрановані тексти коментарів були без перенесень рядків. Всі рядки тексту коментаря повинні починатися з хеша, інакше твоє послання викличе обурення, але не у конкурентів, а у пошукових роботів. Щодо реакції конкурентів на твої помилки в «robots.txt», — вони точно будуть у захваті, побачивши таке неподобство.

  9. / — слеш

    Слеші в директивах позначають ту чи іншу директорію або корінь сайту. Їх веб-розробники використовують для формування та логічного структурування оптимізованих URL-адрес, де слешем розділені вкладені одна в одну директорії. Наприклад, у такій директиві як ця (Disallow: /) слеш — це ніщо інше як коренева директорія веб-ресурсу.

  10. $ — символ долара

    Цей символ використовують для позначення кінця рядка. Наприклад, для того, щоб заборонити роботу сканувати всі файли з розширенням «.htm», достатньо у файл «robots.txt» додати цей рядок (Disallow: *.htm$). Однак, всі документи з розширенням «.html» будуть відкриті для скануючого павука.

  11. * — зірочка

    Якщо взяти приклад вище — (Disallow: *.htm$) і додати зірочку замість значка долара, отримаємо наступну конструкцію — (Disallow: *.htm*). Такою інструкцією ми заборонимо ботам сканувати всі файли, розширення яких починається на «.htm». Тобто всі документи що містять «.htm» і «.html» будуть заборонені для індексації.

    Простіше кажучи, символ зірочки в інструкціях означає «тут може бути все що завгодно, окрім службових символів». Наприклад, ось таким простим правилом — (Disallow: /*?*) можна закрити від індексації всі документи з динамічними параметрами в URL-адресі, тобто дублі сторінок. Зірочка на вигляд така тендітна і непоказна, проте її можливості просто величезні, і не лише у файлі «robots.txt».

Ось, власне, і все, що стосується інструментарію для ефективного управління поведінкою роботів, використовуючи «robots.txt». Однак, не роботсом єдиним, так би мовити. Є ще один ефективний спосіб заборони індексування технічних веб-сторінок, але про нього розповім трохи згодом.

Які сторінки потрібно закривати від індексації?

Так виглядає технічна сторінка сайту

Що таке технічні сторінки сайту?

Отже, ти вже знаєш як боротися з дублями сторінок й інші тонкощі управління пошуковими роботами. Тепер поговоримо про те, які сторінки обов'язково потрібно закривати від індексації. На будь-якому веб-ресурсі існують, так звані, технічні сторінки, які містять інформацію для внутрішнього використання, наприклад, власні сторінки помилок, сторінка з формою входу, ліцензійна угода, корзина та багато інших.

Як виглядає технічна сторінка?

На цьому сайті в категорію технічних документів я відніс сторінку підписки на статті блогу використовуючи соц. мережі. До речі, на вищезгаданій веб-сторінці кожен бажаючий має можливість підписатися на свіжі публікації блогу про заробіток в інтернет рекомендую тобі зробити це просто зараз щоб оперативно дізнаватися про нові статті.

Чому її треба закривати від ботів?

Це зроблено тому, що вона мені не потрібна в пошуковій видачі за низкою причин. І одна з них, — сторінка містить мізер текстового контенту, що робить її абсолютно некорисною в очах пошукових систем, див. зображення вище. Якщо поглянути на співвідношення текст/HTML, використовуючи розширення браузера «SEOquake», побачимо дуже сумну картину — 14.33%. З такою незначною кількістю тексту на сторінці, її категорично заборонено показувати пошуковому роботу, бо вона є неякісною.

Які наслідки очікують на сайт, якщо не закривати технічні сторінки?

Точно така ж сумна ситуація зі сторінками логінів, корзин та інших документів, вміст текстового контенту в яких дорівнює нулю. І якщо не закривати подібні документи від роботів, пошуковик їх звичайно ж проаналізує, і зробить сумний для web-ресурсу висновок: "Швидше за все, це якийсь дорвей або тестовий, давно закинутий сайт. Не потрібен нам цей мотлох у ТОП-і".

Чесно кажучи, якщо пошуковик накладе на сайт фільтр через неякісний, низькосортний контент, він буде абсолютно правий. Бо якщо вебмайстер не закрив це сміття від сканування, очевидно, що для нього цей мотлох важливий. І замість того, щоб раціонально використовувати дорогоцінний час пошукового робота на індексацію нових сторінок, він весь час потрапляє на ці пустишки. Йому це треба? Звичайно ж ні.

Метатег «robots» в HTML-сторінці

Коли варто його використовувати?

Крім інструменту «robots.txt», можна використовувати ще один метод закриття від очей роботів технічних сторінок сайту. Даний метод більш ефективний у порівнянні з попереднім, проте вимагає модифікації HTML-документів, що не так вже й складно реалізувати. Головне — мати технічну можливість прописати в окремих HTML-сторінках один рядок коду: <meta name="robots" content="nofollow, noindex">, див. приклад нижче.

Приклад використання html метатега robots зі значенням nofollow noindex

Прописавши даний метатег у блоці <head> (на картинці вище, виділено бузковим кольором), можна сміливо сказати, що сторінка надійно закрита від пошукового робота, а значить, вона ніколи не з'явиться в результатах видачі.

Звичайно ж, всі ці заборони на сканування ботами сторінок, досить умовні, і можуть бути проігноровані пошуковими системами. Принаймні, так говорять самі пошуковики. Нам залишається лише сподіватись, що все буде працювати як слід, і всі наші зусилля не виявляться марними.

Отже, з файлом та метатегом «robots» ми закінчили. Як бачиш, немає нічого складного. Зараз розглянемо другий важливий файл — «sitemap.xml», який має свої плюси і мінуси. Але не буду забігати вперед, і розповім все по порядку.

Файл «sitemap.xml»

Що це таке і який у ньому сенс?

Назва файлу «Sitemap» складається з двох слів «site» — сайт, і «map» — карта. Тобто «Sitemap» — це карта сайту. Простіше кажучи, це список URL-адрес всіх розділів, статей та інших сторінок, які ми хочемо бачити в пошуковій видачі. Цей список допомагає пошуковому боту швидше обробляти документи веб-ресурсу, які були додані, змінені або видалені, див. скріншот нижче.

Приклад карти сайту файл sitemap.xml для веб-ресурсу

Наприклад, на сайті є 5000 сторінок, 10 з яких змінені, 8 видалені, і 2 додані. Таким чином, роботу потрібно обробити всього лише 20 сторінок web-ресурсу, а не перелопачувати всі 5000. Наше завдання — допомогти павуку якомога швидше обійти всі потрібні документи, інакше у нього не залишиться часу на їх пошук та обробку, в зв'язку з обмеженим часом перебування на одному ресурсі.

Способи створення файлу «Sitemap»

Все той же Notepad++, двіжок, чи онлайн сервіси?

Мені відомі 3 способи створення і наповнення вмістом файлу «sitemap.xml». Найпростіший — кнопка у адмінці двіжка, після натискання якої, CMS-ка генерує даний файл, і розташовує його в кореневій директорії. Є двіжки, які автоматично створюють цей файл при додаванні або видаленні сторінок. Що, якщо чесно, не завжди потрібно, але про це поговоримо трохи нижче.

Отже, якщо такої можливості в твоєму движку немає, тоді другий варіант — онлайн сервіс від Ґуґла (www.xml-sitemaps.com). Там достатньо ввести адресу веб-ресурсу (ім'я домену), клікнути кілька раз, та залити згенерований файл на сервер. Третій — створити цей файл вручну. Якщо сторінок не багато — проблем немає. Але якщо їх 5000 — називається важко.

Користь та шкода від карти сайту

Коли оновлення «sitemap.xml» варто відкласти?

Трохи вище я вже коротко розповів про користь карти сайту. Єдине, що можна ще додати до плюсів, — прискорення індексації нової статті, згодовуючи файл «sitemap.xml» пошуковому роботу через панель вебмайстрів при додаванні нового документу. Власне, на цьому плюси закінчуються, і починаються мінуси, яких не багато, але вони є.

Головний мінус карти сайту полягає в тому, що її бачать всі кому не лінь. Чим це погано? Проблема в тому, що молодий web-ресурс дуже повільно індексується пошуковими системами (навіть згодовуючи боту «sitemap.xml»), і це може послужити погану службу для захисту контенту. Конкуренти по бізнесу або просто інтернет-гопники можуть запросто красти нові статті, використовуючи автоматично оновлений файл «sitemap.xml», або ж використовуючи все той же онлайн сервіс генерації карт сайту.

Доки веб-ресурс не підгодує пошукових павуків (як це зробити ти вже знаєш), краще забути про автоматичне оновлення карти сайту. Також не рекомендую на молодому сайті підключати RSS-стрічку, автоматичні E-mail сповіщення, все з тієї ж причини. Не потрібно поспішати публікувати анонси нових статей в паблік різних соц. мереж. Раджу відкласти це заняття на тиждень, дочекавшись візиту пошукового робота на нову сторінку.

Докладніше про методи захисту контенту я розповім в одній з наступних публікацій, бо ця тема жива і дуже актуальна. А сьогоднішню статтю про методи покращення індексації сайту за допомогою «sitemap.xml» та «robots.txt» настав час закінчувати. Успішного просування, і до скорої зустрічі!

Щоб зрозуміти наскільки ти в темі, пройди тест 👇
  • 100 секунд на проходження тестуRealCase

    Тест
  • 5 питань по тематиці сайту
  • 4 варіанти відповідей на кожен
Готовий(-а) перевірити рівень своїх знань?

  •  Тест пройдено 1 раз.
  • Останнє проходження: 18.12.2019 18:00

   
  
 
 
📚Не проґав!
💬Коментарі (Ще немає... твій буде першим)  
    • Ліміт 2000 символів
    • залишилось: