Обхождащи роботи на Google

Кои роботи (crawlers) използва Google за обхождане на мрежата?

Crawler е общ термин за всяка програма (като робот или паяк), използвана за автоматично откриване и сканиране на уебсайтове, като се следват връзки от една уеб страница към друга. Основният робот (потребителски агент, user-agent) на Google се нарича Googlebot.

Различните ботове на Google

Таблицата съдържа информация за различните роботи на Google, чиито имена може да видите в логовете за достъп, както и правилния начин на изписване на имената в robots.txt файла, в мета таговете на роботите и HTTP директивите за маркери X-Robots.

В следващата таблица символът за потребителски агент се използва в реда User-agent: в robots.txt, за да съответства на конкретния робот.

Някои роботи отговарят на повече от едно означение, както е показано в таблицата, Вие трябва да използвате само едно съответстващо означение за всеки робот.

Робот (Crawler)Име на потребителски агентURL адрес в логовете за достъп
APIs-GoogleAPIs-GoogleAPIs-Google (+https://developers.google.com/webmasters/APIs-Google.html)
AdSenseMediapartners-GoogleMediapartners-Google
AdsBot Mobile Web Android (Проверява качеството на рекламите на Android)AdsBot-Google-MobileMozilla 5.0 (Linux; Android/5.0; SM-G920A) AppleWebKit (KHTML, like Gecko) Chrome Mobile Safari (compatible; AdsBot-Google-Mobile; +http://www.google.com/mobile/adsbot.html)
AdsBot Mobile Web (Проверява качеството на рекламите на iPhone)AdsBot-Google-MobileMozilla/5.0 (iPhone; CPU iPhone OS 9_1 like Mac OS X) AppleWebKit/601.1.46 (KHTML, like Gecko) Version/9.0 Mobile 13B143 Safari/601.1 (compatible; AdsBot-Google-Mobile; +http://www.google.com/mobile/adsbot.html)
AdsBot (Проверява качеството на рекламите на десктоп компютър)AdsBot-GoogleAdsBot-Google (+http://www.google.com/adsbot.html)
Googlebot ImagesGooglebot-Image GooglebotGooglebot-Image/1.0
Googlebot NewsGooglebot-News GooglebotGooglebot-News
Googlebot VideoGooglebot-Video GooglebotGooglebot-Video/1.0
Googlebot (Desktop)GooglebotMozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html) или (в редки случаи) Googlebot/2.1; (+http://www.google.com/bot.html)
Googlebot (Smartphone)GooglebotMozilla/5.0 (Linux; Android/6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2272.96 Mobile Safari/537.36 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)
Mobile AdSenseMediapartners-Google(Различни видове мобилни устройства)(compatible; Mediapartners-Google/2.1;+http://www.google.com/bot.html)
Mobile Apps Android (Checks Android app page ad quality. Obeys AdsBot-Google robots rules.)AdsBot-Google-Mobile-AppsAdsBot-Google-Mobile-Apps

Потребителски агенти в robots.txt

Когато във файла robots.txt са посочени имената на няколко потребителски агента, Google следва най-конкретните. Ако искате всички роботи на Google да обхождат страниците на Вашия сайт, Вие не се нуждаете от файл robots.txt.

Ако искате да блокирате или позволите на всички роботи на Google да имат достъп до част от съдържанието Ви, можете да направите това, като посочите Googlebot като потребителски агент.

Например, ако искате всички Ваши уеб страници да се показват в резултатите от търсенето и ако искате рекламите от AdSense да се зареждат на Вашите страниците, нямате нужда от файл robots.txt. По същия начин, ако искате да забраните индексирането на някои страници, блокирането на потребителския агент Googlebot ще блокира и всички останали потребителски агенти на Google.

Но ако искате по-фин контрол, може да получите по-конкретни резултати чрез използване на различни потребителски агенти. Например, може би искате всички страници да се показват в Google Search, но не искате в тези страници да се обхождат изображения от личната Ви директория? В този случай използвайте файла robots.txt, за да забраните на потребителския агент Googlebot-Image да обхожда файловете в личната Ви директория (като същевременно позволява на Googlebot да обхожда всички файлове):

User-agent: Googlebot
Disallow:
User-agent: Googlebot-Image
Disallow: /personal

Друг пример, Вие искате реклами на всички страници, но не искате тези страници да се показват в Google Search. Блокирайте Googlebot, но разрешете обхождането на Mediapartners-Google по следния начин:

User-agent: Googlebot
Disallow: /
User-agent: Mediapartners-Google
Disallow:

Потребителски агенти в мета маркера на роботите

Някои страници използват няколко маркера за роботи, за да укажат директиви за различни роботи, както следва:

<meta name="robots" content="nofollow">
<meta name="googlebot" content="noindex">

В този случай Google ще използва сумата от отрицателните директиви и Googlebot ще следва както директивите noindex, така и nofollow. По-подробна информация за контрола върху начина, по който Google обхожда и индексира Вашия сайт.

Обновена: 18.03.2022
Беше ли Ви полезна тази статия?

Вижте още