Googlebot е скрипт, програма, приложение за обхождане на интернет мрежата (понякога го наричат робот или паяк). Обхождането е процес, чрез който Googlebot открива нови и актуализирани страници, които добавя към индекса на Google.
Google използва огромен набор от компютри, за да обходи (индексира) милиарди уеб страници в интернет. Googlebot следва предварително зададен алгоритъм на обхождане, който задава колко често и колко страници да извлече от определен сайт.
Процесът на обхождане на Googlebot започва със списък от URL адреси на уеб страници, генерирани от предишни посещения и допълнени с данни от картата на сайта (Sitemap), предоставена от администратора на сайта.
Тъй като Googlebot посещава всеки от тези уебсайтове, той открива връзките (SRC и HREF) на всяка страница и ги добавя към своя списък с страници за обхождане. Нови сайтове, промени в съществуващи сайтове и мъртви връзки (връзки към несъществуващи страници) се отбелязват и се използват за актуализиране на индекса на Google.
Как Googlebot осъществява достъп до Вашия сайт?
За повечето сайтове Googlebot не трябва да влиза в сайта повече от веднъж на няколко секунди средно. Въпреки това, поради забавяния в мрежата, възможно е скоростта да изглежда малко по-висока за кратки периоди.
Googlebot е проектиран да работи на голям брой машини едновременно, за да се подобри производителността и гъвкавостта, в зависимост от структурата (растежа) на мрежата.
Също така, за да се намали разхода на ресурс, роботите работят на машини, разположени в близост до сайтовете, които индексират. Поради тази причина в логовете за достъп може да забележите посещения от няколко машини на google.com
, всички с потребителския агент Googlebot.
Целта е да се индексират максимален брой страници от един сайт при всяко посещение без това да доведе до претоварване на сървъра.
Блокиране на Googlebot от съдържанието на сайта
Почти е невъзможно да се пази таен уеб сайт, като не се публикуват връзки към него. Веднага щом някой последва връзка от Вашия таен сайт към друг уеб сървър, Вашият таен URL адрес може да се появи в маркера за препращане и може да бъде съхранен и публикуван от другия уеб сървър в неговите логове за достъп.
По същия начин в мрежата се запазват много остарели и невалидни връзки. Когато някой публикува неправилна връзка към Вашия сайт или не актуализира връзки, за да отрази промените в сайта, Googlebot ще се опита да последва тази невалидна връзка.
Ако искате да предотвратите обхождането на съдържание от сайта на Googlebot, имате няколко опции, включително използването на robots.txt, за да блокирате достъпа до файлове и директории на Вашия сървър.
След като създадете файла robots.txt, може да има малко забавяне, преди Googlebot да открие промените. Ако Googlebot все още обхожда блокираното съдържание, проверете дали файлът robots.txt е в правилното местоположение. Той трябва да е в началната директория на сайта (например mysupersite.com/robots.txt
). Поставянето на файла в поддиректория няма да има ефект.
Ако просто искате да предотвратите съобщенията за грешка file not found
в логовете на уеб сървъра, можете да създадете празен файл, наречен robots.txt. Ако искате да попречите на Googlebot да следва връзки към страница на сайта, може да използвате маркера meta nofollow
. За да не позволите на Googlebot да следва индивидуална връзка, добавете атрибута rel = "nofollow"
като атрибут в кода на самата връзка.
Потребителският агент на Google е Googlebot. Инструментът Извличане като Google
(Fetch as Google) в Search Console Ви помага да разберете точно как изглежда Вашият сайт за Googlebot. Това може да бъде много полезно при отстраняване на проблеми със съдържанието на сайта или откриваемост в резултатите от търсенето.
Нежелано обхождане на сайта
IP адресите, използвани от Googlebot, се променят периодично. Най-добрият начин да идентифицирате достъпа от Googlebot е да използвате потребителския агент Googlebot. Може да проверите дали ботът, достъпил Вашия сайт, наистина е Googlebot, като използвате обратно DNS търсене (проверка за PTR запис).
Googlebot и всички легитимни ботове на търсещи машини спазват директивите в robots.txt, но някои злонамерени лица и спамери не го правят. Можете да подадете сигнал за спам до Google при установяване на системни нарушения.
Google има няколко други потребителски агента, включително Feedfetcher (потребителски агент Feedfetcher-Google). Тъй като заявките на Feedfetcher идват от изрични действия на хора, които са добавили емисиите към началната страница на Google, а не от автоматизирани роботи, Feedfetcher не спазва указанията на robots.txt.
Можете да предотвратите обхождането на Вашия сайт от Feedfetcher като конфигурирате сървъра си да показва 404, 410 или друго съобщение за грешка на заявки от user-agent Feedfetcher-Google.
Вижте още за блокирането на лоши ботове: 🔗 Обхождащи роботи, блокиране на лоши ботове | Help