Googlebot
Googlebot არის საერთო დასახელება Google-ის საძიებო სისტემის ორი ტიპის ვებ-ქრავლერისთვის:
- Googlebot Smartphone: მობილური ქრავლერი, რომელიც იმიტირებს მომხმარებელს მობილურ მოწყობილობიდან.
- Googlebot Desktop: დესკტოპ ქრავლერი, რომელიც იმიტირებს მომხმარებელს დესკტოპ კომპიუტერიდან.
Googlebot-ის ტიპის დადგენა შესაძლებელია HTTP ჰედერის საშუალებით. ორივე ქრავლერი ერთსა და იმავე robots.txt-ის წესებს ექვემდებარება, ამიტომ შეუძლებელია robots.txt-ის გამოყენებით მხოლოდ Googlebot Smartphone-ის ან მხოლოდ Googlebot Desktop-ის სელექციური დაბლოკვა.
უმეტეს შემთხვევაში Google-ის საძიებო სისტემა ძირითადად აინდექსირებს კონტენტის მობილურ ვერსიას. შესაბამისად, Googlebot-ის მოთხოვნების უმეტესობა მობილური ქრავლერის გამოყენებით ხდება, ხოლო ნაკლები ნაწილი – დესკტოპ ქრავლერით.
როგორ იღებს Googlebot თქვენს საიტზე წვდომას
საიტებზე Googlebot-ის წვდომა საშუალოდ რამდენიმე წამში ერთხელ ხდება. თუმცა, მცირე პერიოდებში შესაძლოა ქრავლინგის სიხშირე გაიზარდოს. თუ თქვენს საიტს უჭირს Google-ის გაზრდილი მოთხოვნების მართვა, შესაძლებელია ქრავლინგის სიხშირის შემცირება.
Googlebot-ს შეუძლია 15MB-მდე HTML ფაილის ან სხვა მხარდაჭერილი ტექსტური ფაილის ქრავლინგი. HTML-ში მითითებული თითოეული რესურსი (CSS, JavaScript) ცალკე იტვირთება და მათზეც იგივე მოცულობის შეზღუდვა მოქმედებს. პირველი 15MB-ის შემდეგ, Googlebot წყვეტს გვერდის შესწავლას და მხოლოდ პირველ 15MB-ს აგზავნის ინდექსირებისთვის. ეს ზომის შეზღუდვა არაკომპრესირებულ მონაცემებზე ვრცელდება. Google-ის სხვა ქრავლერებს (მაგალითად, Googlebot Video ან Googlebot Image) შესაძლოა სხვა ზომის შეზღუდვები ჰქონდეთ.
როდესაც ქრავლინგი აშშ-ში მდებარე IP მისამართებიდან ხდება, Googlebot იყენებს წყნარი ოკეანის დროის ზონას (Pacific Time).
Googlebot-ის სხვა ტექნიკური მახასიათებლები აღწერილია Google-ის ქრავლერების მიმოხილვაში.
Googlebot-ის დაბლოკვა
Googlebot პოულობს ახალ URL-ებს უკვე ნანახ გვერდებზე ჩაშენებული ბმულების დახმარებით. საიტის “საიდუმლოდ” შენახვა თითქმის შეუძლებელია, რადგან თუნდაც ერთი ბმულის დაწკაპუნების შედეგად, URL შეიძლება სხვა საიტის referrer-ტეგში მოხვდეს და იქიდან გავრცელდეს.
თუ გსურთ Googlebot-ის მიერ საიტის ქრაულინგის შეზღუდვა, გამოიყენეთ:
- robots.txt – გვერდის ქრავლინგის შესაჩერებლად
- noindex – გვერდის ინდექსირების შესაჩერებლად
- სხვა მეთოდები (მაგ. პაროლით დაცვა) – სრულად წვდომის დასაბლოკად
Googlebot-ის დაბლოკვა გავლენას ახდენს Google-ის საძიებო სისტემაზე (Discover-ის და სხვა ფუნქციების ჩათვლით), ასევე Google Images, Google Video და Google News სერვისებზე.
Googlebot-ის ავთენტიფიკაცია
სანამ Googlebot-ის დაბლოკვას გადაწყვეტთ, მნიშვნელოვანია იცოდეთ, რომ Googlebot-ის user-agent-ი ხშირად სხვა ქრავლერების მიერაც გამოიყენება. დარწმუნდით, რომ პრობლემური მოთხოვნა რეალურად Google-ს ეკუთვნის. Googlebot-ის ავთენტიფიკაციის საუკეთესო გზა არის წყაროს IP მისამართის reverse DNS-ით შემოწმება ან IP მისამართის შედარება Googlebot-ის ოფიციალურ IP დიაპაზონთან.