Sommige van mijn websites doen een hoop werk wanneer jij en ik lekker liggen te slapen. Denk hierbij aan backups, updates en zo meer. Omdat de websites dan ontzettend goed aan het werk zijn kan de beschikbaarheid van de webpagina’s soms niet optimaal zijn. Om te voorkomen dat Google en andere crawlers de site niet goed kunnen indexeren is het mogelijk om aan te geven dat ze alleen gedurende specifieke uren de website gaan crawlen. Je kan dit ook andersom benaderen, als je wilt dat je website overdag optimaal bereikbaar is en niet wordt gehinderd door het bezoek van spiders, kan je aangeven alleen ’s nachts te crawlen.
Hoe doet je dat?
Ik neem aan dat je bekend bent met het gebruik van robots.txt. Hier is al veel over geschreven, ik kan alleen weinig vinden over het crawlen op specifieke uren c.q. tijden. Ik beperk me daarom dan ook alleen tot deze instelling.
Voeg de onderstaande regel toe aan je robots.txt om de spiders je site te laten bezoeken tussen 10 uur ’s ochtends en 23 uur ’s avonds
User-agent: * Visit-time: 0800-2100 # Bezoeken tussen 10 uur (8H UTC) en 23 uur nederlandse tijd (21H UTC)
Wil je juist dat Google alleen ’s nachts je site indexeert? Gebruik dan:
User-agent: * Visit-time: 2200-0600 # Bezoeken tussen 10 uur (0H UTC) en 8 uur nederlandse tijd (6H UTC)