In een robots.txt bestand staan richtlijnen voor de zoekmachine wanneer deze uw site crawlt. De spider zal dus altijd eerst het robots.txt bestand ophalen om te kijken of er specifieke zaken zijn waarop hij moet letten.

Door het gebruik van een robots.txt bestand is uw website beter crawlbaar, vermijdt u duplicate content en kan u de zoekmachine toegang verbieden tot een deel van uw website.

Over het algemeen wordt afgeraden om een noindex tag te gebruiken in uw robots.txt bestand. Hier wordt eerder een “disallow” gebruikt. Daarmee verbiedt u de toegang tot een bepaalde pagina op uw website. Een veel voorkomende disallow op WordPress sites is: “disallow: /wp-admin/” waarmee u de toegang tot uw admin pagina verbiedt.

Google raadt zelf af om een noindex in uw robots.txt bestand op te nemen. Dit kan namelijk tot verwarring leiden. Stel u plaatst een noindex in uw robots.txt én op uw pagina, dan zal die pagina juist wel geïndexeerd worden. Hetzelfde gebeurt wanneer u een disallow op die pagina instelt in uw robots.txt bestand. De zoekmachine krijgt geen toegang tot die pagina en kan dus ook niet zien dat hij niet geïndexeerd mag worden.

Indien u een noindex of nofollow wil gebruiken, zet u deze best altijd in de meta data van uw pagina. Zo voorkomt u verwarringen en bent u zeker dat uw pagina niet geïndexeerd wordt of dat de linken op die pagina niet gevolgd worden.

Aanbevolen artikel  Linkbuilding uitbesteden? Waarom, do’s & don’ts