it-swarm-fr.com

Si je ne souhaite pas définir de comportement particulier, est-ce que je peux utiliser un fichier robots.txt si je ne me dérange pas?

Si je ne souhaite pas définir de comportement particulier, est-ce que je peux utiliser un fichier robots.txt si je ne me dérange pas?

Ou le manque d'un peut-il être nuisible?

29
Dan Dumitru

L'absence d'un fichier robots.txt ne sera pas nuisible. Depuis le site web robotstxt.org :

Permettre à tous les robots un accès complet

Agent utilisateur: *
Refuser:

(ou créez simplement un fichier "/robots.txt" vide, ou n'en utilisez pas du tout)

Cependant, même si vous ne spécifiez rien dans votre fichier robots.txt, il s'agit d'un bon moyen de informer les moteurs de recherche de l'emplacement de votre sitemap XML . Vous pouvez le faire en ajoutant une ligne en haut de votre fichier robots.txt qui ressemble à quelque chose comme:

Plan du site: http://www.example.com/sitemap-Host1.xml

Vous devez également savoir que ne pas l'avoir créé créera beaucoup de 404 entrées dans vos journaux Web.

30
JasonBirch

Si vous n'avez pas de fichier "robots.txt", votre journal d'erreurs contiendra beaucoup de 404, ce qui peut être une sorte de gêne, similaire à l'absence de favicon.

21
delete

Je pense que cela serait avoir soit OK, sinon d’énormes bandes du Web ne pourraient pas être indexées par des araignées Web.

Non robots.txt est identique à "autoriser l'indexation par tout le monde" robots.txt presque par définition.

6
Jeff Atwood

L'absence de fichier robots.txt laisse au robot d'exploration le soin de décider de ce qu'il peut ou non faire. Comme il ne faut que quelques secondes pour éviter toute ambiguïté, pourquoi ne pas en créer un qui permette à tous les agents d'accéder à tout?

2
Tim Post

Eh bien, puisque robots.txt contient l'adresse de votre sitemap , ne pas en avoir est potentiellement dangereux.

0
Thomas Bonini

En fonction de votre contenu, le fait de ne pas avoir de fichier de robots ne devrait pas poser de problème tant que vous avez la possibilité d'indexer chaque page de votre site par les moteurs de recherche.

0
seanl