En la unidad didáctica anterior hemos comentado que todas las arañas de buscardores y la mayor parte de agentes robot que navegan por la red, cumplen el Protocolo de Exclusión de Robots, y por lo tanto, antes de entrar en una página web, consultan el fichero robots.txt de esa página web para asegurarse de que realmente desea ser indexada o para conocer qué partes de su web no deben ser escaneadas.
Así que constantemente las arañas estarán accediendo a la página robots.txt de nuestra web. Si no tenemos ninguna página con ese nombre, las arañas creen que queremos ser indexados, y empiezan la visita a nuestra home y a todas las páginas que desde ella sean accesibles. Hasta ahí, no hay problema, porqué normalmente todos queremos que las arañas de los buscadores nos escaneen la web...
...Pero aunque el hecho de que las arañas intenten acceder a una página que no existe no las afecte, esto sí afecta a nuestro servidor de internet y a nuestras estadísticas. El intento de acceso a una página que no existe, genera un error 404 page not found que queda registrado en nuestos logs.
Cuando analicemos las estadísticas de nuestro site, nos aparecerán muchos errores 404 y creeremos que nuestros usuarios están intentando llamar a páginas inexistentes o bien que tenemos algún problema de links rotos que no llevan a ninguna parte... cuando en realidad, serán las arañas y el resto de agentes robot los que estarán creando los errores 404.
Por eso se recomienda crear una página en blanco y guardarla en nuestro servidor con el nombre de Robots.txt. De esta forma, las arañas encontrarán la página, la leeran y verán que no hay nada que les impida idexar toda la página web. Y en nuestras estadísticas no tendremos errores 404 generados por no humanos.
Si deseas ver nuestra página robots.txt, aquí la tienes: robots.txt (verás que está en blanco).
Hay 5 opiniones. Opina sobre este curso.
| Cursos | Valoración | Alumnos | Vídeo | |
|---|---|---|---|---|
|
Comercio electrónico. Condiciones generales de contratación electrónica (2/2) Conoce las condiciones generales de contratación electrónica (CGC) en torno al comercio cibernético o comercio por Internet, y todo el marco ... [08/01/09] |
|
400 | ||
|
La cibernética La Cibernética se presenta como un nuevo paradigma científico, y como tal capaz de abordar y brindar solución global a la compleja problemática actual. Los protagonist... [09/03/06] |
|
1.468 | ||
|
PHP y MySQL. Aplicaciones Web: HTML I (segunda parte) Programación de aplicaciones Web con PHP y MySQL. Ahora estudiaremos las páginas Web HTML, la estructura de los documentos HTML y los tipos de documentos... [02/12/08] |
|
1.137 | ||
Publicar en
del.icio.us
digg
meneame