Te debes estar preguntando ¿por qué algunas webs no desean estar indexadas?. La respuesta es sencilla, todas aquellas páginas web cuyo modelo de negocio pasa por la venta de contenido (diarios online, archivos, venta de informes o de estudios, etc...) no desean que se pueda acceder de forma gratuita a su contenido, así que no permiten que las arañas indexen las zonas de su web donde está publicado el contenido de pago.
También hay gente que no desea que las arañas entren en sus páginas, para no sobrecargar sus servidores. En todo caso, en este capítulo te explicamos cómo hacer que las arañas no entren o que entren sólo en las zonas que tu deseas, sin tener que indicarlo en cada una de las páginas de tu web.
El Protocolo de Exclusión de Robots
Los webmaster tienen la posibilidad de no permitir el acceso a determinados Robots o no permitir la inspección de determinadas rutas de su página web. El método empleado para evitar la inspección de sus páginas por parte de los Robots, se estructura en dos ámbitos: por un lado, se facilita al Administrador del Web un mecanismo de exclusión de Robots y por otro, se proporciona al propietario de cada página HTML un mecanismo adicional de control del acceso a la misma por parte de los Robots.
El primer mecanismo se denomina "Protocolo de Exclusión de Robots", y permite al Administrador decidir qué partes del Web no deben ser indexadas. El medio para conseguirlo: un archivo de texto denominado ROBOTS.TXT que contiene las instrucciones sobre las páginas visitables y las que no permiten el acceso a los Robots.
El segundo mecanismo, que proporciona un nivel adicional de protección para el propietario de cada página, se logra mediante la inserción de unas etiquetas HTML denominadas META Tags (es decir: Etiquetas META) en las que se indica al Robot si debe o no inspeccionar o indexar cada página HTML individual. Si deseas más información acerca del META ROBOTS, la encontrarás aquí: Meta Robots
El fichero ROBOTS.TXT
El "Protocolo de Exclusión de Robots" se basa en la especificación del contenido de un fichero ROBOTS.TXT en el que se presentan las instrucciones de comportamiento oportunas para los Robots en relación con las páginas inspeccionables.
La razón de elegir un fichero como método de exclusión de páginas es que con sólo "bajarse" este fichero, el Robot conoce las páginas indexables de una página web y no tiene que visitarlas una por una para estar seguro de si puede indexarlas o no.
Cuando un robot o araña entra por primera vez en una página web, lo primero que visita es la url: www.nombredelapágina.com/robots.txt Si allí no encuentra ninguna instrucción que le impida navegar por la web, entonces empezará el escaneo. Si el administrador de la web ha incluido en esa página alguna instrucción que le afecta, se irá de la página y no escaneará su contenido.
Nosotros recomendamos crear siempre la página robots.txt, aunque
desees que los robots entren siempre en tus páginas. Si no la
creas, cada vez que un robot la busque generará un error 404 en tu
servidor (404: Page not found) y en tus estadísticas te apareceran
cientos de estos errores al día. Si creas la página y la dejas en
blanco evitarás estos errores.
Si deseas más información acerca del Protocolo de Exclusión de
Robots, la encontrarás aquí: Protocolo de Exclusión de Robots.
Algunos ejemplos de páginas robots.txt:
http://www.noticias.com/robots.txt (en blanco. En el próximo capítulo descubrirás porqué los webmaster de Noticias.com han creado una página en blanco)
http://www.mailxmail.com/robots.txt (filtrando ciertos directorios)
http://www.whitehouse.gov/robots.txt (filtrando una enorme lista de directorios)
Hay 5 opiniones. Opina sobre este curso.
| Cursos | Valoración | Alumnos | Vídeo | |
|---|---|---|---|---|
|
Cómo bajar videos youtube Cómo bajar videos youtube es una pregunta que en distintas ocasiones nos hemos formulado. Este curso pretende enseñar como bajar de youtube videos en la... [09/12/08] |
|
2.100 | ||
|
Promoción en buscadores "sin estrategia no hay éxito" Cuando estas planificando lanzar tu primer sitio Web o estas asombrado de que tu contador no se mueva es el momento de hacer una estrategia para promover tu sitio. Conoce... [03/08/06] |
|
474 | ||
|
Posicionamiento Web El posicionamiento en los buscadores es un factor clave para una empresa. El 75% de los visitantes nuevos de un sitio web se consiguen mediante buscadores de internet. Ap... [30/05/08] |
|
548 | ||
Publicar en
del.icio.us
digg
meneame