Usar los archivos de Robots.txt para alimentar el Spiderbots
| by Christian Whiting | August 11, 2005
Es una tarde de jueves. Estás mirando tus registros del Web site para determinarse de adónde tus golpes están viniendo. Notas que estás consiguiendo una tonelada de 404 expedientes de los errores para un archivo de robots.txt.
Puede ser que incluso no sepas cuál es un archivo de robots.txt, aún menos porqué falta de tu Web site. Toma dejada una mirada en este archivo misterioso que se parezca faltar y porqué es importante tenerlo.
Los motores de búsqueda tienen gusto de la travesía de Google el Internet enviando su software spidering. Éstos se conocen comúnmente como spiderbots. Los spiderbots visitan Web site todo alrededor del Internet para incluirlos en sus listados del índice. La primera cosa buscan cuando visitan son un archivo llamado el archivo de robots.txt. Este archivo se encuentra normalmente en el directorio de raíz del Web site recibido.
Este archivo contiene un sistema de las reglas que las arañas se programan obedecer basado en protocolo estándar. La ayuda de estas reglas la araña que visita se determina qué parte de tu Web site para incluir o para no hacer caso de todos juntos.
La regla más común usada en el archivo de robots.txt es negar a las arañas del Search Engine el acceso a las áreas restrictas de tu Web site que no las deseas que visitan y que ponen en un índice para que el Internet entero vea.
Estas áreas restrictas contienen normalmente tus transferencias directas, las imágenes, o un directorio del cgi-compartimiento que sean utilizados solamente por tus visitantes del Web site o para las operaciones diarias normales de ti Web site.
No es qué archivo de A robots.txt….
Tener presente que un archivo de robots.txt no es un método para mantener tu información segura y la caja fuerte de ojos que alzapriman. Se utiliza simplemente para trabar arañas que visitan de áreas de indexación de direcciones de tu Web site.
Observar eso que usa un archivo de robots.txt no acelera el proceso de los motores de búsqueda que ponen en un índice y que consiguen tu Web site en tus directorios de la búsqueda. También, un archivo de robots.txt no se utiliza para decir a arañas del Search Engine qué hacer, sólo qué a no hacer.
Ventajas de usar un archivo de robots.txt:
• Si tienes las partes de tu Web site que son muy similares tú pueden bloquearlas del arrastre a evitar de ser señalada por medio de una bandera como spammer. Esto es especialmente útil si tienes páginas similares optimizadas para los diversos browsers del Web site o velocidades de la conexión del Web site.
• Eliminas 404 errores para faltar robots.txt de tus registros del servidor usando un archivo de robots.txt. Apenas crear un archivo en blanco de robots.txt en un archivo de texto básico que corrige programa y upload lo a tu directorio de raíz.
• Se puede utilizar para bloquear arañas del Search Engine de la pieza de la indexación de direcciones o de todo tu Web site ahorrar anchura de banda valiosa
Crear A robots.xt
Crear un archivo de robots.txt no es complicado pero debes ser seguro hacerlo correctamente. Si tu archivo contiene reglas incorrectas puede bloquear totalmente todas las arañas y evitar que pongan en un índice tu Web site.
Puedes crear un archivo de robots.txt usando un programa simple el corregir de texto como la libreta o tú puede generar un archivo que usa automáticamente varios programas del software o recursos en línea del Web site.
Para la información y las reglas en cómo crear manualmente robots.txt archivar
visitar http://www.robotstxt.org/wc/exclusion.html#robotstxt
Para crear una visita en línea del archivo de robots.txt:
http://searchbliss.com/webmaster_tools/robots-txt-text-generator.htm
Una vez que tengas un upload creado archivo de robots.txt él a tu directorio de raíz de tu Web site. Serás listo ahora la próxima vez que vienen los spiderbots alrededor.
Puede ser que incluso no sepas cuál es un archivo de robots.txt, aún menos porqué falta de tu Web site. Toma dejada una mirada en este archivo misterioso que se parezca faltar y porqué es importante tenerlo.
Los motores de búsqueda tienen gusto de la travesía de Google el Internet enviando su software spidering. Éstos se conocen comúnmente como spiderbots. Los spiderbots visitan Web site todo alrededor del Internet para incluirlos en sus listados del índice. La primera cosa buscan cuando visitan son un archivo llamado el archivo de robots.txt. Este archivo se encuentra normalmente en el directorio de raíz del Web site recibido.
Este archivo contiene un sistema de las reglas que las arañas se programan obedecer basado en protocolo estándar. La ayuda de estas reglas la araña que visita se determina qué parte de tu Web site para incluir o para no hacer caso de todos juntos.
La regla más común usada en el archivo de robots.txt es negar a las arañas del Search Engine el acceso a las áreas restrictas de tu Web site que no las deseas que visitan y que ponen en un índice para que el Internet entero vea.
Estas áreas restrictas contienen normalmente tus transferencias directas, las imágenes, o un directorio del cgi-compartimiento que sean utilizados solamente por tus visitantes del Web site o para las operaciones diarias normales de ti Web site.
No es qué archivo de A robots.txt….
Tener presente que un archivo de robots.txt no es un método para mantener tu información segura y la caja fuerte de ojos que alzapriman. Se utiliza simplemente para trabar arañas que visitan de áreas de indexación de direcciones de tu Web site.
Observar eso que usa un archivo de robots.txt no acelera el proceso de los motores de búsqueda que ponen en un índice y que consiguen tu Web site en tus directorios de la búsqueda. También, un archivo de robots.txt no se utiliza para decir a arañas del Search Engine qué hacer, sólo qué a no hacer.
Ventajas de usar un archivo de robots.txt:
• Si tienes las partes de tu Web site que son muy similares tú pueden bloquearlas del arrastre a evitar de ser señalada por medio de una bandera como spammer. Esto es especialmente útil si tienes páginas similares optimizadas para los diversos browsers del Web site o velocidades de la conexión del Web site.
• Eliminas 404 errores para faltar robots.txt de tus registros del servidor usando un archivo de robots.txt. Apenas crear un archivo en blanco de robots.txt en un archivo de texto básico que corrige programa y upload lo a tu directorio de raíz.
• Se puede utilizar para bloquear arañas del Search Engine de la pieza de la indexación de direcciones o de todo tu Web site ahorrar anchura de banda valiosa
Crear A robots.xt
Crear un archivo de robots.txt no es complicado pero debes ser seguro hacerlo correctamente. Si tu archivo contiene reglas incorrectas puede bloquear totalmente todas las arañas y evitar que pongan en un índice tu Web site.
Puedes crear un archivo de robots.txt usando un programa simple el corregir de texto como la libreta o tú puede generar un archivo que usa automáticamente varios programas del software o recursos en línea del Web site.
Para la información y las reglas en cómo crear manualmente robots.txt archivar
visitar http://www.robotstxt.org/wc/exclusion.html#robotstxt
Para crear una visita en línea del archivo de robots.txt:
http://searchbliss.com/webmaster_tools/robots-txt-text-generator.htm
Una vez que tengas un upload creado archivo de robots.txt él a tu directorio de raíz de tu Web site. Serás listo ahora la próxima vez que vienen los spiderbots alrededor.
Article Source: http://www.articleset.com

You are welcome to publish or reprint this article free of charge, provided:
- you include the entire article, unchanged, including the "About The Author" box
- all hyperlinks remain active, including the bottom ArticleSet.com link (does not apply to print publications)
- you agree not to hold the authors nor ArticleSet.com liable for any loss profits, expenses, or any other damages resulting from the use or misuse of articles published on this website