Cómo prevenir el contenido duplicado
| by Harvey Kane | March 22, 2006
El contenido duplicado es un problema con muchos Web site, y la mayoría de los webmasters no realizan que están haciendo cualquier cosa mal.
La mayoría de los motores de búsqueda desean proporcionar los resultados relevantes para sus usuarios, él son cómo Google consiguió acertado. Si el Search Engine era volver 5 páginas idénticas en la misma página de los resultados de la búsqueda, no es probable ser útil al investigador.
Muchos motores de búsqueda tienen filtros en el lugar para quitar los listados duplicados - éste mantiene sus resultados de la búsqueda limpios, y es total una buena característica. Desde un punto de vista de los webmaster sin embargo, no sabes qué copia del contenido está ocultando el Search Engine, y puede poner un apagador verdadero en tus esfuerzos de comercialización si los motores de búsqueda no demuestran la copia que estás intentando promover.
Puedes pensar no haces que ninguna páginas duplicada en tu sitio… piensen otra vez…
El contenido duplicado ocurre cuando el Search Engine encuentra el contenido idéntico en diverso URLs. Considerar los panoramas siguientes…
WWW contra no-WWW
http://www.domain.com y http://domain.com
en la mayoría de los casos éstos volverán la misma página, es decir un duplicado de tu sitio entero.
Raíz contra índice
http://www.domain.com (raíz) y http://www.domain.com/index.htm
Los homepage de la mayoría de la gente están disponibles mecanografiando cualquier URL - contenido duplicado.
Identificaciones de la sesión - la raíz de todo el mal
http://www.domain.com/page.php?PHPSESSID=24FD6437ACE578FEA5745
Este problema efectúa muchos sitios dinámicos, incluyendo PHP, el ASP y sitios fríos de la fusión. Muchos foros se ponen en un índice mal debido a esto también. Las identificaciones de la sesión cambian cada vez que un visitante viene a tu sitio. Es decir cada vez que el Search Engine pone en un índice tu sitio, consigue el mismo contenido con un diverso URL. Asombroso, la mayoría de los motores de búsqueda no son bastante listos detectar esto y fijarlo, así que está hasta ti como webmaster.
Una página, URLs múltiple
http://www.domain.com/product.php?category=furniture&product=chair
y
http://www.domain.com/product.php?category=outdoor&product=chair
Un producto se puede asignar a más de una categoría - en este caso “la página del detalle del producto” es idéntica, pero está disponible vía 2 URLs.
Quitar el contenido duplicado
Tener contenido duplicado en tu sitio puede hacer la comercialización considerablemente más difícil, especialmente cuando eres comercialización la versión de no-WWW y Google está demostrando solamente la versión de WWW. Porque no puedes decir a los motores de búsqueda cuál es la copia “original”, debes evitar que cualquier contenido duplicado ocurra en tu sitio.
Aquí están algunas extremidades para hacer este proceso más fácil.
1. no-WWW contra WWW
Prefiero utilizar la versión de WWW de mi dominio (ninguna razón particular, se parece parecer mejor en el papel). Si estás utilizando Apache como tu web server, puedes incluir las líneas siguientes en tu archivo de .htaccess (cambiar los valores tus los propios por supuesto).
% de RewriteCond {HTTP_HOST} ^domain.com
RewriteRule (. *) http://www.domain.com/$1 [R=301, L]
Si tu webhost no te deja corregir el archivo de .htaccess, consideraría el encontrar de un nuevo anfitrión. Cuando viene a quitar el contenido duplicado y a producir el Search Engine URLs amistoso, .htaccess de Apache es demasiado bueno no hacer caso. Si tu Web site se recibe en Microsoft IIS, recomiendo reescritura de ISAPI en lugar de otro.
2. Quitar toda la referencia a “index.htm”.
Tu homepage se debe nunca referir como index.htm, index.php, index.asp etc. Cuando construyes acoplamientos entrantes, conseguirás siempre acoplamientos a www.domain.com - tus acoplamientos internos deben siempre ser iguales. Uno de mis sitios tenía un diverso pagerank en “/” (raíz) y “index.php” porque los acoplamientos internos señalaban a index.php, y crear el contenido duplicado. ¿Por qué van al apuro de promover dos “diversas” páginas en la media fuerza cuando puedes promover un solo URL en la fuerza completa?
Después de que hayas quitado todas las referencias a index.htm debes instalar 301 vuelves a dirigir (abajo) para volver a dirigir/(de index.htm raíz).
3. Quitar las identificaciones de la sesión.
Puedo dar el consejo para los usuarios de PHP, ASP y los usuarios de los CF deben hacer su propia investigación sobre exactamente cómo quitar éstos. Con PHP, si el usuario no apoya las galletas, la identificación de la sesión se inserta automáticamente en el URL, como manera de mantener el estado entre las páginas. La mayoría de los motores de búsqueda no apoyan las galletas, que los medios ellos consiguen a diverso PHPSESSID en el URL que visitan cada vez - éste conduce a la indexación de direcciones muy fea.
No hay solución ideal a esto, así que tengo que comprometerme. Cuando las sesiones son un requisito para el Web site, perdería algo a una pequeña cantidad de visitantes que no tienen galletas, que PHPSESSID tolerado en mis listados del Search Engine (y potencialmente perder mucho más a visitantes).
Para inhabilitar PHPSESSID en el URL, debes insertar el código siguiente en .htaccess
php_value session.use_only_cookies 1
php_value session.use_trans_sid 0
Esto significará que los visitantes con las galletas dadas vuelta apagado no podrán utilizar ninguna características de tu sitio que utilicen sesiones, eg. entrando, o recordando los datos etc. de la forma.
4. Asegurar todas las páginas generadas base de datos tienen URLs único.
Esto es algo más complicado, dependiendo cómo tu sitio setup. Cuando diseño las páginas, soy siempre cuidadoso “una página, de la regla de un URL”, y diseño mi estructura de la página por consiguiente. Si un producto pertenece a 2 categorías, me aseguro de que ambas categorías se liguen al mismo URL, o modifico el contenido perceptiblemente en ambas versiones de la página así que no es “idéntica” a los ojos de el Search Engine.
301 cambios de dirección
301 vuelven a dirigir es la manera correcta que dice a los motores de búsqueda que una página se haya movido permanentemente. Cuando todavía quisieras que el Domain Name de no-WWW trabajara, debes 301 volver a dirigir al visitante al dominio de WWW. El visitante verá que los motores del cambio y de búsqueda de la dirección sabrán para no hacer caso del no-WWW y para utilizar el WWW en lugar de otro.
Utilizar tu .htaccess a 301 vuelven a dirigir a visitantes del/y de index.htm de cualquier otra página que consigan retitulados. eg.
volver a dirigir 301 /index.htm http://www.domain.com/
Resumen
Mientras que tu sitio trabajará muy bien con el contenido duplicado, separa tus esfuerzos y puede definitivamente costarte de las maneras que no entiendes. Para maximizar el pagerank y la eficacia de las campañas del acoplamiento, debes asegurarse allí no eres ningún contenido duplicado en tu sitio. Sentirte libre entrarme en contacto con si quisieras tu sitio comprobado para saber si hay cualquier contenido duplicado.
La mayoría de los motores de búsqueda desean proporcionar los resultados relevantes para sus usuarios, él son cómo Google consiguió acertado. Si el Search Engine era volver 5 páginas idénticas en la misma página de los resultados de la búsqueda, no es probable ser útil al investigador.
Muchos motores de búsqueda tienen filtros en el lugar para quitar los listados duplicados - éste mantiene sus resultados de la búsqueda limpios, y es total una buena característica. Desde un punto de vista de los webmaster sin embargo, no sabes qué copia del contenido está ocultando el Search Engine, y puede poner un apagador verdadero en tus esfuerzos de comercialización si los motores de búsqueda no demuestran la copia que estás intentando promover.
Puedes pensar no haces que ninguna páginas duplicada en tu sitio… piensen otra vez…
El contenido duplicado ocurre cuando el Search Engine encuentra el contenido idéntico en diverso URLs. Considerar los panoramas siguientes…
WWW contra no-WWW
http://www.domain.com y http://domain.com
en la mayoría de los casos éstos volverán la misma página, es decir un duplicado de tu sitio entero.
Raíz contra índice
http://www.domain.com (raíz) y http://www.domain.com/index.htm
Los homepage de la mayoría de la gente están disponibles mecanografiando cualquier URL - contenido duplicado.
Identificaciones de la sesión - la raíz de todo el mal
http://www.domain.com/page.php?PHPSESSID=24FD6437ACE578FEA5745
Este problema efectúa muchos sitios dinámicos, incluyendo PHP, el ASP y sitios fríos de la fusión. Muchos foros se ponen en un índice mal debido a esto también. Las identificaciones de la sesión cambian cada vez que un visitante viene a tu sitio. Es decir cada vez que el Search Engine pone en un índice tu sitio, consigue el mismo contenido con un diverso URL. Asombroso, la mayoría de los motores de búsqueda no son bastante listos detectar esto y fijarlo, así que está hasta ti como webmaster.
Una página, URLs múltiple
http://www.domain.com/product.php?category=furniture&product=chair
y
http://www.domain.com/product.php?category=outdoor&product=chair
Un producto se puede asignar a más de una categoría - en este caso “la página del detalle del producto” es idéntica, pero está disponible vía 2 URLs.
Quitar el contenido duplicado
Tener contenido duplicado en tu sitio puede hacer la comercialización considerablemente más difícil, especialmente cuando eres comercialización la versión de no-WWW y Google está demostrando solamente la versión de WWW. Porque no puedes decir a los motores de búsqueda cuál es la copia “original”, debes evitar que cualquier contenido duplicado ocurra en tu sitio.
Aquí están algunas extremidades para hacer este proceso más fácil.
1. no-WWW contra WWW
Prefiero utilizar la versión de WWW de mi dominio (ninguna razón particular, se parece parecer mejor en el papel). Si estás utilizando Apache como tu web server, puedes incluir las líneas siguientes en tu archivo de .htaccess (cambiar los valores tus los propios por supuesto).
% de RewriteCond {HTTP_HOST} ^domain.com
RewriteRule (. *) http://www.domain.com/$1 [R=301, L]
Si tu webhost no te deja corregir el archivo de .htaccess, consideraría el encontrar de un nuevo anfitrión. Cuando viene a quitar el contenido duplicado y a producir el Search Engine URLs amistoso, .htaccess de Apache es demasiado bueno no hacer caso. Si tu Web site se recibe en Microsoft IIS, recomiendo reescritura de ISAPI en lugar de otro.
2. Quitar toda la referencia a “index.htm”.
Tu homepage se debe nunca referir como index.htm, index.php, index.asp etc. Cuando construyes acoplamientos entrantes, conseguirás siempre acoplamientos a www.domain.com - tus acoplamientos internos deben siempre ser iguales. Uno de mis sitios tenía un diverso pagerank en “/” (raíz) y “index.php” porque los acoplamientos internos señalaban a index.php, y crear el contenido duplicado. ¿Por qué van al apuro de promover dos “diversas” páginas en la media fuerza cuando puedes promover un solo URL en la fuerza completa?
Después de que hayas quitado todas las referencias a index.htm debes instalar 301 vuelves a dirigir (abajo) para volver a dirigir/(de index.htm raíz).
3. Quitar las identificaciones de la sesión.
Puedo dar el consejo para los usuarios de PHP, ASP y los usuarios de los CF deben hacer su propia investigación sobre exactamente cómo quitar éstos. Con PHP, si el usuario no apoya las galletas, la identificación de la sesión se inserta automáticamente en el URL, como manera de mantener el estado entre las páginas. La mayoría de los motores de búsqueda no apoyan las galletas, que los medios ellos consiguen a diverso PHPSESSID en el URL que visitan cada vez - éste conduce a la indexación de direcciones muy fea.
No hay solución ideal a esto, así que tengo que comprometerme. Cuando las sesiones son un requisito para el Web site, perdería algo a una pequeña cantidad de visitantes que no tienen galletas, que PHPSESSID tolerado en mis listados del Search Engine (y potencialmente perder mucho más a visitantes).
Para inhabilitar PHPSESSID en el URL, debes insertar el código siguiente en .htaccess
php_value session.use_only_cookies 1
php_value session.use_trans_sid 0
Esto significará que los visitantes con las galletas dadas vuelta apagado no podrán utilizar ninguna características de tu sitio que utilicen sesiones, eg. entrando, o recordando los datos etc. de la forma.
4. Asegurar todas las páginas generadas base de datos tienen URLs único.
Esto es algo más complicado, dependiendo cómo tu sitio setup. Cuando diseño las páginas, soy siempre cuidadoso “una página, de la regla de un URL”, y diseño mi estructura de la página por consiguiente. Si un producto pertenece a 2 categorías, me aseguro de que ambas categorías se liguen al mismo URL, o modifico el contenido perceptiblemente en ambas versiones de la página así que no es “idéntica” a los ojos de el Search Engine.
301 cambios de dirección
301 vuelven a dirigir es la manera correcta que dice a los motores de búsqueda que una página se haya movido permanentemente. Cuando todavía quisieras que el Domain Name de no-WWW trabajara, debes 301 volver a dirigir al visitante al dominio de WWW. El visitante verá que los motores del cambio y de búsqueda de la dirección sabrán para no hacer caso del no-WWW y para utilizar el WWW en lugar de otro.
Utilizar tu .htaccess a 301 vuelven a dirigir a visitantes del/y de index.htm de cualquier otra página que consigan retitulados. eg.
volver a dirigir 301 /index.htm http://www.domain.com/
Resumen
Mientras que tu sitio trabajará muy bien con el contenido duplicado, separa tus esfuerzos y puede definitivamente costarte de las maneras que no entiendes. Para maximizar el pagerank y la eficacia de las campañas del acoplamiento, debes asegurarse allí no eres ningún contenido duplicado en tu sitio. Sentirte libre entrarme en contacto con si quisieras tu sitio comprobado para saber si hay cualquier contenido duplicado.
Article Source: http://www.articleset.com

You are welcome to publish or reprint this article free of charge, provided:
- you include the entire article, unchanged, including the "About The Author" box
- all hyperlinks remain active, including the bottom ArticleSet.com link (does not apply to print publications)
- you agree not to hold the authors nor ArticleSet.com liable for any loss profits, expenses, or any other damages resulting from the use or misuse of articles published on this website