Páginas y hasta sitios enteros han sido duplicados
para mejorar sus posiciones en Google, aumentando el tamaño de sus
webs, la cantidad de palabras clave por las que compiten y acaparando en ocasiones
todos los puestos de la primera página de resultados. Hasta ahora.

En las últimas semanas se han observado muchos
webmasters quejarse de que sus posiciones, por las cuales habían trabajado
tanto en obtener, habían desaparecido completamente. Además,
notaron que fijándose si las páginas estaban indexadas por Google
(buscando site:www.midominio.com)
las mismas aparecían, pero sin título ni descripción.

Luego de mucha discusión se encontró
que muchos de esos sitios webs, aparentemente penalizados, tenían páginas
duplicadas, secciones completas duplicadas o hasta eran webs duplicadas de
otra web original. Ese era el factor común entre todas ellas.

Empecemos por tratar de entender qué es una
página o una web duplicada. En términos poco científicos,
una página duplicada es aquella que ha sido copiada (o es muy similar)
a otra, la cual puede ser accedida desde una URL distinta.

Ahora, veamos las razones por las cuales nuestro sitio
web podría ser filtrado:

  • Nuestra web entera es una copia
    de otra web (tanto si es de tu pertenencia como no). Esto puede conllevar
    la penalización de nuestra web entera.

  • Una sección entera (con un
    alto número de páginas en comparación del total de
    la web) es una copia de otra web (tanto si es de tu pertenencia como no).
    Esto puede conllevar la penalización de nuestra web entera o de esa
    sección en particular.
  • Una página es una copia de otra página
    de otra web (tanto si es de tu pertenencia como no). Esto puede conllevar
    la penalización de esa página en particular.

Hay que agregar que se ha observado que un factor para
potenciar las posibilidades de que Google note la duplicidad es que las páginas
similares en cuestión se encuentren alojadas bajo la misma IP.

Pero… ¿cómo sabe Google qué
páginas son duplicadas? ¿Cómo sabe qué página
es la original para penalizar la duplicada?

Las respuestas están dadas en la patente que
registró en diciembre de 2003, lo que también nos muestra que
esto estaba planificado hace ya unos meses. La misma puede ser leída
aquí:

http://patft.uspto.gov/netacgi/nph-Parser?Sect1=PTO1…
(en inglés).

h

Si no cuentas con el tiempo, te resumimos este extenso
texto en que Google selecciona porciones de texto de las páginas webs
y les asigna una "huella digital".
Si otra página tiene esas mismas huellas digitales, entonces esa será
la copia. Esto destaca también que la web considerada como original
sería la primera indexada por Google.

Caso de estudio:

Lamentablemente, un cliente de SEOHome
sufrió este filtro. Él pensó que agregar una sección
de otra web que posee, en la web que fue luego penalizada por esto, sería
útil para sus usuarios, sin consultarnos sobre los métodos para
prevenir posibles filtros como este. El resultado fue la penalización
de toda su web, a excepción de su página principal. Asustado,
nos contactó para preguntarnos sobre su situación y, felizmente,

ya lo habíamos notado y preparado una posible solución. Al ser
una sección que no tenía utilidad alguna para el posicionamiento
de la web y sólo era útil para los usuarios, cambiamos los links
para acceder a la misma a un formato en javascript, puedes crear uno así:

<a href=\"javascript:location.href=\’http://www.midominio.com\’\">Texto</a>

para que Google no los siga y eventualmente elimine esas páginas conflictivas
de su listado. Apenas dos días después de esto, esas páginas
duplicadas fueron eliminadas de Google y las páginas con contenido
único que también habían sido afectadas volvieron a aparecer
normalmente.

Recomendaciones finales:

  • Si no es absolutamente imprescindible,
    evita duplicar contenido de otra web.
  • Si lo haces, cambia su contenido
    lo mayormente posible para evitar ser considerado duplicado.

  • También te recomendamos
    alojarlo bajo una IP distinta.
  • Si caes en el filtro, aísla
    esas páginas para que no sean indexables, como comentamos en el caso
    de estudio.

Por último, te recomendamos esta herramienta
para chequear el porcentaje de similitud entre dos páginas:

http://www.webconfs.com/similar-page-checker.php.
Aunque no es demasiado precisa, te recomendamos mantener un valor de similitud
por debajo del 50%.