Culebrones en la red: rel=”nofollow”

Como sabéis, rel=”nofollow” es una indicación que puede incluirse en un enlace, para que la página enlazada no gane puntos de posicionamiento por el mismo. El objetivo de añadir esta etiqueta, es frenar a los spammers del posicionamiento, que copan las bitácoras y páginas web participativas con comentarios incluyendo enlaces a sus sitios.

La mecánica de este tipo de spam es fácil de entender: es mucho más sencillo publicar cientos de comentarios en bitácoras indicando mis sitios web, que esperar a que me enlacen.

El problema

Dejar un comentario en una bitácora incluyendo nuestra web es algo parecido a entregar una tarjeta de visita, nosotros saludamos y dejamos nuestros datos por si nos quieren contactar. El problema viene cuando el objetivo de estos comentarios es ganar posicionamiento y solamente eso.

La ¿solución?

Si aplicamos la etiqueta nofollow de manera global, tenemos como consecuencia que ninguna página web que enlacemos subirá puntos. A priori, la solución puede parecer efectiva contra el spam: da igual que incluyas enlaces, no subirás puestos en Google. El problema es que el spam no piensa en páginas concretas, simplemente bombardea y algo ganará siempre.

La última entrega

Hace unos meses, se tomó la decisión en la Wikipedia de aplicar la etiqueta rel=”nofollow” a los enlaces que figurasen en sus artículos, pero ahora Techcrunch comenta que esa norma no está siendo aplicada a otras comunidades de wikis emparentadas con la Wikipedia.

Esto puede ser muy negativo, ya que hace un evidente distingo entre los medios cercanos a la Wikipedia y el resto de páginas. Creo que no vale mucho la pena poner el nofollow si luego se aplican distintas varas de medir según las páginas que pongan sus enlaces.

Medidas

personalmente, creo que la única manera efectiva de combatir el spam es una tolerancia cero hacia el mismo. De nada nos sirve castigar a nuestros visitantes por culpa de unos pocos. Recomiendo utilizar el nofollow para nuestra propia gestión, cuando no queremos que Google indexe una página cuyo contenido es redundante.

Google y los resultados de búsqueda… En sus resultados de búsqueda

A través de una entrada de Matt Cutts me entero de las posibles acciones que podría tomar Google con las páginas de resultados que pueden ser indexadas por su robot. Si yo busco información sobre un libro en Google, me pueden salir dos cosas:

- Un sitio donde se habla sobre dicho libro

- Un listado de webs donde se habla sobre ese libro

Teniendo en cuenta que yo ya buscaba resultados en el propio Google, que una lista de resultados dirija a su vez a otra lista más podría considerarse redundante. Y a Google no le gusta eso.

La solución infalible según Matt Cutts es modificar el fichero robots.txt y añadirle instrucciones para que no se detecten las páginas de resultados. A priori parece algo lógico y que puede eliminar mucha redundancia. Pero no es oro todo lo que reluce, porque si Google comienza a penalizar a las webs que no bloquean el acceso del robot a las páginas de búsqueda va a suponer trabajo extra.

Creo que Matt se olvida de la utilidad de ciertas páginas de resultados, como una lista de libros en Amazon, o una lista de llaveros USB en una tienda de informática. No creo que sus respectivos sitios deban ser penalizados por incluirlas, ya que contienen información de utilidad. Pero aún tiene que dar muchas vueltas este tema.

¿Que pensáis? ¿Debería(mos) restringir con el robots.txt el acceso a las páginas de resultados?

Search results in search results (vía search engine land, a su vez vía Techmeme)

“Refrescar” la caché de Google en un momento dado

En estos tiempos un blogger no de preocuparse únicamente de los datos que ofrece. También debe observar los datos que otros sistemas ofrecen de él. Un blog puede decir muchas cosas sobre tí, y la caché de buscddores como Google también.

¿La diferencia? Tu blog lo controlas, la caché no tanto.

Del mismo modo que hay que cuidar un blog, debería cuidarse de vez en cuando la caché, ya que si tu bitácora se cae o se satura, los usuarios pueden acudir a ella como segundo recurso.

Si en un determinado momento quieres que Google revise el nuevo contenido de tu página para cachearlo, solo has de seguir los pasos que te indican en Google Dirson.