dimarts, de setembre 20, 2005

Trust Rank el futur substitut de PageRank a Google?

El nou algoritme voldria acabar amb la plaga del spam en els cercadors.

PageRank és l'algoritme emprat actualment per Google per a ordenar els resultats d'una cerca. Fou creat pels fundadors de Google, Larry Page i Sergey Brin quan estaven a la Universitat de Stanford, el 1998. Es basa en considerar que si un plana A té un enllaç a la plana B, això es pot considerar com a un vot positiu que la plana A li dóna a la plana B. Quants més vots positius rebi una plana, més amunt es trobarà a la llista de resultats i, per tant, més possibilitats tindrà de ser visitada.

El sistema també té en compte la importància de les planes des de les quals es fan els enllaços en el propi rànquing de Google, de manera que el "vot" que dóna una plana ben posicionada és més important que el "vot" que atorga una plana no tan ben situada.

El principal problema del sistema PageRank és el Spam a les planes web. Com en el correu electrònic no desitjat, aquesta pràctica consisteix en fer arribar a l'internauta publicitat no reclamada, però a diferència de l'e-mail, on el spammer té l'adreça del receptor, en el spam per web s'ha de fer arribar l'internauta a la plana publicitària. Això s'aconsegueix creant altres planes que apuntin a la web on està l'anunci per tal que pugi en el seu rànquing del Google.

TrustRank és una nova tècnica ideada per a separar de forma semiautomàtica les planes web legítimes de les que només són Spam. Per a això es basa en l'avaluació manual per part d'una persona d'un nombre limitat de planes, a partir de les quals es segueixen els enllaços que contenen per així anar descobrint i classificant més planes. Des de Google s'afirma que és possible filtrar el Spam d'un percentatge significatiu de la web prenent com a base només 200 sites.

Per a corregir la possible "degradació" en la qualitat dels resultats que sorgeix a mesura que ens allunyem de les webs seleccionades per humans, l'algoritme TrustRank disposa d'una sèrie de mesures correctores que tenen en compte la llunyania entre la plana analitzada i les planes "llavor" o, dit d'una altra manera, compten el nombre de salts que es donen des de les planes originals fins arribar a la plana que estiguem analitzant.

Al mateix temps, una web considerada com a Spam per TrustRank no només no comptarà com a vot positiu per a les planes a les què enllaça, si no que ho farà com a vot negatiu.

Només queda per veure si els vots negatius seran aprofitats per desaprensius per a realitzar un "spam al contrari", enfonsant en la classificació del Google a planes legítimes amb només enllaçar-les des de les seves planes de Spam.

No s'ha fet públic encara que Google es canviï definitivament a TrustRank ni en quines dates ho faria, però la companyia nord-americana ja hauria obtingut la marca registrada sobre el nom del nou algoritme.

Més informació:

Sobre Page Rank
http://www.google.com/technology/

Combating Web Spam with TrustRank
http://dbpubs.stanford.edu:8090/pub/showDoc.Fulltext?lang=en&doc=2004-17&format=pdf&compression=&name=2004-17.pdf