Artículos destacados en Nuevas Tecnologías


¿Es Google la gran ciberinteligencia?

Manuel Blázquez - Internet

22 de Marzo de 2012

Google seguramente sea la entidad mundial a quien más gente se dirige para hacer preguntas. ¿Dónde está este sitio? ¿Qué restaurante hay cerca de casa? ¿Cuál es la última tendencia de moda? Pero, como es capaz Google de afinar tanto en las respuestas. ¿Es quizá el Gran Hermano que todo lo sabe?


Una acción de búsqueda, en apariencia, es un proceso simple. No obstante, es un proceso de selección de información no tan sencilla. Al lanzar una búsqueda, teóricamente cuanto mayor sea la lista de palabras y de expresiones que se escriban, en el cuadro de texto del buscador, más ajustada a los criterios de búsqueda será la selección de recursos y webs.

Google es el líder indiscutible en búsquedas a nivel mundial. Gran parte de su éxito se debe a la robustez y fiabilidad en sus resultados. Aunque el usuario no ofrezca muchas pistas sobre sus intenciones de búsqueda, el buscador la realizará igualmente y, de forma sorprendente, en la mayor parte de los casos, parece como si leyera la mente. ¿Cómo es capaz Google de adivinar las intenciones del usuario?

El proceso interno de una búsqueda

Cuando Google recibe una orden de búsqueda, esta es recibida en su
servidor web. En realidad, el servidor es una red de más de 10.000 ordenadores que atienden más de 1.000 peticiones por segundo. Una vez filtrada la información, se envían los datos a los servidores de índice. Estos indican la localización de los servidores donde se encuentran las webs o los recursos que coincidan con los criterios de búsqueda.

Es más correcto indicar, que Google no genera los índices por coincidencia con
metadatos asignados o con las palabras utilizadas en la petición, sino más bien por la relación entre la palabra y la página en la dirección del servidor de documentos de Google.

Esta sopa de índices, tiene que ordenarse de alguna manera. Aquí es donde se aplica el algoritmo PageRank que emplea Google para determinar la relevancia de un recurso frente a un criterio de búsqueda. Todo este proceso parece lógico y, de hecho, lo es.

Partiendo de que Google dispone de una cantidad ingente de datos, centenares de Terabytes, y de capacidad para realizar miles de millones de operaciones matemáticas por segundo, es cuestión de aplicar el algoritmo adecuado para que el proceso de indexación tenga éxito ofreciendo resultados en décimas de segundo.

El algoritmo PageRank

Un
algoritmo es un proceso matemático desarrollado como software. Su utilidad es la de generar un resultado. En el caso del PageRank, sirve para cuantificar la relación de una página con el resto de páginas de Internet. Es decir, la probabilidad de encontrar recursos web con un valor alto de PageRank, es directamente proporcional al tiempo que se pase navegando.

El algoritmo PageRank fue desarrollado por
Larry Page y Sergey Brin y obtiene su valor desde la estructura de enlaces que rodean a la página. Por tanto, la calificación que ofrece el PageRank indica cuál es el grado de relaciones que tiene la página con otras páginas en las que también influye su propia calificación. Es decir, arrimarse a un buen árbol da lugar a mejores beneficios para todas las partes.

Para el cálculo del vector PageRank, se utilizan hasta 50 variables, sobre las que se aplican métodos matemáticos de
álgebra lineal, como el método de la potencia combinada con sistemas de ecuaciones lineales.

De forma sencilla, el núcleo matemático del PageRank se basa en una suma con un enorme número de sumandos, tantos como relaciones existan con el recurso encontrado. Cada sumando alude a una página que también tiene PageRank asignado (PR) y, además, apunta a un número de páginas, es decir, también se relaciona con otras páginas. Entonces, el valor de cada sumando provendrá de de la división entre el PR de la página relacionada y el número de enlaces saliente a los que apunta.

Google, se reserva la asignación de un factor de corrección para ponderar esa suma gigante. Por tanto, a la vista de la ecuación del PageRank, una página que esté relacionada con páginas con alto PageRank, conseguirá también un elevado PageRank.

El bloqueo de páginas desde los resultados de una búsqueda

Como el PageRank de una página se obtiene de forma derivada de la información de las páginas relacionadas, se puede dar la circunstancia de que una página de pobre contenido esté bien relacionada. Automáticamente, dicha página tendrá una alta valoración. Y aparecerá como un resultado bien posicionado en una búsqueda relacionada.

El problema no es de Google, que trata de ordenar los datos con intención apropiada, sino de aquellos que prestan servicios de optimización de motores de búsqueda, también conocidos como SEO, para potenciar la presencia y visibilidad de páginas de baja calidad.

Para evitar estas situaciones, o al menos mitigarlas, Google ha provisto la página de resultados con etiquetas de acción para
bloquear los resultados. Y la acción de bloqueo, queda en manos del usuario que no desea recibir los resultados marcados cuando realice una búsqueda similar.

Google ha anunciado que esta medida traerá consigo dos mejoras. La primera, se optimizan las búsquedas de forma personalizada a criterio del receptor de la información, pudiendo contrarrestar las
técnicas SEO en páginas de pobre contenido. La segunda, los datos generados por el conjunto de bloqueos permiten mejorar la ponderación de los sitios web.

Artículo publicado por el autor en Suite101.net