BUSCADORES

FUNCIONAMIENTO DE UN MOTOR
DE BUSQUEDA EN INTERNET

 

Hernán E. Loisa

hernanel@ciudad.com.ar

 

 

 

 

Introducción-
Internet se ha convertido con el paso del tiempo en un gran medio para colocar información de cualquier índole. Esta cantidad de información crece a una velocidad considerable, así como él numero de usuarios sin experiencia para poder realizar de manera eficaz investigaciones en esta gran fuente de datos.

Ayudar a solventar este inconveniente es la tarea primordial de los motores de búsqueda tanto que se han convertido en una de las herramientas indispensables de Internet. Existe una numerosa cantidad de buscadores tanto índices temáticos como motores de búsqueda. En el presente trabajo se describirán y se analizaran las características tanto para recoger información acerca de las paginas que se encuentran indexadas en las bases de datos de un motor de búsqueda como el análisis de esta información, la búsqueda y los resultados presentados por los motores de búsqueda.

Para ello se compara el modo de operación de cinco motores de búsqueda para sacar las conclusiones pertinentes.

 

¿Que es un motor de búsqueda?

Tanto los índices temáticos como los motores de búsqueda son grandes  sistemas de bases de datos destinadas a indexar direcciones URL. A continuación  se describirá la forma en que se llegan a recolectar estas direcciones URL, como se realizan las búsquedas en la base de datos y la forma en que se presentan los resultados de la búsqueda.[1]

 

 

Recolección de información-

La recolección  de datos en los buscadores al igual que en una base de datos cualquiera se puede realizar manualmente o automáticamente.

El método de recolección manual se conoce como de directorio  un directorio es un sistema de banco de datos de entrada manual es decir se realiza solicitando un formulario desde la interfaz propia del buscador. La apariencia de este formulario varia de acuerdo al buscador. Luego se procede a completar los campos del formulario con  información acerca del sitio que se quiere agregar. Vale aclarar que cuanto más información sobre el sitio se otorga se optimizaran las futuras recuperaciones.

La información a ingresar se divide en dos tipos:

 

El método de recolección automática es utilizado generalmente por los motores de búsqueda. En esta forma el motor de búsqueda solo requiere que se le otorgue la dirección URL de la pagina a la cual se le quiere dar de alta en el buscador.

Automáticamente este pedido es captado por un “robot”, que es un software llamado spider  que se encarga de aceptar la dirección URL ingresada  y de verificar que la pagina se encuentra efectivamente on-line visitándola. Una vez hecha esta verificación recupera una copia del archivo que encuentra en esa dirección  para analizarla. Luego este mismo software procesara la información recuperada seleccionando los datos que necesita para su base de datos, estos datos dependen del motor de búsqueda, entonces se indexa la pagina dada de alta en la base de datos propia del motor de búsqueda así como también los enlaces de dicha pagina.

La información que analizan estos spiders es información adicional que se agrego a la pagina al momento de construirla en su código HTML a través de etiquetas denominadas META. Estos robots pueden identificar los META y tomar la información extra, que seria la que se ingresa en un formulario en el método manual como pueden ser palabras clave, descripción, URL, etc., para poder optimizar la futura recuperación de la pagina así como también poder utilizarla en los resultados de búsquedas.

Dado que estos META  no son forzosamente obligatorios y hay robots que no utilizan esta información adicional hay muchas paginas en la actualidad en que no se agrega dichos META.[2]

 

 

Sistema de búsqueda-

La búsqueda que se puede realizar a través de un motor de búsqueda es tanto más eficiente cuanto más variantes de recuperación ofrezca. Al momento de realizar una búsqueda hay una serie de requisitos básicos que un buscador debe cumplir para poder brindar un buen resultado.

Debe brindar la posibilidad de elegir la complejidad de formulario de búsqueda, dado que  de acuerdo a que el tipo de usuario sea inexperto o con experiencia  pueda seleccionarlo. Además los formularios con mas complejidad enriquecerá las búsquedas.

Debe permitir realizar búsquedas por un determinado campo o tipo de información ya que de esta manera la cantidad de resultados sé vera acotada acercándose a lo que se busca.

Debe proveer un índice temático que facilitara la localización de información cuando no se tiene definido con certeza el objetivo de la búsqueda.

Debe brindar la posibilidad de utilizar una serie de herramientas para definir específicamente la información  que se necesita. Estas herramientas pueden ser los operadores boléanos, términos compuestos en donde los separadores sean comillas, paréntesis.

Entonces resumiendo cuando se realiza una búsqueda por palabras, ya sé a que tenga operadores boléanos o separadores, se busca dentro de al base de datos del motor de búsqueda una entrada en la base de datos que coincida con las palabras ingresadas.[3]

 

Resultados de la búsqueda-

El motor de búsqueda arma con los resultados obtenidos una pagina web que lista cada entrada encontrada en forma de hipervínculo.

Los resultados presentados varían de acuerdo al buscador de que se trate pero lo ideal seria que brinden la posibilidad de elegir entre diferentes formatos de presentación. También es recomendable que cada referencia encontrada de una pagina vaya acompañada de una descripción pero esto depende de el tipo de alta que se realiza de dicha pagina, de la información que es capaz de  analizar el software spider  y del tipo de datos que el motor de búsqueda almacene en su base de datos.[3]

 

 

 Comparación de motores de búsqueda-

Se hará una comparación entre el modo de recolección de datos, modo de búsqueda, forma de presentar resultados para finalizar con una conclusión con las ventajas y desventajas de cada motor de búsqueda.

Para la selección de los motores de búsqueda a estudiar se tomo en cuenta los más importantes y utilizados como también que operaran de manera distinta para contrastar las diferencias.

 

Yahoo – (http://www.yahoo.com)

Recolección de datos-

Generalmente la mayoría de las direcciones URL que contiene en su base de datos corresponde a sitios ingresados por los usuarios. El método de toma de datos en manual o sea a través de un formulario donde se coloca información, alguna obligatoria y otra opcional, acerca del sitio como ser titulo, dirección URL, descripción, palabras clave y se debe indicar además una categoría ya que este buscador posee un directorio temático.

Llegado el tiempo oportuno, que en este buscador es de alrededor de 30 días, personal de yahoo visitara el sitio para evaluar su contenido y decidir si se agrega a su base de datos o no.

Búsqueda de información-

Se puede realizar dos tipos de búsqueda por temas o por palabras clave. Por temas se puede ir navegando a través de los vínculos correspondientes a cada tema hasta que el usuario lo considere y allí seleccionar las paginas de su interés.

La búsqueda por palabras clave se realiza tipeando en la ventana la palabra referida al tema en cuestión. Se pueden utilizar operadores boléanos como buscar por frases compuestas. Si el resultado que entrega el buscador no es satisfactorio la interfaz que yahoo posee permite hacer un enlace con otros buscadores para realizar nuevamente la búsqueda.

Resultados de la búsqueda-

Los resultados que presenta son por cada sitio él titulo en forma de hipervínculo acompañado de una pequeña descripción acerca del sitio. El orden en que se visualizaran las paginas presentadas depende de al cantidad de correspondencias con las palabras por las cuales se busca así como también que se encuentren en lugares específicos del documento. El lugar con mas prioridad es él titulo de la pagina. Este buscador no permite formatear el resultado de las búsquedas

 

Ventajas-

Dado que la recolección de datos para su base se hace por medio de un formulario esto permite que la información recibida sea mas completa lo que conlleva a una presentación de resultados mejor. Posee un índice temático. Se pueden acotar las búsquedas gracias a que permite utilizar operadores boléanos, términos separadores y a que permite buscar por URL. Posee sistemas de ayuda completos, tiene versiones en diferentes idiomas y se reconoce fácilmente si existe alguna novedad en su contenido.

 

Desventajas-

Una de las mayores desventajas de yahoo es que no tiene un control del vocabulario por ello hay una gran cantidad de sinónimos. Al abrir una dirección recuperada lo hace sobre  la misma pagina por lo que la lista de resultados desaparece. No permite hacer un diseño del formato de resultados.

 

Altavista – (http://altavista.digital.com)

Recolección de datos-

Las direcciones URL que contiene en su base de datos son  recolectadas de la forma automática, es decir que en el formulario presentado para este fin lo único que se solicita es la dirección URL de la pagina, el resto de la información la recupera el software spider,  de los meta de la pagina ingresada, y la indexa en la base de datos.

 

Búsqueda de información-

La búsqueda se puede realizar a través de uno de los dos formularios que posee, lo que diferencia a estos formularios en que en el simple el orden en el cual se presentara las paginas seleccionas lo establece el sistema el cambio en el avanzado es el usuario quién puede determinar este orden utilizando una opción llamada “Ranking” y diciendo que palabra debe contener las paginas del principio de la lista.

También se pueden realizar búsquedas por idioma, buscar en campos concretos, así la información presentada se acotara al tipo definido, utilizar operadores boléanos localizar términos compuestos y el uso de separadores como paréntesis. Permite realizar una nueva búsqueda entre las paginas seleccionadas a partir de nuevas palabras clave.

 

Resultados de la búsqueda-

Presenta cada ocurrencia de la pagina con él titulo de la misma, la dirección URL y si no contiene una descripción en los META analizados presenta las primeras palabras de la pagina. También presenta información adicional como el tamaño, idioma y fechas de modificación de la pagina.

El orden en que aparecerán las paginas en las consultas simples estará dado por la ocurrencia de las frases introducidas para la búsqueda y si se encuentran entre las primeras palabras de al pagina.

 

Ventajas-

El software spider reconoce la información brindada por los metas y utiliza esta información en la presentación de las búsqueda, permite poder visualizar la pagina seleccionada y el resto de los resultados de al búsqueda. Posee sistemas de tutoría bastante completas y el sistema por el cual se pueden acotar las búsquedas es completo.

 

Desventajas-

No posee una división por temas, es decir que se tiene que conocer el concepto de la información a recuperar, dado que la recuperación de datos es en forma automática no se pueden realizar búsquedas por descripción y palabras clave. No tiene un control del vocabulario por ello hay una gran cantidad de sinónimos y la presentación esta determinada por el sistema.

 

DNA - (http://www.dna.com.ar)

Recolección de datos-

La mayoría de las direcciones URL que tiene indexada en su base de datos es sugerida por los usuarios. El método que utiliza  este buscador para la recolección de datos es manual al igual que en yahoo pero en este caso tiene una pequeña diferencia que consiste en que en primera instancia se presenta una ventana para colocar la dirección URL de al pagina a dar de alta, en ese momento un robot(spider) se asegura que la pagina se encuentra on-line, si encuentra la pagina recién ahí presenta el formulario en cual si la pagina contenía META extrae de ellos los datos que necesita y los coloca en su lugar en el formulario acto seguido se completan el resto de los datos acerca del sitio en donde algunos son de índole obligatoria y otros opcionales. Esta información es analizada por un equipo de la empresa y si el contenido de al pagina es acorde con los contenidos presentados en el buscador se indexara en la base de datos con su correspondiente notificación al responsable de la pagina.

 

Búsqueda de información-

Las búsquedas se pueden realizar por palabras o navegando a través de los índices temáticos. También permite realizar búsquedas en varios idiomas. Los operadores lógicos me sirven para acotar las búsquedas en los sitios a  que contengan determinadas palabras( se coloca el signo + delante de al palabra) o que no determinadas palabras( se coloca el signo – delante de la palabra especifica). También puedo hacer búsquedas con operadores boléanos.

 

Resultados de la búsqueda-

En los resultados presentados el  formato y el orden de aparición de las ocurrencias esta determinado por el sistema. Presenta por cada referencia encontrada la categoría a la que pertenece en la bese de datos, el idioma en el cual se encuentra, él titula de la pagina y una muy breve descripción del sitio.

 

Ventajas-

Posee un índice temático por el cual se pueden realizar las búsquedas en el caso de que no se conozca con precisión la información requerida, permite utilizar operadores lógicos y boléanos. Y aunque la recolección de datos sea en parte manual el software spider puede interpretar los META(si existen) de la paginas a dar de alta.

 

Desventajas-

Su mayor desventaja es que no posee herramientas de búsqueda para acotar la recuperación de documentos dado que por ejemplo no permite buscar por un campo especifico como sucedía con los dos motores de búsqueda anteriores, no presenta en la lista de resultados la dirección URL de la pagina o sea que APRA saberla hay que ingresar indefectiblemente. Y no permite aplicar un formato a los resultados obtenidos.

 

WebCrawler – (http://www.webcrawler.com)

Recolección de datos-

Las paginas que se encuentran en su base de datos son ingresadas por los usuarios a través de un formulario. Este buscador solo permite que se consigne la dirección de la pagina principal y las secciones importantes. Este buscador a la hora de indexar información no utiliza los datos proporcionados por los META sino que se indexa hasta un megabyte de  la información de la pagina.

 

Búsqueda de información-

Posee un formulario donde se deben ingresar las palabras referidas a la pagina que se desea buscar, estas palabras pueden ser simples o compuestas unidas por operadores boléanos, se pueden utilizar separadores. Este buscador no posee la posibilidad de hacer búsquedas por determinados campos, pero tiene una característica muy útil que es que se puede buscar paginas por similitud.

El otro tipo de búsqueda que se puede realizar es consultando la estructura de directorio navegando por temas.

 

Resultados de la búsqueda-

Webcrawler brinda la posibilidad de elegir entre dos tipos de presentación de los resultados de la búsqueda por palabras. Uno de ellos solo muestra él titula de la pagina y el otro modo es presentando, como en la mayoría de los buscadores, titulo, la dirección URL, las primeras palabras de al pagina y el grado de importancia del sitio por el cual son ordenados los resultados obtenidos.

Los resultados de la búsqueda por temas se ordenan apareciendo en primer lugar las paginas recomendadas por el buscador y luego las demás con un orden alfabético y una descripción muy breve de las mismas.

Ventajas-

Tiene sistemas de tutoría muy complejos que hasta incluyen ejemplos de cómo realizar las búsquedas y como funciona el sistema. Es de los que más posibilidades de búsqueda posee, se pueden utilizar operadores boléanos  y separadores y buscar paginas por igualdad de características con una especificada. Da la posibilidad de elegir entre dos tipos de presentación y además las paginas con mayor importancia las mostrara en primer lugar.

 

Desventajas-

Una de las pocas objeciones que se le puede hacer a este buscador es que no permite acotar las búsquedas por campos, y que no utiliza la información otorgada por los META. El resto de los carencias esta dada en la forma de presentar resultados una de ella es que al no poseer descripción de las paginas en su base de datos muestra las primeras líneas de las paginas así que en el resultado pueda aparecer como descripción un texto que no hable especifique realmente el contenido de la pagina.

 

Lycos – (http://www.lycos.com)

Recolección de datos-

Lycos sólo necesita dos datos para poner en base de datos una página, la dirección URL y la dirección de E-mail del responsable de la pagina. El software spider de Lycos  lee el texto visible en la página ingresada y automáticamente una abstracción de la información leída. Las palabras claves y descripciones asociadas con su página serán generadas el software spider es decir que el buscador debe poder visitar la pagina antes de indexar la pagina. Todo esto será almacenado en al base de datos del motor de búsqueda

 

Búsqueda de información-

Una de la características de Lycos es que permite construir búsquedas poderosas con operadores Boléanos y se puede buscar por idioma, además posee dos formularios de búsqueda uno simple y otro avanzado n el que se puede elegir en que parte del documento buscar las palabras introducidas para la recuperación. Tiene una opción para ver mas paginas de iguales características que una pagina determinada.  Hay una opción que permite que se afine la búsqueda buscando dentro de los resultados de la pregunta anterior.

Se puede realizar búsquedas a través de los índice temáticos que posee.

 

Resultados de la búsqueda-

Permite elegir el tipo de presentación de resultados entre dos tipos en una de ellas se presentarían las paginas por dominio y en otra en forma individual. De cada ocurrencia se muestra él titulo con forma de hipervínculo, la dirección URL y las primeras palabras de cada pagina como una descripción el tamaño de la pagina y el grado de relevancia del sitio, parámetro por el cual el usuario puede elegir que se ordenen los resultados obtenidos.

 

Ventajas-

El usuario puede elegir la forma y el orden de presentación de resultados, se puede acotar la búsqueda realizando una nueva pero dentro de los resultados obtenidos. Posee un sistema de tutoria muy completo, y permite búsquedas complejas.

 

Desventajas-

El resultado final obtenido delas búsquedas utiliza como descripción las primeras lineas de la pagina, dado que no interpreta la infroamcion otorgada por los META, esto  hace que posiblemente se presente una descripción que no refleje el contenido de la pagina. No permite el truncado de palabras esto es una carencia a la hora de realizar búsquedas.

 

 

 

Metabuscadores-

 

Un metabuscadores un tipo motor de búsqueda en el cual cuando un usuario realiza una búsqueda (colocando en el formulario de búsqueda las palabras por las cuales se quiere recuperar información) este tipo de buscador transmite este pedido simultamenamente a varios motores de búsqueda incividuales del tipo antes estudiado.

Después de unos instantes los resultados se presentan en forma de pagina web con un enlace (hipervínculo) por cada referencia obtenida de otros buscadores.

Los metabuscadores no poseen una base de datos propia con direcciones URL, ellos envian sus condiciones de búsqueda definidas por el usuario a las bases  de datos mantenidas y actualizadas por los motores de búsqueda.

En conclusión un metabuscador es un motor de búsqueda que realiza la recuperación de paginas buscando dentro de las bases de datos de otros buscadores.

Sin embrego hay algunos metabuscadores que poseen un Meta-index que un compendio de las ultimas experiencias de búsqueda.[4][5]

 

Como trabaja un metabuscador-[4]

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 


Modificaciones en las consultas-

 

Uno de los inconvenientes de un metabuscador es que depende de los motores de búsqueda subyacentes para proveer resultados satisfactorios.

Simplemente porque es el motor de búsqueda quien realmente contiene los resultados que necesita el usuario no hay garantia  de que esos resultados se devolveran de manera completa para cualquier consulta. Esto quiere decir que muchos motores de búsqueda limitan la cantidad de resultados obtenidos para un usuario.

Para reforzar la precision de las búsquedas y evitar los problemas causados por los limites que los motores de búsqueda imponen se pueden hacer modificaciones en la consulta. Por ejemplo usar opciones especificas como la fecha del documento, buecar por idiomas o añadir condiciones.

Estas modificacione permiten que datos factiblemente valiosos se extravíen.[4]

 

 

 

Visualizacion de resultados-

 

Esta es una de las características mas importantes a tener en cuenta.

Un motor de búsqueda convencional muestra la lista de resultados basados en una búsqueda basándose en las palabras de una consulta en forma de pagina web.

Algunos metabuscadores muestran esta lista de documentos devueltos por los  motores de búsqueda consultados mejorando o modificando la presentación de acuerdo ala preferencias del usuario.

 

Conviene utilizar un metabuscador-

 

Una duda que se plantearia es que si un buscador realiza las recuperaciones de als bases de datos de varios motores de búsqueda qué es mejor utilizar a la hora de realizar una investigación ¿un motor de búsqueda convencional o un metabuscador?.

Es muy comun pensar que se ahorraria mucho tiempo al tener que realizar la investigación en un solo sitio en lugar de navegar y familiarizarse de al forma de trabajo de varios motores de búsqueda, sin embargo en realidad un metabuscador ofrece un acercamiento rapido pero no muy claro , es decir no eficiente, porque puede recuperar demasiada información irrelevante por lo tanto no seria conveniente utilizar un metabuscador en investigaciones, es recomendable usar buscadores de contenidos referidos al tema a tratar.

Una desventaja de los metabuscadores es que no se puede refinar la búsqueda en el caso de que un resultado obtenido no sea satisfactorio como ocurre en algunos motores de búsqueda. Otra desventaja seria el desaprovechamiento de información valiosa por ejemplo Google es el motor de búsqueda con mejor base de direcciones URL y a menos que el metabuscador tenga alguna tipo de vinculo economico generalmente ningun metabuscador realiza búsquedas en el.[5]

 

 

Textos de referencia-

 

[1] http:// www.learnthenet.com - Articulo multimedia acerca de cómo trabajan los motores de búsqueda.

 

[2] http://www.florida-uni.es -”Evaluación de los principales buscadores”, Angeles Maldonado Martinez y Elena Fernández Sanches, CINDOC-CSIC.

 

[3] http://www-db.stanford.edu - “The Anatomy of a Large-Scale Hypertextual

Web Search Engine”, Computer Science Department, Stanford University, Stanford.

 

[4] http://citeseer.nj.nec.com/cs - “Architecture of a Metasearch Engine that Supports User Information NeedsIn Proceedings of the Eighth International Conference on Information Knowledge Management 1999.

 

[5] http://www.lib.berkeley.edu - Meta-Search Engines, UC Berkeley - Teaching Library Internet Workshops