BUSCADORES
FUNCIONAMIENTO DE UN MOTOR
DE BUSQUEDA EN INTERNET
Hernán E. Loisa
Introducción-
Internet se ha convertido con
el paso del tiempo en un gran medio para colocar información de cualquier
índole. Esta cantidad de información crece a una velocidad considerable, así
como él numero de usuarios sin experiencia para poder realizar de manera eficaz
investigaciones en esta gran fuente de datos.
Ayudar
a solventar este inconveniente es la tarea primordial de los motores de
búsqueda tanto que se han convertido en una de las herramientas indispensables
de Internet. Existe una numerosa cantidad de buscadores tanto índices temáticos
como motores de búsqueda. En el presente trabajo se describirán y se analizaran
las características tanto para recoger información acerca de las paginas que se
encuentran indexadas en las bases de datos de un motor de búsqueda como el
análisis de esta información, la búsqueda y los resultados presentados por los
motores de búsqueda.
Para
ello se compara el modo de operación de cinco motores de búsqueda para sacar
las conclusiones pertinentes.
¿Que
es un motor de búsqueda?
Tanto
los índices temáticos como los motores de búsqueda son grandes sistemas de bases de datos destinadas a
indexar direcciones URL. A continuación
se describirá la forma en que se llegan a recolectar estas direcciones
URL, como se realizan las búsquedas en la base de datos y la forma en que se presentan
los resultados de la búsqueda.[1]
Recolección
de información-
La
recolección de datos en los buscadores
al igual que en una base de datos cualquiera se puede realizar manualmente o
automáticamente.
El método de recolección manual se conoce como de directorio un directorio es un sistema de banco de datos de entrada manual es decir se realiza solicitando un formulario desde la interfaz propia del buscador. La apariencia de este formulario varia de acuerdo al buscador. Luego se procede a completar los campos del formulario con información acerca del sitio que se quiere agregar. Vale aclarar que cuanto más información sobre el sitio se otorga se optimizaran las futuras recuperaciones.
La
información a ingresar se divide en dos tipos:
El
método de recolección automática es utilizado generalmente por los motores de búsqueda.
En esta forma el motor de búsqueda solo requiere que se le otorgue la dirección
URL de la pagina a la cual se le quiere dar de alta en el buscador.
Automáticamente
este pedido es captado por un “robot”, que es un software llamado spider que se encarga de aceptar la dirección URL
ingresada y de verificar que la pagina
se encuentra efectivamente on-line visitándola. Una vez hecha esta verificación
recupera una copia del archivo que encuentra en esa dirección para analizarla. Luego este mismo software
procesara la información recuperada seleccionando los datos que necesita para
su base de datos, estos datos dependen del motor de búsqueda, entonces se
indexa la pagina dada de alta en la base de datos propia del motor de búsqueda
así como también los enlaces de dicha pagina.
La
información que analizan estos spiders es información adicional que se agrego a
la pagina al momento de construirla en su código HTML a través de etiquetas
denominadas META. Estos robots pueden identificar los META y tomar la información
extra, que seria la que se ingresa en un formulario en el método manual como
pueden ser palabras clave, descripción, URL, etc., para poder optimizar la
futura recuperación de la pagina así como también poder utilizarla en los
resultados de búsquedas.
Dado
que estos META no son forzosamente
obligatorios y hay robots que no utilizan esta información adicional hay muchas
paginas en la actualidad en que no se agrega dichos META.[2]
Sistema
de búsqueda-
La búsqueda que se puede realizar a través de un motor de búsqueda es tanto más eficiente cuanto más variantes de recuperación ofrezca. Al momento de realizar una búsqueda hay una serie de requisitos básicos que un buscador debe cumplir para poder brindar un buen resultado.
Debe brindar la posibilidad de elegir la complejidad de formulario de búsqueda, dado que de acuerdo a que el tipo de usuario sea inexperto o con experiencia pueda seleccionarlo. Además los formularios con mas complejidad enriquecerá las búsquedas.
Debe permitir realizar búsquedas por un determinado campo o tipo de información ya que de esta manera la cantidad de resultados sé vera acotada acercándose a lo que se busca.
Debe proveer un índice temático que facilitara la localización de información cuando no se tiene definido con certeza el objetivo de la búsqueda.
Debe brindar la posibilidad de utilizar una serie de herramientas para definir específicamente la información que se necesita. Estas herramientas pueden ser los operadores boléanos, términos compuestos en donde los separadores sean comillas, paréntesis.
Entonces resumiendo cuando se realiza una búsqueda por palabras, ya sé a que tenga operadores boléanos o separadores, se busca dentro de al base de datos del motor de búsqueda una entrada en la base de datos que coincida con las palabras ingresadas.[3]
Resultados
de la búsqueda-
El
motor de búsqueda arma con los resultados obtenidos una pagina web que lista
cada entrada encontrada en forma de hipervínculo.
Los
resultados presentados varían de acuerdo al buscador de que se trate pero lo
ideal seria que brinden la posibilidad de elegir entre diferentes formatos de
presentación. También es recomendable que cada referencia encontrada de una
pagina vaya acompañada de una descripción pero esto depende de el tipo de alta
que se realiza de dicha pagina, de la información que es capaz de analizar el software spider y del tipo de datos que el motor de búsqueda
almacene en su base de datos.[3]
Comparación de motores de búsqueda-
Se
hará una comparación entre el modo de recolección de datos, modo de búsqueda,
forma de presentar resultados para finalizar con una conclusión con las
ventajas y desventajas de cada motor de búsqueda.
Para
la selección de los motores de búsqueda a estudiar se tomo en cuenta los más
importantes y utilizados como también que operaran de manera distinta para
contrastar las diferencias.
Yahoo – (http://www.yahoo.com)
Recolección
de datos-
Generalmente
la mayoría de las direcciones URL que contiene en su base de datos corresponde a
sitios ingresados por los usuarios. El método de toma de datos en manual o sea
a través de un formulario donde se coloca información, alguna obligatoria y
otra opcional, acerca del sitio como ser titulo, dirección URL, descripción,
palabras clave y se debe indicar además una categoría ya que este buscador
posee un directorio temático.
Llegado
el tiempo oportuno, que en este buscador es de alrededor de 30 días, personal
de yahoo visitara el sitio para evaluar su contenido y decidir si se agrega a
su base de datos o no.
Búsqueda
de información-
Se
puede realizar dos tipos de búsqueda por temas o por palabras clave. Por temas
se puede ir navegando a través de los vínculos correspondientes a cada tema
hasta que el usuario lo considere y allí seleccionar las paginas de su interés.
La
búsqueda por palabras clave se realiza tipeando en la ventana la palabra
referida al tema en cuestión. Se pueden utilizar operadores boléanos como
buscar por frases compuestas. Si el resultado que entrega el buscador no es
satisfactorio la interfaz que yahoo posee permite hacer un enlace con otros
buscadores para realizar nuevamente la búsqueda.
Resultados
de la búsqueda-
Los
resultados que presenta son por cada sitio él titulo en forma de hipervínculo
acompañado de una pequeña descripción acerca del sitio. El orden en que se
visualizaran las paginas presentadas depende de al cantidad de correspondencias
con las palabras por las cuales se busca así como también que se encuentren en
lugares específicos del documento. El lugar con mas prioridad es él titulo de
la pagina. Este buscador no permite formatear el resultado de las búsquedas
Ventajas-
Dado
que la recolección de datos para su base se hace por medio de un formulario
esto permite que la información recibida sea mas completa lo que conlleva a una
presentación de resultados mejor. Posee un índice temático. Se pueden acotar
las búsquedas gracias a que permite utilizar operadores boléanos, términos
separadores y a que permite buscar por URL. Posee sistemas de ayuda completos,
tiene versiones en diferentes idiomas y se reconoce fácilmente si existe alguna
novedad en su contenido.
Desventajas-
Una
de las mayores desventajas de yahoo es que no tiene un control del vocabulario
por ello hay una gran cantidad de sinónimos. Al abrir una dirección recuperada
lo hace sobre la misma pagina por lo
que la lista de resultados desaparece. No permite hacer un diseño del formato
de resultados.
Altavista
– (http://altavista.digital.com)
Recolección
de datos-
Las
direcciones URL que contiene en su base de datos son recolectadas de la forma automática, es decir que en el
formulario presentado para este fin lo único que se solicita es la dirección
URL de la pagina, el resto de la información la recupera el software
spider, de los meta de la pagina
ingresada, y la indexa en la base de datos.
Búsqueda
de información-
La
búsqueda se puede realizar a través de uno de los dos formularios que posee, lo
que diferencia a estos formularios en que en el simple el orden en el cual se
presentara las paginas seleccionas lo establece el sistema el cambio en el
avanzado es el usuario quién puede determinar este orden utilizando una opción
llamada “Ranking” y diciendo que palabra debe contener las paginas del principio
de la lista.
También
se pueden realizar búsquedas por idioma, buscar en campos concretos, así la
información presentada se acotara al tipo definido, utilizar operadores
boléanos localizar términos compuestos y el uso de separadores como paréntesis.
Permite realizar una nueva búsqueda entre las paginas seleccionadas a partir de
nuevas palabras clave.
Resultados
de la búsqueda-
Presenta
cada ocurrencia de la pagina con él titulo de la misma, la dirección URL y si
no contiene una descripción en los META analizados presenta las primeras
palabras de la pagina. También presenta información adicional como el tamaño,
idioma y fechas de modificación de la pagina.
El
orden en que aparecerán las paginas en las consultas simples estará dado por la
ocurrencia de las frases introducidas para la búsqueda y si se encuentran entre
las primeras palabras de al pagina.
Ventajas-
El
software spider reconoce la información brindada por los metas y utiliza esta
información en la presentación de las búsqueda, permite poder visualizar la
pagina seleccionada y el resto de los resultados de al búsqueda. Posee sistemas
de tutoría bastante completas y el sistema por el cual se pueden acotar las
búsquedas es completo.
Desventajas-
No
posee una división por temas, es decir que se tiene que conocer el concepto de
la información a recuperar, dado que la recuperación de datos es en forma
automática no se pueden realizar búsquedas por descripción y palabras clave. No
tiene un control del vocabulario por ello hay una gran cantidad de sinónimos y
la presentación esta determinada por el sistema.
DNA - (http://www.dna.com.ar)
Recolección
de datos-
La
mayoría de las direcciones URL que tiene indexada en su base de datos es
sugerida por los usuarios. El método que utiliza este buscador para la recolección de datos es manual al igual que
en yahoo pero en este caso tiene una pequeña diferencia que consiste en que en
primera instancia se presenta una ventana para colocar la dirección URL de al
pagina a dar de alta, en ese momento un robot(spider) se asegura que la pagina
se encuentra on-line, si encuentra la pagina recién ahí presenta el formulario
en cual si la pagina contenía META extrae de ellos los datos que necesita y los
coloca en su lugar en el formulario acto seguido se completan el resto de los
datos acerca del sitio en donde algunos son de índole obligatoria y otros
opcionales. Esta información es analizada por un equipo de la empresa y si el
contenido de al pagina es acorde con los contenidos presentados en el buscador
se indexara en la base de datos con su correspondiente notificación al
responsable de la pagina.
Búsqueda
de información-
Las
búsquedas se pueden realizar por palabras o navegando a través de los índices
temáticos. También permite realizar búsquedas en varios idiomas. Los operadores
lógicos me sirven para acotar las búsquedas en los sitios a que contengan determinadas palabras( se
coloca el signo + delante de al palabra) o que no determinadas palabras( se
coloca el signo – delante de la palabra especifica). También puedo hacer
búsquedas con operadores boléanos.
Resultados
de la búsqueda-
En
los resultados presentados el formato y
el orden de aparición de las ocurrencias esta determinado por el sistema.
Presenta por cada referencia encontrada la categoría a la que pertenece en la
bese de datos, el idioma en el cual se encuentra, él titula de la pagina y una
muy breve descripción del sitio.
Ventajas-
Posee
un índice temático por el cual se pueden realizar las búsquedas en el caso de
que no se conozca con precisión la información requerida, permite utilizar
operadores lógicos y boléanos. Y aunque la recolección de datos sea en parte
manual el software spider puede interpretar los META(si existen) de la paginas
a dar de alta.
Desventajas-
Su
mayor desventaja es que no posee herramientas de búsqueda para acotar la
recuperación de documentos dado que por ejemplo no permite buscar por un campo
especifico como sucedía con los dos motores de búsqueda anteriores, no presenta
en la lista de resultados la dirección URL de la pagina o sea que APRA saberla
hay que ingresar indefectiblemente. Y no permite aplicar un formato a los
resultados obtenidos.
WebCrawler – (http://www.webcrawler.com)
Recolección
de datos-
Las
paginas que se encuentran en su base de datos son ingresadas por los usuarios a
través de un formulario. Este buscador solo permite que se consigne la
dirección de la pagina principal y las secciones importantes. Este buscador a
la hora de indexar información no utiliza los datos proporcionados por los META
sino que se indexa hasta un megabyte de
la información de la pagina.
Búsqueda
de información-
Posee
un formulario donde se deben ingresar las palabras referidas a la pagina que se
desea buscar, estas palabras pueden ser simples o compuestas unidas por
operadores boléanos, se pueden utilizar separadores. Este buscador no posee la
posibilidad de hacer búsquedas por determinados campos, pero tiene una
característica muy útil que es que se puede buscar paginas por similitud.
El
otro tipo de búsqueda que se puede realizar es consultando la estructura de
directorio navegando por temas.
Resultados
de la búsqueda-
Webcrawler
brinda la posibilidad de elegir entre dos tipos de presentación de los
resultados de la búsqueda por palabras. Uno de ellos solo muestra él titula de
la pagina y el otro modo es presentando, como en la mayoría de los buscadores,
titulo, la dirección URL, las primeras palabras de al pagina y el grado de
importancia del sitio por el cual son ordenados los resultados obtenidos.
Los
resultados de la búsqueda por temas se ordenan apareciendo en primer lugar las
paginas recomendadas por el buscador y luego las demás con un orden alfabético
y una descripción muy breve de las mismas.
Ventajas-
Tiene
sistemas de tutoría muy complejos que hasta incluyen ejemplos de cómo realizar
las búsquedas y como funciona el sistema. Es de los que más posibilidades de
búsqueda posee, se pueden utilizar operadores boléanos y separadores y buscar paginas por igualdad
de características con una especificada. Da la posibilidad de elegir entre dos
tipos de presentación y además las paginas con mayor importancia las mostrara
en primer lugar.
Desventajas-
Una
de las pocas objeciones que se le puede hacer a este buscador es que no permite
acotar las búsquedas por campos, y que no utiliza la información otorgada por
los META. El resto de los carencias esta dada en la forma de presentar
resultados una de ella es que al no poseer descripción de las paginas en su
base de datos muestra las primeras líneas de las paginas así que en el
resultado pueda aparecer como descripción un texto que no hable especifique
realmente el contenido de la pagina.
Lycos
– (http://www.lycos.com)
Recolección
de datos-
Lycos
sólo necesita dos datos para poner en base de datos una página, la dirección
URL y la dirección de E-mail del responsable de la pagina. El software spider
de Lycos lee el texto visible en la
página ingresada y automáticamente una abstracción de la información leída. Las
palabras claves y descripciones asociadas con su página serán generadas el
software spider es decir que el buscador debe poder visitar la pagina antes de
indexar la pagina. Todo esto será almacenado en al base de datos del motor de
búsqueda
Búsqueda
de información-
Una
de la características de Lycos es que permite construir búsquedas poderosas con
operadores Boléanos y se puede buscar por idioma, además posee dos formularios
de búsqueda uno simple y otro avanzado n el que se puede elegir en que parte
del documento buscar las palabras introducidas para la recuperación. Tiene una
opción para ver mas paginas de iguales características que una pagina
determinada. Hay una opción que permite
que se afine la búsqueda buscando dentro de los resultados de la pregunta
anterior.
Se
puede realizar búsquedas a través de los índice temáticos que posee.
Resultados
de la búsqueda-
Permite
elegir el tipo de presentación de resultados entre dos tipos en una de ellas se
presentarían las paginas por dominio y en otra en forma individual. De cada
ocurrencia se muestra él titulo con forma de hipervínculo, la dirección URL y
las primeras palabras de cada pagina como una descripción el tamaño de la
pagina y el grado de relevancia del sitio, parámetro por el cual el usuario
puede elegir que se ordenen los resultados obtenidos.
Ventajas-
El
usuario puede elegir la forma y el orden de presentación de resultados, se
puede acotar la búsqueda realizando una nueva pero dentro de los resultados
obtenidos. Posee un sistema de tutoria muy completo, y permite búsquedas
complejas.
Desventajas-
El
resultado final obtenido delas búsquedas utiliza como descripción las primeras
lineas de la pagina, dado que no interpreta la infroamcion otorgada por los
META, esto hace que posiblemente se
presente una descripción que no refleje el contenido de la pagina. No permite
el truncado de palabras esto es una carencia a la hora de realizar búsquedas.
Un
metabuscadores un tipo motor de búsqueda en el cual cuando un usuario realiza
una búsqueda (colocando en el formulario de búsqueda las palabras por las
cuales se quiere recuperar información) este tipo de buscador transmite este
pedido simultamenamente a varios motores de búsqueda incividuales del tipo antes
estudiado.
Después
de unos instantes los resultados se presentan en forma de pagina web con un
enlace (hipervínculo) por cada referencia obtenida de otros buscadores.
Los
metabuscadores no poseen una base de datos propia con direcciones URL, ellos
envian sus condiciones de búsqueda definidas por el usuario a las bases de datos mantenidas y actualizadas por los
motores de búsqueda.
En
conclusión un metabuscador es un motor de búsqueda que realiza la recuperación
de paginas buscando dentro de las bases de datos de otros buscadores.
Sin
embrego hay algunos metabuscadores que poseen un Meta-index que un compendio de
las ultimas experiencias de búsqueda.[4][5]
Uno de los inconvenientes de un metabuscador es que
depende de los motores de búsqueda subyacentes para proveer resultados
satisfactorios.
Simplemente porque es el motor de búsqueda quien
realmente contiene los resultados que necesita el usuario no hay garantia de que esos resultados se devolveran de
manera completa para cualquier consulta. Esto quiere decir que muchos motores
de búsqueda limitan la cantidad de resultados obtenidos para un usuario.
Para reforzar la precision de las búsquedas y evitar
los problemas causados por los limites que los motores de búsqueda imponen se
pueden hacer modificaciones en la consulta. Por ejemplo usar opciones
especificas como la fecha del documento, buecar por idiomas o añadir
condiciones.
Estas modificacione permiten que datos factiblemente
valiosos se extravíen.[4]
Esta es una de las características mas importantes a
tener en cuenta.
Un motor de búsqueda convencional muestra la lista
de resultados basados en una búsqueda basándose en las palabras de una consulta
en forma de pagina web.
Algunos metabuscadores muestran esta lista de
documentos devueltos por los motores de
búsqueda consultados mejorando o modificando la presentación de acuerdo ala
preferencias del usuario.
Una duda que se plantearia es que si un buscador
realiza las recuperaciones de als bases de datos de varios motores de búsqueda
qué es mejor utilizar a la hora de realizar una investigación ¿un motor de
búsqueda convencional o un metabuscador?.
Es muy comun pensar que se ahorraria mucho tiempo al
tener que realizar la investigación en un solo sitio en lugar de navegar y
familiarizarse de al forma de trabajo de varios motores de búsqueda, sin
embargo en realidad un metabuscador ofrece un acercamiento rapido pero no muy
claro , es decir no eficiente, porque puede recuperar demasiada información
irrelevante por lo tanto no seria conveniente utilizar un metabuscador en
investigaciones, es recomendable usar buscadores de contenidos referidos al
tema a tratar.
Una desventaja de los metabuscadores es que no se
puede refinar la búsqueda en el caso de que un resultado obtenido no sea
satisfactorio como ocurre en algunos motores de búsqueda. Otra desventaja seria
el desaprovechamiento de información valiosa por ejemplo Google es el motor de
búsqueda con mejor base de direcciones URL y a menos que el metabuscador tenga
alguna tipo de vinculo economico generalmente ningun metabuscador realiza
búsquedas en el.[5]
[1] http:// www.learnthenet.com
- Articulo multimedia acerca de cómo trabajan los motores de búsqueda.
[2] http://www.florida-uni.es
-”Evaluación de los principales buscadores”, Angeles Maldonado Martinez y Elena
Fernández Sanches, CINDOC-CSIC.
[3] http://www-db.stanford.edu
- “The Anatomy of a Large-Scale Hypertextual
Web Search Engine”, Computer Science
Department, Stanford University, Stanford.
[4] http://citeseer.nj.nec.com/cs - “Architecture of a Metasearch Engine that
Supports User Information Needs” In Proceedings of the Eighth International Conference on Information
Knowledge Management 1999.
[5] http://www.lib.berkeley.edu - Meta-Search Engines,
UC Berkeley - Teaching Library Internet Workshops