Cómo buscar datos en la Web

Consejos de expertos para no extraviarse en el océano de información digital

2 de septiembre de 2002
1 minuto de lectura'

Actualizado el 3 de agosto de 2022

Por fortuna, ya nadie está obligado a lidiar con la antigua Internet de pantalla negra, sin iconos ni gráficos de ninguna clase. Es que Internet nació mucho antes que Windows o Macintosh. De hecho, nació mucho antes que la computadora personal.

Aunque en la actualidad apenas se deje ver, la Red nació sobre el andamiaje de Unix y tuvo que pasar más de quince años para que los protocolos y programas que la constituyen fueran transcriptos para los más amigables Windows y Macintosh.

Menos de diez años después del lanzamiento de la PC por parte de IBM, hacia fines de la década del 80, varias tecnologías estaban cuajando para facilitar y universalizar el acceso a la red global. Por un lado, las interfaces gráficas conquistaban las computadoras personales; por otro, nacía la Web, el servicio de Internet que permite mostrar la información en forma de imágenes, video, audio e hipertexto.

Sin embargo, mientras el manejo de la Red se facilitaba, el número de sitios alcanzaba cifras exorbitantes complicando el acceso por otros motivos. Los contenidos ya no se escondían tras una fachada abstrusa, sino bajo toneladas de datos irrelevantes.

Como sabe cualquier cibernauta, encontrar algo en Internet no es fácil. Así que lo primero que debe hacer es dejar de castigarse cuando sus primeros intentos resultan mal. Buscar algo entre 2500 millones de páginas Web no es un picnic.

Hoy en día, no todos esos documentos Web están en inglés, pero al principio esto era así, ya que la Red se originó en los Estados Unidos, y actualmente la mayor parte de los contenidos y muchas de las mejores páginas Web aún están en este idioma. Por lo tanto, saber inglés ayuda, y mucho.

Tercera cuestión preliminar: los buscadores como Yahoo!, Google y Altavista no funcionan en tiempo real. Es decir, cuando ingresa una palabra y aprieta Enter , estos sitios no salen a buscar por la Web a ver si encuentran lo que usted necesita. Lo que hacen es revisar una base de datos razonablemente actualizada de los sitios conocidos (ver recuadro en página 5). Si buscaran el dato por la Web real, pasaríamos meses esperando los resultados.

Por eso, puede ocurrir que un sitio listado por el motor de búsqueda no esté en línea en este preciso momento (están haciéndole mantenimiento o se les cayó el servidor) o que ya no esté disponible (fue quitado de la Web por algún motivo).

Por supuesto, también es posible hacer una búsqueda directa, en tiempo real, saltando de un link a otro por sitios cuya temática está relacionada con el asunto que estamos investigando. Este sistema es muy lento, pero tiene la ventaja de ser mucho más específico que el de los buscadores y, además, nos permite encontrar websites que no están indexados en ninguna parte, dando así con auténticas perlas.

Internet es básicamente una WAN (red de área amplia) formada por redes privadas o públicas. Ofrece, por eso, tantos servicios como uno pueda imaginar: e-mail, sitios Web, mensajeros instantáneos, chat, videoconferencia, juegos en línea, etcétera.

La Web se ha diversificado tanto que hoy es posible desde leer las noticias hasta comprar un perfume, enviar y recibir e-mail o seguir la trayectoria de una encomienda.

No es raro, por eso, que cuando una persona se conecta por primera vez a la Red sienta que todo eso lo supera.

Como en todo, es cuestión de encontrarle la punta al ovillo.

Lo primero que debe saberse acerca de Internet es que no hace nada por sí misma. No alcanza con conectarse. Una vez establecido el vínculo con la Red, tenemos que ir a buscar el correo electrónico, abrir una página Web de noticias o ejecutar el programa de chat. De otro modo, todo lo que logrará es gastar pulsos telefónicos.

Así, una sesión típica de Internet empieza por conectarse, buscar el correo, contestar los mensajes urgentes (los demás pueden responderse sin estar en línea, para ahorrar teléfono), navegar un rato, chatear con amigos o entablar videoconferencias. Y con mucha frecuencia, nos subimos a la Red sólo para encontrar un dato; esta tarea es, por mucho, lo más avanzado del mundo virtual; incluso los veteranos hablarán con respeto de esa persona que es capaz de hallar la página justa en tiempo récord.

Poca magia, mucha lógica

Encontrar algo en la Web empieza por ponerse en el lugar de la persona que desarrolló el sitio que estamos buscando. Lo que queremos encontrar es una frase que una persona o una empresa colocaron en los encabezados de sus páginas. No hay ninguna magia en esto. Encontrar algo en Internet, cualquier cosa y hasta nuevo aviso, significa encontrar texto dentro de un sitio.

Hay varias formas de hacer esto. Puede recorrer las categorías de un directorio como Yahoo!, darle un criterio de búsqueda a un motor como Google o directamente apelar a lo que se conoce como metabuscador ( www. mamma.com , por ejemplo), que consulta una serie de buscadores y directorios, ahorrándonos el trabajo de hacerlo nosotros mismos.

Los directorios como Yahoo! son útiles para búsquedas bien acotadas. Se elige una categoría inicial (por ejemplo, Arte y cultura ), se sigue por Literatura y allí se puede hacer clic en Autores , donde encontrará material excelente en pocos minutos.

Estos servicios son una buena forma de empezar a familiarizarse con esto de navegar por la Web. Pero se trata de búsquedas preparadas por otras personas que funcionan cuando usted quiere averiguar la bibliografía completa de Borges u obtener un mapa de Africa. Ahora, ¿qué pasa si simplemente quiere ir a la página oficial de un juego, ver el valor de las acciones del Nasdaq o averiguar en qué huso horario está Macedonia?

Paradójicamente, los motores de búsqueda como Google son la herramienta indicada para ubicar datos más específicos (una dirección Web puntual, la hora en un país) o más difusos ("necesito información sobre MP3 para un trabajo de la facultad").

Pescando algo en la Web

La clave para encontrar algo en un índice de 2500 millones de páginas Web es no usar palabras sueltas. Esto es así porque una búsqueda fallida no es sólo aquella que produce cero resultados, sino también la que enumera decenas de miles. Si pone arte o ingeniería en Google le está pidiendo que liste todos los sitios que en su base de datos contienen la palabra arte o ingeniería . Es cierto que lo que usted está buscando ( Museos de arte en la Web o Programa de la carrera de ingeniería de la Universidad de Cuyo ) se encontrará entre los centenares de miles de resultados listados por Google. Pero no habrá avanzado ni un paso en su investigación, porque es tan inútil una lista de 2500 millones de sitios que una de 700.000.

Parece un error obvio, pero todos empezamos buscando con palabras sueltas, como si las máquinas o Internet poseyeran la capacidad de leernos la mente y averiguar que cuando ponemos arte lo que estamos tratando de decir es que nos gustaría visitar algunos museos en línea; o que cuando ponemos ingeniería lo que deseamos en realidad es ver el programa de esa carrera en la Universidad de Cuyo.

Como ni la Red ni su PC pueden leerle la mente (por suerte), lo mejor es tratar de ser lo más específico posible. Si busca museos en línea, opte por poner museos en Internet y se acercará bastante al dato correcto, aunque la lista de resultados todavía será muy grande (más de 95.000).

Como dijimos al principio, hay que tratar de pensar como las personas que crean páginas Web. ¿Por qué no colocar directamente "guía de museos en Internet" ? Al fin de cuentas, es un titular muy verosímil para un sitio. Pruébelo y obtendrá un éxito raro de conseguir en el espacio virtual: un solo resultado y, además, perfecto.

Pero es que en la búsqueda de arriba hay un truco: las comillas. Cuando usted pone un criterio entrecomillado en un motor de búsqueda (por ejemplo, " pintores impresionistas" ) le está diciendo que encuentre exactamente esa frase. De otro modo, el buscador listará todas las páginas que contengan las palabras pintores e impresionistas . Imagínese.

El principal buscador de la Web, Google, enumera sus resultados en función de la popularidad. Por eso las comillas son tan importantes: cuando Google encuentra un sitio que contiene exactamente la frase que usted está buscando y además lo pone en primer lugar, está informándole que no sólo contiene ese criterio, sino también que es el más visitado de los que coinciden con su búsqueda.

Lo cual, naturalmente, es un arma de doble filo. Puede que la página que usted necesita no sea la más popular. Las perlas, no suelen estar en primer lugar, recuérdelo.

Así que cuando hay tiempo conviene recorrer los otros resultados que aparecen en la lista.

Trucos y pistas

La investigación en la Web está repleta de pequeños trucos que los veteranos conocen bien. Aquí van algunos de nuestra colección:

La mayoría de las direcciones de grandes compañías e instituciones son obvias. La de la NASA, una organización del gobierno norteamericano, es www.nasa.gov . El fabricante de autos Ford está en www.ford.com . La dirección de la Universidad de Buenos Aires en la Web es www.uba.ar . Pruebe también sin triple w, a veces funciona. Conviene siempre probar lo obvio antes de ir a los motores de búsqueda, si lo que necesita es la dirección de un sitio.

Use el buscador en el idioma del tema sobre el que está investigando. Poco a poco, la Web se ha ido localizando y es más fácil que encuentre un sitio sobre música mexicana en un buscador latinoamericano que en uno cuya sede está en el Silicon Valley.

En general, los sitios en inglés de los buscadores ofrecen resultados más numerosos y completos que sus versiones en español.

Con las comillas y la frase correcta tendrá el 80% de la batalla ganada. Pero recuerde que puede usar una serie de operadores lógicos para afinar la puntería. Uno de los más útiles es el signo menos (-), que significa no . Debe escribírselo pegado a la palabra que quiera excluirse de la búsqueda. Así, puede buscar "poetas griegos" -homero y la lista tendrá los sitios donde aparece la primera frase, pero no aquéllos donde está el cantor de la Odisea .

Cuando logre un buen resultado y empiece a abrir los links que se listan, use el botón derecho y la opción Abrir en una ventana nueva o presione la tecla Mayúsculas al cliquear en un enlace. Esto le evitará caer en la trampa de esos sitios odiosos que no permiten volver atrás. Si queda enganchado, pruebe Alt+cursor a la izquierda ; ese atajo suele regresar a la página anterior. Recuerde, de paso, que las búsquedas pueden guardarse en el disco.

Si usted está tras algún dato, seguramente alguien ya lo buscó antes. Aproveche los links que aparecen en las páginas de otras personas interesadas en ese tema. Aparte de la pasión que ponen sus autores, los sitios personales aportan excelentes vínculos, muchos de los cuales no están indexados en los grandes buscadores.

No porque sí Google, Yahoo! y otros importantes motores también ponen personas a navegar libremente para encontrar esos rincones apartados de las avenidas principales, menos lujosos, quizá, pero no por eso menos valiosos.

Programas para llegar más lejos

Realizan pedidos a varios buscadores al mismo tiempo

Ningún motor de búsqueda domina la Red. Se calcula que la Web profunda (deep Web, que incluye todos los sitios no indexados, páginas privadas) es varios cientos de veces más grande que la base de datos de Google, el buscador más completo.

Por eso una pesquisa exhaustiva requiere pasar por varios buscadores, o por metabuscadores.También puede hacerse con software gratis. El excelente Dave’s Quick Search ( www.dqsd.net ) se integra a la barra de herramientas de Windows y permite iniciar las búsquedas de allí. Tiene muchísimas otras funciones, y es muy recomendable. Algo similar ofrece el METoolBar ( www.metaeureka.com/download.html ). Google tiene su propia barra, que se integra al navegador ( toolbar.google.com ).

Por su parte, los freeware GeoWhere ( www.geowhere.net ), WebFerret ( www.zdnet.com/ferret/), Copernic 2001 Basic ( www.copernic.com ) y Search+ (en www.webattack.com ) permiten obtener resultados de decenas de motores de búsqueda en una única ventana.

Cómo funciona el buscador de Google, explicado por uno de sus ingenieros

El brasileño Luiz Barroso cuenta el camino de ida y vuelta que hace una pesquisa desde una PC hasta el índice más grande de Internet

Un buscador es un sitio extraño: un punto en que los enlaces conocidos de la Web confluyen, un índice de la Red. Su funcionamiento es simple, pero repleto de sutilezas.

Los buscadores usan programas ( spiders o crawlers , en la jerga) que revisan cada sitio que encuentran y guardan ciertos datos: la dirección, el título de la página, el texto que la compone y los meta tags (etiquetas con palabras clave que incluye un webmaster para ayudar a las arañas a clasificar el sitio).

Así se diferencian de los directorios como Yahoo!, en los que cada sitio es revisado por una persona. La base de datos crece más lentamente, pero los contenidos están categorizados.

Dependiendo del buscador, cada término registrado recibe un puntaje según la ubicación de la palabra, y su repetición en la página. El punto de partida son sitios populares, porque la probabilidad de que contengan enlaces a otras páginas es muy alta. Cuanto más links tienen, más valiosos son. La aplicación hace una lista de las palabras de la página y las agrega a una base de datos.

"La lista que genera un crawler se parece a los índices alfabéticos de los libros de texto: tal palabra aparece en tal y tal página. La base de datos nuestra es eso, pero de 2500 millones de páginas", dice el brasileño Luiz Barroso, que se desempeña como ingeniero de software en Google, el buscador más potente del mundo. "A esa lista hay que categorizarla y comprimirla. Se diseñan algoritmos y procesos heurísticos para que cada búsqueda no tenga que pasar por toda la base: recibimos 150 millones de pedidos al día: si cada uno revisara todos los datos, no terminaría nunca", agrega.

Los parámetros para ofrecer los resultados varían según el buscador; en el caso de Google, miden la popularidad de un sitio (cuántas páginas tienen un enlace a él, cuántas personas lo buscan) para ubicarlo en la lista de resultados.

Para Barroso, el hardware también juega un papel esencial. Google tiene una de las granjas de servidores comerciales más grande del mundo, un cluster de más de 10.000 servidores Linux. "Yo superviso el funcionamiento de los servidores -dice Barroso-. Cuando me levanto, lo primero que hago es chequear el mail para ver si hubo alguna falla."

Google también monitorea los sitios para detectar cada cuánto se actualizan. Si lo hacen con frecuencia (como LA NACION Line), lo visitan cada pocas horas; si no, pueden pasar un par de meses antes de que una araña regrese. "Los enlaces rotos son un problema, pero no hay buenas soluciones -admite Barroso-. Lo único que podemos hacer es recorrer la Web una y otra vez."

Nadie sabe en realidad cuál es el tamaño verdadero de la Web: los analistas estiman que hay por lo menos otros 2500 millones de páginas sin indexar. Igual, el territorio cubierto dio pie a dos deportes digitales: el viejo y querido ego surfing (buscar cuántas veces aparece uno mismo en la Web) y el más moderno googlewhacking , que consiste en hacer una búsqueda con dos términos que tenga un solo enlace como resultado. La lista actualizada está en www.googlewhacking.com