Saltar al contenido

La guía definitiva de la web invisible

Los motores de búsqueda son, en cierto sentido, el latido del corazón de Internet; «Googlear» se ha convertido en una parte del discurso cotidiano e incluso es reconocido por Merriam-Webster como un verbo gramaticalmente correcto. Sin embargo, es un error común pensar que buscar en Google un término de búsqueda revelará todos los sitios que se dirigen a su búsqueda. Los típicos motores de búsqueda como Google, Yahoo, o Bing en realidad acceden sólo a una pequeña fracción – estimada en un 0,03% – de Internet. Los sitios que las búsquedas tradicionales producen son parte de lo que se conoce como la Web de superficie, que está compuesta de páginas indexadas que los rastreadores de la web de un motor de búsqueda están programados para recuperar.

¿Y dónde está el resto? La gran mayoría de Internet se encuentra en la Red Profunda, a veces llamada la Red Invisible. El tamaño real de la Web Profunda es imposible de medir, pero muchos expertos estiman que es unas 500 veces el tamaño de la web tal y como la conocemos.

La guía definitiva de la web invisible
La guía definitiva de la web invisible

Entonces, ¿qué es exactamente la Red Profunda? Las páginas de la Web Profunda funcionan como cualquier otro sitio en línea, pero están construidas de manera que su existencia es invisible para los rastreadores. Mientras que noticias recientes, como el busto del infame sitio de tráfico de drogas Ruta de la Seda y las travesuras de la NSA de Edward Snowden, han puesto de relieve la existencia de la Web Profunda, todavía es en gran medida incomprendida.

Los motores de búsqueda y la red de superficie

Entender cómo las páginas superficiales son indexadas por los motores de búsqueda puede ayudarte a entender de qué se trata la Web Profunda. En los primeros días, la potencia informática y el espacio de almacenamiento eran tan escasos que los motores de búsqueda indexaban un número mínimo de páginas, a menudo almacenando sólo un contenido parcial. La metodología de la búsqueda reflejaba las intenciones de los usuarios; los primeros usuarios de la Internet generalmente buscaban investigaciones, por lo que los primeros motores de búsqueda indizaban las consultas sencillas que probablemente hacían los estudiantes u otros investigadores. Los resultados de la búsqueda consistían en el contenido real que un motor de búsqueda había almacenado.

Con el tiempo, el avance de la tecnología hizo que fuera rentable para los motores de búsqueda hacer un trabajo más minucioso de indexación del contenido del sitio. Las arañas web de hoy en día utilizan sofisticados algoritmos para recoger datos de páginas con hipervínculos. Estos robots se abren camino a través de todos los datos vinculados en Internet, ganándose su apodo de araña. Cada sitio de la superficie está indexado por los metadatos que recogen los rastreadores. Estos metadatos, que consisten en elementos como el título de la página, la ubicación de la página (URL) y las palabras clave repetidas utilizadas en el texto, ocupan mucho menos espacio que el contenido real de la página. En lugar de la descarga de contenido en caché de antaño, los motores de búsqueda actuales dirigen a los usuarios de manera rápida y eficiente a los sitios web que son relevantes para sus consultas.

Para tener una idea de cómo los motores de búsqueda han mejorado con el tiempo, el desglose interactivo de Google «Cómo funciona la búsqueda» detalla todos los factores en juego en cada búsqueda de Google. De manera similar, la línea de tiempo del algoritmo del motor de búsqueda de Google de Moz.com le dará una idea de cómo han sido los esfuerzos incesantes para refinar las búsquedas. No está exactamente claro cómo estos esfuerzos impactan en la Web profunda. Pero es razonable asumir que si los principales motores de búsqueda siguen mejorando, los usuarios comunes de la web serán menos propensos a buscar búsquedas arcanas en la Web profunda.

¿Cómo es que la Web profunda es invisible para los motores de búsqueda?

Los motores de búsqueda como Google son extremadamente poderosos y efectivos para destilar contenido web de última hora. Lo que les falta, sin embargo, es la capacidad de indexar la gran cantidad de datos que no están hipervinculados, y por lo tanto son accesibles inmediatamente para un rastreador web. Esto puede o no ser intencional; por ejemplo, el contenido detrás de una pared de pago o una entrada de blog que está escrita pero aún no publicada, ambos residen técnicamente en la Web profunda.

Algunos ejemplos de otros contenidos de la Web Profunda incluyen:

  • Datos a los que se debe acceder mediante una interfaz de búsqueda
  • Resultados de las consultas a la base de datos
  • Información de sólo suscripción y otros datos protegidos por contraseña
  • Páginas que no están enlazadas por ninguna otra página
  • Contenido técnicamente limitado, como el que requiere la tecnología CAPTCHA
  • Contenido de texto que existe fuera de los protocolos convencionales de http:// o https://

Si bien la escala y la diversidad de la Red Profunda son asombrosas, su notoriedad -y su atractivo- proviene del hecho de que los usuarios son anónimos en la Red Profunda, al igual que sus actividades. Por ello, ha sido una herramienta importante para los gobiernos; el laboratorio de investigación naval de los Estados Unidos lanzó por primera vez herramientas de inteligencia para su uso en la Web profunda en 2003.

Lamentablemente, este anonimato ha creado un caldo de cultivo para los elementos criminales que aprovechan la oportunidad de ocultar actividades ilícitas. Pornografía ilegal, drogas, armas y pasaportes son sólo algunos de los artículos disponibles para comprar en la Red Profunda. Sin embargo, la existencia de sitios como éstos no significa que la Red Profunda sea intrínsecamente mala; el anonimato tiene su valor, y muchos usuarios simplemente prefieren operar dentro de un sistema irrastreable por principio.

Así como el contenido de la Web profunda no puede ser rastreado por los rastreadores de la Web, tampoco se puede acceder a él por medios convencionales. El mismo grupo de investigación naval para desarrollar herramientas de recolección de inteligencia creó el Proyecto Router de la Cebolla, ahora conocido por su acrónimo TOR. El enrutamiento de la cebolla se refiere al proceso de eliminar las capas de cifrado de las comunicaciones por Internet, similar al de despegar las capas de una cebolla. La identidad de los usuarios del TOR y las actividades de la red quedan ocultas por este software. TOR, y otros programas como éste, ofrecen una conexión anónima a la Red Profunda. Es, en efecto, su motor de búsqueda en la Web Profunda.

Pero a pesar de su reputación de callejón trasero hay muchas razones legítimas para usar TOR. Por un lado, los TOR permiten a los usuarios evitar el «análisis de tráfico» y las herramientas de monitoreo utilizadas por los sitios comerciales para determinar la ubicación de los usuarios de la web y la red a través de la cual se están conectando. Estas empresas pueden entonces utilizar esta información para ajustar los precios, o incluso los productos y servicios que ponen a disposición.

De acuerdo con el sitio del Proyecto Tor, el programa también permite a la gente, «[-¦] Crear un sitio web donde la gente publica material sin preocuparse por la censura.» Aunque esto no es de ninguna manera una clara cosa buena o mala, la tensión entre la censura y la libertad de expresión se siente en todo el mundo. La Web Profunda fomenta ese debate demostrando lo que la gente puede y hará para superar la censura política y social.

Razones por las que una página es invisible

Cuando una consulta ordinaria de un motor de búsqueda regresa sin resultados, eso no significa necesariamente que no haya nada que encontrar. Una página «invisible» no es necesariamente inaccesible; simplemente no está indexada por un motor de búsqueda. Hay varias razones por las que una página puede ser invisible. Tenga en cuenta que algunas páginas son sólo temporalmente invisibles, posiblemente indexadas en una fecha posterior.

Demasiados parámetros

Los motores tradicionalmente han ignorado cualquier página web cuyos URLs tengan una larga cadena de parámetros y signos iguales y signos de interrogación, en la remota posibilidad de que dupliquen lo que está en su base de datos – o peor – la araña de alguna manera andará en círculos. Conocida como la «Web superficial», se han desarrollado una serie de soluciones para ayudar a acceder a este contenido.

Entrada controlada por formulario que no está protegida por contraseña

En este caso, el contenido de la página sólo se muestra cuando un humano aplica un conjunto de acciones, en su mayoría introduciendo datos en un formulario (información específica de la consulta, como los criterios de trabajo para un motor de búsqueda de empleo). Esto suele incluir bases de datos que generan páginas a pedido. El contenido aplicable incluye datos del sector de los viajes (información sobre vuelos, disponibilidad de hoteles), listas de empleos, bases de datos de productos, patentes, información gubernamental de acceso público, definiciones de diccionarios, leyes, datos bursátiles, guías telefónicas y directorios profesionales.

Acceso con contraseña, suscripciones o no suscripciones.

Esto incluye VPN (redes privadas virtuales) y cualquier sitio web donde las páginas requieran un nombre de usuario y una contraseña. El acceso puede o no ser por suscripción de pago. El contenido aplicable incluye bases de datos académicas y corporativas, contenido de periódicos o revistas y suscripciones a bibliotecas académicas.

Acceso temporizado

En algunos sitios, como las principales fuentes de noticias como The New York Times , el contenido gratuito se vuelve inaccesible después de un cierto número de visitas. Los motores de búsqueda retienen la URL, pero la página genera un formulario de registro y el contenido se mueve a una nueva URL que requiere una contraseña.

Exclusión de los robots

El archivo robots.txt, que suele vivir en el directorio principal de un sitio, indica a los robots de búsqueda qué archivos y directorios no deben ser indexados. De ahí el nombre «archivo de exclusión de robots». Si se configura este archivo, bloqueará ciertas páginas para que no sean indexadas, las cuales serán entonces invisibles para los buscadores. Las plataformas de blogs suelen ofrecer esta característica.

Páginas ocultas

Simplemente no hay una secuencia de clics de hipervínculos que pueda llevarte a esa página. Las páginas son accesibles, pero sólo para las personas que saben de su existencia.

Mitos sobre la red invisible

Las drogas, la pornografía y otras actividades ilegales son el aspecto del que más se habla en la Red Profunda por una razón. Las historias sobre personas que compran heroína en línea usando Bitcoins, una forma de moneda electrónica, o que venden armas internacionalmente, son grandes titulares.

Lo que la gente no se da cuenta es que hay mucho que la internet invisible tiene para ofrecer además de la actividad ilegal. Los estereotipos y las historias del hombre del saco mantienen a la gente alejada de la Red Profunda cuando en realidad hay muchas razones maravillosas para visitarla. En países como China, donde los sitios web están bloqueados y la privacidad de Internet es difícil de conseguir, hay una creciente comunidad de usuarios que utilizan la Internet profunda para compartir información y hablar libremente. Navegadores como TOR son todavía relativamente desconocidos en China, pero el número de personas que utilizan el servicio está creciendo constantemente. Los ciudadanos de Turquía y otros países políticamente tumultuosos están utilizando la Internet profunda para reunirse, planificar protestas y discutir las noticias locales fuera del ojo vigilante del gobierno.

¿Por qué el americano promedio querría usar el internet profundo? A pesar de su fama de actividad ilegal, el internet profundo es simplemente cualquier cosa no accesible por una simple búsqueda en Google. Tanto como el 90 por ciento de la Internet es sólo accesible a través de sitios web de la red. El uso de TOR no es ilegal, ni tampoco lo es ir a muchos sitios web de internet profundo. La única actividad ilegal es lo que sería ilegal en el mundo real. En la web profunda puedes encontrar libros raros y prohibidos, leer noticias difíciles de encontrar, e incluso ficción. La idea de un salvaje oeste de Internet está viva de nuevo usando la web profunda.

Cómo acceder y buscar contenido invisible

Si un sitio es inaccesible por medios convencionales, todavía hay formas de acceder al contenido, si no a las páginas reales. Aparte de programas como TOR, hay una serie de entidades que permiten ver el contenido de la Web profunda, como universidades e instalaciones de investigación.

Para el contenido invisible que no puede o no debe ser visible, todavía hay varias maneras de obtener acceso:

Membresía

Únase a una asociación profesional o de investigación que proporcione acceso a registros, investigaciones y revistas revisadas por pares.

VPN

Acceder a una red privada virtual a través de un empleador

Pide permiso.

Solicitar el acceso; esto podría ser tan simple como un registro gratuito.

Servicios de suscripción

Pague una suscripción a una revista u otro recurso cuya labor desee apoyar.

Encuentra un recurso adecuado

Utilice un directorio Web invisible, un portal o un motor de búsqueda especializado como Google Book Search o el Índice de Internet del Bibliotecario.

Usando la Red Profunda en la Educación

Entonces, ¿dónde entra usted, como educador? La web profunda puede ser usada para encontrar información a la que no podrías acceder de otra manera a través de una simple búsqueda en Google, y que puede resultar inconmensurablemente útil para tus estudiantes y colegas.

Lo que la gente no entiende es qué es exactamente lo que constituye información profunda de la web. Las revistas y los libros a los que sólo se puede acceder a través del sitio web de una biblioteca universitaria no se pueden encontrar a través de Google, así como los sitios que han desactivado la posibilidad de ser buscados a través de un motor de búsqueda. Para los estudiantes que necesitan ese firewall, la capacidad de buscar en sitios web profundos se convierte en una herramienta útil para la escuela y más allá.

Mostrar a los estudiantes el uso en la búsqueda de motores de búsqueda ocultos, y qué tipo de información se puede encontrar a través de ellos. Vencer los estereotipos y mostrar el uso de las búsquedas profundas en la web es una perspectiva emocionante para los estudiantes – pueden ver que Internet es mucho más grande que los medios sociales y las típicas búsquedas de Google o Yahoo que están acostumbrados a utilizar para los proyectos y ensayos escolares. Su biblioteca local puede ser una fuente de toneladas de información no buscada en Google, y a través de su biblioteca, puede ser capaz de utilizar fuentes como JSTOR y JURN. Para más información sobre cómo utilizar fuentes de la web profunda, consulta el libro Going Beyond Google: The Invisible Web in Learning and Teaching de Jane Devine y Francine Egger-Sider.

Herramientas de búsqueda en la web invisible

Aquí hay una pequeña muestra de herramientas de búsqueda web invisibles (directorios, portales, motores) para ayudar a encontrar contenido invisible. Para ver más como estas, por favor vea nuestro artículo Research Beyond Google.

Una lista de motores de búsqueda en la web

Recursos del búho purdue para buscar en la web invisible

Arte

Musie du Louvre

Libros en línea

La página de libros en línea

Datos económicos y laborales

FreeLunch.com

Finanzas e inversiones

Bankrate.com

Investigación general

Catálogo de publicaciones del gobierno de los Estados Unidos de América

Datos del gobierno

Copyright Records (LOCIS)

Derecho y Política

THOMAS (Biblioteca del Congreso)

Biblioteca del Congreso

Biblioteca del Congreso

Medicina y Salud

PubMed

Transporte

Información sobre el retraso de los vuelos de la FAA