La captura de información de la web a gran escala requiere un amplio conocimiento de las tecnologías y las herramientas utilizadas por los programadores para crear las páginas web, y sofisticadas funciones que permitan interactuar con dichas páginas para capturar la información que se precisa. Incorporamos búsquedas numéricas y de secuencias de caracteres, métodos relacionales avanzados de navegación de páginas, manejo de tablas, y reglas definidas por el usuario que ayudan a definir la relación entre el contenido HTML. Es incluso posible abrir archivos adjuntos al sitio web que estén en formato en pdf y buscar en ellos como si fueran páginas web.
Orientación a soluciones