Extraer datos de un sitio web probablemente la técnica más común utilizado tradicionalmente copias que desee (por ejemplo, los títulos de URL y de enlace); el proceso es llegar a algunas expresiones regulares. De hecho, esta es la razón de nuestra aplicación de software raspador de pantalla escrito para la aplicación comenzó. Exactamente Perl Usted ya está familiarizado con las expresiones regulares, y raspa el proyecto es relativamente pequeño, al mismo tiempo; que pueden ser una buena solución.
Algunos de los programas para analizar el contenido semántico de una página HTML a continuación, arrastre ese pedazo de interés inteligente. Todavía otros enfoques, o materiales, que están destinados a representar los nombres de dominio para ir a la elaboración de un vocabulario jerárquicos.
Pantalla raspando específicamente al hecho de que una serie de aplicaciones comerciales (incluyendo su propio) son. Aplicaciones varían ampliamente, pero en los proyectos medianos y grandes, a menudo son una buena solución.
Cada uno tiene su propia curva de aprendizaje, una nueva aplicación que se va a aprender los entresijos debe tomar el tiempo.
¿Cuál es la mejor manera de recuperar los datos? Depende de lo que son sus necesidades y qué recursos están disponibles. Hay una serie de enfoques, así como sugerencias sobre cómo se puede utilizar cada uno de ellos, hay algunos pros y contras: expresiones regulares RAW y Beneficios de código: - Si ya está familiarizado con las expresiones regulares y al menos un lenguaje de programación, que puede ser una solución rápida.
- El contenido de expresiones regulares de esos pequeños cambios que no rompen la "oscuridad" para proporcionar una cantidad razonable. - Probablemente (una expresión regular que ya está familiarizado con el programa, a partir de nuevo) no necesita aprender nuevos idiomas o herramientas. - Las expresiones regulares son compatibles con casi todos los lenguajes de programación modernos. Heck, incluso si el motor de expresiones regulares VBScript. Sintaxis de expresión regular es diferente en su aplicación, ya que no es demasiado diferente.
Desventajas: - No tienen mucha experiencia de los que pueden ser complejas. Aprender expresiones regulares de Perl en Java no es el camino. Perla para ver el problema en una envoltura de manera muy diferente en XSLT, la mente es como. - A menudo se confunden con el análisis. - El proceso de la porción de descubrimiento de datos (si desea obtener información