Header Ads

Cómo automatizar web scraping con un software RPA

Cómo automatizar web scraping con un software RPA
A medida que más empresas y gobiernos permiten que su información esté disponible en Internet, está creciendo de forma exponencial la necesidad de acceder a ella y procesarla. El problema es que la mayoría de esos datos, únicamente, pueden obtenerse a través de aplicaciones web front-end diseñadas para queries ad-hoc. Cuando se necesita obtener grandes volúmenes de datos que están online, la automatización se vuelve esencial. Por lo general, la automatización permite usar diferentes métodos para extraer la información que su empresa necesita procesar. Puede hacerlo incluso en distintos tipos sitios web, por ejemplo, con o sin servicios web.
Automate soporta integración con servicios web y puede navegar en páginas, interactuar con datos, realizar búsquedas, iniciar sesión, ingresar datos, hacer click en enlaces y extraer tablas del código HTML de la página web. Todas estas acciones se pueden ejecutar desde la biblioteca de acciones de Automate, que posee acciones y subacciones para navegadores web, HTTP, XML y servicios web, que pueden invocarse sin necesidad de escribir código. Para el ejemplo que mostraremos a continuación, usaremos métodos de automatización de Excel.
En este artículo le mostraremos cómo automatizar web scraping y extracción de tablas con Automate. Para empezar, usaremos dos grupos de acciones, "Web Browser" y "Excel". 

Paso 1

El primer paso de la tarea es ingresar a la acción“Web Browser” y seleccionar la subacción “Open”, que abrirá la URL especificada en el campo “Page URL”, para emular la navegación en una página web.

Nótese que en la imagen hay una opción desplegable en la sección “Browser” que indica la compatibilidad con distintos navegadores (como Internet Explorer, Firefox, Safari y Chrome).

Paso 2

En el segundo paso de la tarea usaremos la subacción “Extract Table”. Aquí, asegúrese de seleccionar su navegador preferido (por defecto es Microsoft Internet Explorer).

Utilice el icono de la lupa para seleccionar la ventana del navegador y luego, utilice el icono de la mano para seleccionar el elemento HTML en la página web (arrastrando el icono hacia el elemento deseado). Los controles y los componentes HTML seleccionados podrán identificarán si se trata de una tabla.
Recuerde crear un dataset, que se rellenará automáticamente con la información previamente capturada.
Note en la siguiente imagen que los campos “Locate by HTML tag” y “Locate by attributes” identifican la ubicación HTML y atributos. Ambos campos son case sensitive.

Al seleccionar los elementos HTML, Automate hace coincidir los resultados con los criterios previamente seleccionados.


Crear y rellenar el dataset en el área “Interaction” permite colocar un valor en cada una de las columnas de la tabla para integrar la información con otras aplicaciones. En este ejemplo, usamos Excel.

Paso 3

En el tercer paso de la tarea, usaremos la subacción “Open/Create workbook” para crear una hoja de cálculo de Microsoft Excel y establecer una sesión interactiva. El único requisito para esta acción es especificar una ruta y un nombre de archivo como, por ejemplo, C:\test\sampletask.xlsx.

Paso 4

El último paso consiste en seleccionar la subacción “Dataset to Cells” para agregar al rango de celdas seleccionadas en Excel, el contenido del dataset extraído de la página web. Seleccionamos la posición deseada (por defecto, Columna 1 - Fila 1) y acto seguido, ejecutamos el robot. La tabla se escribirá en la planilla Excel. ¡Y eso es todo!

Acerca de HelpSystems
Todos los días, más de 10 mil empresas alrededor del mundo confían en las soluciones y productos de HelpSystems para monitorear y automatizar sus procesos, encriptar y asegurar sus datos, y gestionar el acceso de sus equipos a la información. Con su oferta de software y servicios, HelpSystems hace más fácil el día a día de los departamentos de IT, ayudándolos a alinear sus objetivos con lo del Negocio.
Conozca más en www.helpsystems.com/es.     

No hay comentarios.

Copyright 2008 - 2016: CXO Community - Todos los derechos reservados. Imágenes del tema de enot-poloskun. Con tecnología de Blogger.