Escribiré un script/araña/rastreador de web scraping usando Python, solo necesita hacer clic en el script y el script se encargará del resto.
Bibliotecas que uso para escribir el script:
- Rasposo
- HermosaSopa
- Solicitudes
- Lxml
- Pandas
- Selenio
- Expresión regular
- archivo csv
- json
Características:
- Multiproceso (proceso de ejecución de varios subprocesos simultáneamente)
- Escribe los datos en cualquier base de datos (csv, json, xml, mongoDB, hojas de cálculo de Google)
- Extraer páginas JS pesadas con selenio (sin interfaz gráfica)
- Rotación de proxy
- Extracción de páginas AJAX mediante POST
Recibirá un código/script bien comentado con manejo de errores avanzado.