Imposible manejar Aragón con wget #1

Open
opened 2 months ago by david · 1 comments
david commented 2 months ago
Collaborator

El boletín oficial de Aragón está en:
https://www.boa.aragon.es

Al descargarlo con wget, se descarga un HTML que no contiene la información que se ve al visitar la página, y en particular no contiene la URL del boletín del día. Es una página dinámica que se modifica después de cargar el archivo html inicial. No sé con qué herramienta podemos manejar esto.

Habría otra opción en teoría, que sería generar nosotros las URLs directas sin descargar la página. Pero para eso habría que entender perfectamente la pauta que siguen esas URLs. Yo no la entiendo, me parecen números sin sentido. Por ejemplo, estas son las URLs para descargar el boletín del 13 y 14 febrero 25:
https://www.boa.aragon.es/cgi-bin/EBOA/BRSCGI?CMD=VEROBJ&MLKOB=1377924120303
https://www.boa.aragon.es/cgi-bin/EBOA/BRSCGI?CMD=VEROBJ&MLKOB=1378149320303

El boletín oficial de Aragón está en: https://www.boa.aragon.es Al descargarlo con `wget`, se descarga un HTML que no contiene la información que se ve al visitar la página, y en particular no contiene la URL del boletín del día. Es una página dinámica que se modifica después de cargar el archivo html inicial. No sé con qué herramienta podemos manejar esto. Habría otra opción en teoría, que sería generar nosotros las URLs directas sin descargar la página. Pero para eso habría que entender perfectamente la pauta que siguen esas URLs. Yo no la entiendo, me parecen números sin sentido. Por ejemplo, estas son las URLs para descargar el boletín del 13 y 14 febrero 25: https://www.boa.aragon.es/cgi-bin/EBOA/BRSCGI?CMD=VEROBJ&MLKOB=1377924120303 https://www.boa.aragon.es/cgi-bin/EBOA/BRSCGI?CMD=VEROBJ&MLKOB=1378149320303
fanta commented 2 months ago
Owner

Si. La parte de Aragón requiere añadir complejidad ahora mismo al script ya que requiere procesar el javascript.
De momento esta parte la vamos estudiando para no tener que añadir más dependencias al script.

Si no se ve una forma sencilla se tendría que acometer con más dependencias.

Si. La parte de Aragón requiere añadir complejidad ahora mismo al script ya que requiere procesar el javascript. De momento esta parte la vamos estudiando para no tener que añadir más dependencias al script. Si no se ve una forma sencilla se tendría que acometer con más dependencias.
Sign in to join this conversation.
No Label
No Milestone
No project
No Assignees
2 Participants
Notifications
Due Date
The due date is invalid or out of range. Please use the format 'yyyy-mm-dd'.

No due date set.

Dependencies

No dependencies set.

Reference: fanta/cpdAlerts#1
Loading…
There is no content yet.