Imposible manejar Aragón con wget #1

El boletín oficial de Aragón está en:
https://www.boa.aragon.es

Al descargarlo con wget, se descarga un HTML que no contiene la información que se ve al visitar la página, y en particular no contiene la URL del boletín del día. Es una página dinámica que se modifica después de cargar el archivo html inicial. No sé con qué herramienta podemos manejar esto.

Habría otra opción en teoría, que sería generar nosotros las URLs directas sin descargar la página. Pero para eso habría que entender perfectamente la pauta que siguen esas URLs. Yo no la entiendo, me parecen números sin sentido. Por ejemplo, estas son las URLs para descargar el boletín del 13 y 14 febrero 25:
https://www.boa.aragon.es/cgi-bin/EBOA/BRSCGI?CMD=VEROBJ&MLKOB=1377924120303
https://www.boa.aragon.es/cgi-bin/EBOA/BRSCGI?CMD=VEROBJ&MLKOB=1378149320303

El boletín oficial de Aragón está en: https://www.boa.aragon.es Al descargarlo con `wget`, se descarga un HTML que no contiene la información que se ve al visitar la página, y en particular no contiene la URL del boletín del día. Es una página dinámica que se modifica después de cargar el archivo html inicial. No sé con qué herramienta podemos manejar esto. Habría otra opción en teoría, que sería generar nosotros las URLs directas sin descargar la página. Pero para eso habría que entender perfectamente la pauta que siguen esas URLs. Yo no la entiendo, me parecen números sin sentido. Por ejemplo, estas son las URLs para descargar el boletín del 13 y 14 febrero 25: https://www.boa.aragon.es/cgi-bin/EBOA/BRSCGI?CMD=VEROBJ&MLKOB=1377924120303 https://www.boa.aragon.es/cgi-bin/EBOA/BRSCGI?CMD=VEROBJ&MLKOB=1378149320303

Si. La parte de Aragón requiere añadir complejidad ahora mismo al script ya que requiere procesar el javascript.
De momento esta parte la vamos estudiando para no tener que añadir más dependencias al script.

Si no se ve una forma sencilla se tendría que acometer con más dependencias.

Si. La parte de Aragón requiere añadir complejidad ahora mismo al script ya que requiere procesar el javascript. De momento esta parte la vamos estudiando para no tener que añadir más dependencias al script. Si no se ve una forma sencilla se tendría que acometer con más dependencias.

Hola @fanta

Trabajando con las herramientas del navegador localicé esta URL que se cargar dinámicamente: https://www.boa.aragon.es/PABOA/automa.htm

Apunta a una segunda URL, que es la que parece empotrarse en el HTML de la página principal del boletín de Aragón: https://www.boa.aragon.es/cgi-bin/EBOA/BRSCGI?CMD=VERLST&SEC=ULTBOL&DOCS=1-1&BASE=BCOM&SEPARADOR&TBOL-C=BOLE&@PUBL-E=20250411

Ahí ya podemos obtener finalmente la URL del boletín de cada día. Limitación: es un sumario, no parece haber un PDF con el texto completo del boletín.

Por favor, puedes añadir en tu servidor el nuevo script con los parámetros para Aragón y Extremadura. ¡Gracias!

Hola @fanta Trabajando con las herramientas del navegador localicé esta URL que se cargar dinámicamente: https://www.boa.aragon.es/PABOA/automa.htm Apunta a una segunda URL, que es la que parece empotrarse en el HTML de la página principal del boletín de Aragón: https://www.boa.aragon.es/cgi-bin/EBOA/BRSCGI?CMD=VERLST&SEC=ULTBOL&DOCS=1-1&BASE=BCOM&SEPARADOR&TBOL-C=BOLE&@PUBL-E=20250411 Ahí ya podemos obtener finalmente la URL del boletín de cada día. Limitación: es un sumario, no parece haber un PDF con el texto completo del boletín. Por favor, puedes añadir en tu servidor el nuevo script con los parámetros para Aragón y Extremadura. ¡Gracias!

ahora se ha caido con el apagón el server. tardaré unos días en levantarlo porque no voy a donde lo tengo hasta dentro de unos días.

Y luego aplicaré los cambios que has realizado y tal.

ahora se ha caido con el apagón el server. tardaré unos días en levantarlo porque no voy a donde lo tengo hasta dentro de unos días. Y luego aplicaré los cambios que has realizado y tal.

Labels Milestones

Imposible manejar Aragón con wget #1