Al descargarlo con wget, se descarga un HTML que no contiene la información que se ve al visitar la página, y en particular no contiene la URL del boletín del día. Es una página dinámica que se modifica después de cargar el archivo html inicial. No sé con qué herramienta podemos manejar esto.
El boletín oficial de Aragón está en:
https://www.boa.aragon.es
Al descargarlo con `wget`, se descarga un HTML que no contiene la información que se ve al visitar la página, y en particular no contiene la URL del boletín del día. Es una página dinámica que se modifica después de cargar el archivo html inicial. No sé con qué herramienta podemos manejar esto.
Habría otra opción en teoría, que sería generar nosotros las URLs directas sin descargar la página. Pero para eso habría que entender perfectamente la pauta que siguen esas URLs. Yo no la entiendo, me parecen números sin sentido. Por ejemplo, estas son las URLs para descargar el boletín del 13 y 14 febrero 25:
https://www.boa.aragon.es/cgi-bin/EBOA/BRSCGI?CMD=VEROBJ&MLKOB=1377924120303
https://www.boa.aragon.es/cgi-bin/EBOA/BRSCGI?CMD=VEROBJ&MLKOB=1378149320303
Si. La parte de Aragón requiere añadir complejidad ahora mismo al script ya que requiere procesar el javascript.
De momento esta parte la vamos estudiando para no tener que añadir más dependencias al script.
Si no se ve una forma sencilla se tendría que acometer con más dependencias.
Si. La parte de Aragón requiere añadir complejidad ahora mismo al script ya que requiere procesar el javascript.
De momento esta parte la vamos estudiando para no tener que añadir más dependencias al script.
Si no se ve una forma sencilla se tendría que acometer con más dependencias.
Ahí ya podemos obtener finalmente la URL del boletín de cada día. Limitación: es un sumario, no parece haber un PDF con el texto completo del boletín.
Por favor, puedes añadir en tu servidor el nuevo script con los parámetros para Aragón y Extremadura. ¡Gracias!
Hola @fanta
Trabajando con las herramientas del navegador localicé esta URL que se cargar dinámicamente: https://www.boa.aragon.es/PABOA/automa.htm
Apunta a una segunda URL, que es la que parece empotrarse en el HTML de la página principal del boletín de Aragón: https://www.boa.aragon.es/cgi-bin/EBOA/BRSCGI?CMD=VERLST&SEC=ULTBOL&DOCS=1-1&BASE=BCOM&SEPARADOR&TBOL-C=BOLE&@PUBL-E=20250411
Ahí ya podemos obtener finalmente la URL del boletín de cada día. Limitación: es un sumario, no parece haber un PDF con el texto completo del boletín.
Por favor, puedes añadir en tu servidor el nuevo script con los parámetros para Aragón y Extremadura. ¡Gracias!
El boletín oficial de Aragón está en:
https://www.boa.aragon.es
Al descargarlo con
wget
, se descarga un HTML que no contiene la información que se ve al visitar la página, y en particular no contiene la URL del boletín del día. Es una página dinámica que se modifica después de cargar el archivo html inicial. No sé con qué herramienta podemos manejar esto.Habría otra opción en teoría, que sería generar nosotros las URLs directas sin descargar la página. Pero para eso habría que entender perfectamente la pauta que siguen esas URLs. Yo no la entiendo, me parecen números sin sentido. Por ejemplo, estas son las URLs para descargar el boletín del 13 y 14 febrero 25:
https://www.boa.aragon.es/cgi-bin/EBOA/BRSCGI?CMD=VEROBJ&MLKOB=1377924120303
https://www.boa.aragon.es/cgi-bin/EBOA/BRSCGI?CMD=VEROBJ&MLKOB=1378149320303
Si. La parte de Aragón requiere añadir complejidad ahora mismo al script ya que requiere procesar el javascript.
De momento esta parte la vamos estudiando para no tener que añadir más dependencias al script.
Si no se ve una forma sencilla se tendría que acometer con más dependencias.
Hola @fanta
Trabajando con las herramientas del navegador localicé esta URL que se cargar dinámicamente: https://www.boa.aragon.es/PABOA/automa.htm
Apunta a una segunda URL, que es la que parece empotrarse en el HTML de la página principal del boletín de Aragón: https://www.boa.aragon.es/cgi-bin/EBOA/BRSCGI?CMD=VERLST&SEC=ULTBOL&DOCS=1-1&BASE=BCOM&SEPARADOR&TBOL-C=BOLE&@PUBL-E=20250411
Ahí ya podemos obtener finalmente la URL del boletín de cada día. Limitación: es un sumario, no parece haber un PDF con el texto completo del boletín.
Por favor, puedes añadir en tu servidor el nuevo script con los parámetros para Aragón y Extremadura. ¡Gracias!