Al descargarlo con wget, se descarga un HTML que no contiene la información que se ve al visitar la página, y en particular no contiene la URL del boletín del día. Es una página dinámica que se modifica después de cargar el archivo html inicial. No sé con qué herramienta podemos manejar esto.
El boletín oficial de Aragón está en:
https://www.boa.aragon.es
Al descargarlo con `wget`, se descarga un HTML que no contiene la información que se ve al visitar la página, y en particular no contiene la URL del boletín del día. Es una página dinámica que se modifica después de cargar el archivo html inicial. No sé con qué herramienta podemos manejar esto.
Habría otra opción en teoría, que sería generar nosotros las URLs directas sin descargar la página. Pero para eso habría que entender perfectamente la pauta que siguen esas URLs. Yo no la entiendo, me parecen números sin sentido. Por ejemplo, estas son las URLs para descargar el boletín del 13 y 14 febrero 25:
https://www.boa.aragon.es/cgi-bin/EBOA/BRSCGI?CMD=VEROBJ&MLKOB=1377924120303
https://www.boa.aragon.es/cgi-bin/EBOA/BRSCGI?CMD=VEROBJ&MLKOB=1378149320303
Si. La parte de Aragón requiere añadir complejidad ahora mismo al script ya que requiere procesar el javascript.
De momento esta parte la vamos estudiando para no tener que añadir más dependencias al script.
Si no se ve una forma sencilla se tendría que acometer con más dependencias.
Si. La parte de Aragón requiere añadir complejidad ahora mismo al script ya que requiere procesar el javascript.
De momento esta parte la vamos estudiando para no tener que añadir más dependencias al script.
Si no se ve una forma sencilla se tendría que acometer con más dependencias.
El boletín oficial de Aragón está en:
https://www.boa.aragon.es
Al descargarlo con
wget
, se descarga un HTML que no contiene la información que se ve al visitar la página, y en particular no contiene la URL del boletín del día. Es una página dinámica que se modifica después de cargar el archivo html inicial. No sé con qué herramienta podemos manejar esto.Habría otra opción en teoría, que sería generar nosotros las URLs directas sin descargar la página. Pero para eso habría que entender perfectamente la pauta que siguen esas URLs. Yo no la entiendo, me parecen números sin sentido. Por ejemplo, estas son las URLs para descargar el boletín del 13 y 14 febrero 25:
https://www.boa.aragon.es/cgi-bin/EBOA/BRSCGI?CMD=VEROBJ&MLKOB=1377924120303
https://www.boa.aragon.es/cgi-bin/EBOA/BRSCGI?CMD=VEROBJ&MLKOB=1378149320303
Si. La parte de Aragón requiere añadir complejidad ahora mismo al script ya que requiere procesar el javascript.
De momento esta parte la vamos estudiando para no tener que añadir más dependencias al script.
Si no se ve una forma sencilla se tendría que acometer con más dependencias.