ceyusa/constitucion-mexicana

La página del congreso ya tiene disponible la versión HTML de la Constitución

ceyusa opened this issue · 6 comments

Ahora sólo está en PDF o en Word. Y aunque convierta con LibreOffice a HTML, el formato detectado por pandadoc es muy distinto al original.

Esto me obliga a convertir manualmente las reformas en commits. Lo que es muy engorroso y susceptible a errores. Sobre todo la reforma sobre la CdMx, que es enorme.

Una opción, es olvidarnos de una vez por todas de la conversión automática y aceptar que siempre deberá hacerse manualmente. Por tanto habría que usar un formato más adecuado para las computadoras que un simple archivo. Tal vez un archivo por cada artículo.

El problema sigue siendo cómo hacerlo desde el inicio de la Constitución.

http://www.diputados.gob.mx/LeyesBiblio/ref/cpeum_crono.htm

231 decretos hasta el día de hoy.

Hay versión en Word y PDF de los decretos desde 1992

Hola, soy Heriberto, desde hace tiempo sigo tu trabajo. Un archivo por cada artículo suena bien. Aunque, creo que algunos artículos se han movido de lugar, ¿no?

Hola Heriberto! :-p

@ceyusa, yo también sigo este proyecto desde hace algún tiempo. Está muy padre. Hay algunas herramientas para convertir documentos de word a HTML, e incluso a Markdown, para que sea más limpio y no haya tanto markup para formato, hecha por gente que justo trabaja para gobierno en algunos casos :-p. Todas dependen de libreoffice, pero te permiten usarlas en un script para poder automatizarlo:

Hola, soy Heriberto, desde hace tiempo sigo tu trabajo. Un archivo por cada artículo suena bien. Aunque, creo que algunos artículos se han movido de lugar, ¿no?

¡Hola! Gracias.

Pero supongo que git seguría sirviendo para eso: llevar un registro de los cambios constitucionales. En teoría (si entiendo bien) debería haber un decreto por cada cambio realizado, y un commit representaría un decreto, aunque este lleve renombrado de archivos.

Hola Heriberto! :-p

@ceyusa, yo también sigo este proyecto desde hace algún tiempo. Está muy padre. Hay algunas herramientas para convertir documentos de word a HTML, e incluso a Markdown, para que sea más limpio y no haya tanto markup para formato, hecha por gente que justo trabaja para gobierno en algunos casos :-p. Todas dependen de libreoffice, pero te permiten usarlas en un script para poder automatizarlo:

https://github.com/benbalter/word-to-markdown
https://gist.github.com/vzvenyach/7278543

Ese fue mi primer enfoque: con lowriter convertir el documento a HTML y de ahí, con pandoc, convertirlo a ReST. El problema es que la estructura del archivo de salida es absolutamente distinto al del anterior, por tanto no se podría contener el concepto de decreto<->commit.

Ahora estoy convencido que las transformaciones de texto, y más aún en un texto tan largo, no es una estrategia a largo plazo. Habría que tener una solución ad-hoc para cada cambio que el Congreso haga (sobre todo por no usar herramientas libres). Lo que significa la automatización nunca será posible siempre y que la susceptibilidad a errores será grande.

Ya integré manualmente los decretos que hacían falta.