Uno de nuestros últimos proyectos basado
en Alfresco ha sido implantado en el Ayuntamiento de
Amorebieta-Etxano, y consistió en una solución colaborativa para
la creación y migración de un repositorio documental para el archivo
digital de los documentos y registros del Ayuntamiento.
Los requerimientos de esta implantación
involucraron procesos automatizados de transformaciones de documentos
a formato de archivado PDF/A firmados digitalmente. Los formatos
origen de los documentos de la aplicación de gestión de expedientes y
registros son DOC (documentos de un expediente) y TIF (registros
escaneados). El proceso de carga de datos en Alfresco incorpora una
migración de los expedientes y la creación de una estructura
documental jerárquica en Alfresco basada en el año y el número de expediente.
Para cada tipo de documento base creamos un tipo de contenido con sus
correspondientes metadatos asociados a expediente y registro, que eran
extraídos automáticamente de los nombres de los archivos en el proceso
de carga.
Se diseño por tanto un procedimiento de carga de datos relativamente sencillo:
- Para cargas simples (decenas, pocos cientos de documentos):
Utilizamos el cliente web o las unidades compartidas CIFS (intranet)
y webdav (extranet). Este procedimiento es relativamente lento y
necesitamos un cliente (de ftp, webdav…) que nos permita trazar
cuales son los archivos que han dado problemas en la carga, aunque
la carga se puede hacer remotamente. - Para cargas masivas: Utilizamos el modulo
de bulk para cargas masivas en servidor, que se comporta algo
mejor, aunque con archivos pequeños de 100Kb tampoco obtienes
verdaderas mejoras en la velocidad de transferencia, que si
obtendrías con archivos más grandes. Tiene una ventaja, y es que se
puede reiniciar un proceso tras un error en la carga y se pueden
gestionar a su vez los metadatos.
El procedimiento se llevó a cabo mediante una serie de scripts en
python que consumían los datos de la base de datos de expedientes y
registros (en access), y transformaban los archivos DOC y TIF a PDF/A
a través de las utilidades java, preparando los procesos de carga de
documentos PDF/A y extracción de metadatos en el servidor.
Utilizamos posteriormente un conjunto reglas de contenido y scripts
de Alfresco para las transformaciones a PDF/A, firmas digitales en
servidor, extracción de metadatos y la creación de la estructura de expedientes:
- Las transformaciones a formato PDF/A de ficheros DOC las hicimos
con el motor de
OpenOffice incorporado en Alfresco, y también a través de un
modulo java a medida basado en las librerías de jodconverter,
mientras que las de TIF a PDF/A las llevamos a cabo mediante un
módulo desarrollado a medida basado en las librerías iText. - Las firmas digitales de expedientes y registros se hicieron con el
modulo alfresco-pdf-toolkit con certificados de software en servidor.
Se migraron un conjunto de 100000 documentos DOC (en torno a los
12Gb), y 160000 registros TIF (en torno a los 7Gb) referentes al
periodo 2000-2006, efectuando las correspondientes transformaciones a
PDF/A, las firmas electrónicas con certificado de software y la
extracción del conjunto de metadatos.