- Limpieza de las tablas de la Base de Datos.
- Consolidación de las tablas de la Base de Datos.
- Mapeado de las tablas de Origen y Destino.
- Definición de Formato de Origen y Destino.
- Ruta de Saltos de Formato en la Migración.
- Definición del Set de Caracteres de Origen y Destino.
- Comprobación de los delimitadores de campos.
- Migración de Prueba.
- Evaluación y Comprobación de Errores.
- Depuración Final
Formatos de migración más comunes
Formato .CSV:
CSV son las siglas de Comma-separatedvalues, y se considera uno de los formatos de exportación más sencillos que se hayan diseñado nunca. CSV permite representar todos los datos en forma de tabla, de forma que se adapta por completo a toda la casuística de tipologías de bases de datos y especificaciones de cada campo, con independencia de su naturaleza, ya sea numérico, fecha, texto, etc.
Se caracteriza por utilizar unos caracteres separadores para diferenciar las columnas de la tabla. Dichos separadores son siempre las comas ",". De esta forma el salto de línea representa una fila de datos nueva, diferente a la anterior. Otra de las reglas de construcción de un archivo CSV es la disposición de comillas dobles para separar columnas, siempre que en el valor textual de cada campo se incluyan comas "," como parte del contenido.
El formato CSV no requiere de un set de caracteres concretos, por lo que tiene una gran interoperabilidad en diferentes aplicaciones.
De cara a la importación y exportación de catálogos bibliográficos es muy adecuado, siempre que se definan correctamente las etiquetas catalográficas de cada columna de forma adecuada y se generen todos los campos necesarios. Por lo que requiere de una exhaustividad descriptiva importante para reflejar todos los campos que el estándar ISO2709 establece.
Referencias sobre CSV
Norma RFC 4180 CommaSeparatedValues
Creativyst. Desarrollo de archivos CSV
Formato .TAB:
El fichero TAB, toma su nombre de Tabulación. Al igual que CSV es un formato de texto, pero difiere en la forma de delimitar los campos de datos, ya que utiliza las tabulaciones o espacios para separar cada columna de datos. Por otro lado al igual que CSV, cada salto de línea corresponde a una fila o registro nuevo de la tabla que se trata de exportar. Estas características hacen que .TAB no sea un formato adecuado de exportación al menos en lo que al catálogo se refiere, ya que se generan excesivos caracteres en blanco para poder hacer coincidir en cada columna la información correspondiente a un campo.
De hecho es un formato de exportación utilizado fundamentalmente para pequeñas migraciones de datos y para tablas de menores dimensiones que no revistan de una complejidad o extensión excesivas. En esos casos y en aquellos en los que los valores de cada campo no son excesivamente largos, el formato .TAB sigue utilizándose frecuentemente, aunque en claro detrimento en favor de CSV.
Formato .XML:
XML es uno de los mejores formatos para la exportación de la información de un catálogo bibliográfico. Destaca fundamentalmente por ser completamente adaptable a cualquier esquema de datos por complejo que pueda resultar. Esto se consigue gracias a que es un lenguaje de marcas extensible que depende de un Schema o DocumentTypeDescription para su verificación. De esta forma se puede definir por completo las características de cada uno de los campos de descripción de un catálogo automatizado según las normas o reglas de catalogación establecidas. Un ejemplo de ello es el formato MARC XML que trata de implantar la Library of Congress, que permite adaptar sus registros a una serie de items que reflejan todas las etiquetas, campos numéricos y subcampos correspondientes para la descripción bibliográfica. De esta forma se logra representar todo el etiquetado MARC y toda la casuística que conlleva atendiendo a una sintaxis y normas definidas.
Por tanto XML, al establecer etiquetas de inicio y cierre de los contenidos, permite def¡nir de forma muy sencilla el nombre de los campos, sus atributos y valores. A diferencia de CSV que obligaba a introducir todos los datos de un registro en una sola línea, XML permite el anidamiento de los registros favoreciendo la separación de cuantos asientos bibliográficos o registros sean necesarios, sin límites físicos en los archivos. Por este motivo, resulta más fiable porque reduce errores y pérdidas de información en las migraciones que se efectuen.
Formato ISO 2709 Unimarc:
Se considera un formato de exportación fundamental, necesario en cualquier sistema de gestión de bibliotecas. De hecho su norma internacional lo titula como "FormatforBibliographicInformationInterchange" Formato para el Intercambio de Información Bibliográfica. Fue diseñado a partir de la década de los 60 y desde entonces ha sufrido múltiples revisiones, hasta llegar a la actual ISO 2709:1996.
Cada registro en formato ISO2709 se caracteriza por tener cuatro apartados principales, a saber:
Rótulo de la Etiqueta: Son los primeros 24 caracteres del registro. Siendo la única porción del formato que se traslada formateada en su extensión original. Además incluye la extensión y dirección base de los datos contenidos en el registro.
Directorio: El segmento de directorio, permite establecer las posiciones de entrada en el registro, mediante las etiquetas de campo. A su vez, cada entrada de directorio tiene cuatro subcampos que no pueden exceder de una extensión de 9 caracteres.
Etiqueta de Campo.
Extensión del Campo.
Caracter de Inicio del Campo.
Definición de Parte.
Campos de Datos: Son los elementos contenedores de toda la información bibliográfica.
Separador de Registro: Un caracter sencillo de separación para cada registro.
En relación a los campos del formato ISO2709, existen tres tipos fundamentales:
Identificador de Campo en el Registro: Es el campo que identifican el registro, siendo asignado por el centro o institución catalogadora que ha elaborado la catalogación del documento. Se identifica por la etiqueta 001.
Campos Reservados: Contiene información que puede ser necesitada para el procesamiento de la información bibliográfica recogida en campos especializados. Se identifican por estar representados mediante etiquetas que varían desde 002-009 y 00A-ZZZ.
Campos Bibliográficos: Son campos específicos para la descripción de los documentos y que constan de rangos 010-999 y 0AA-ZZZ. Los campos de descripción bibliográfica tienen separadores especificos, determinados a su vez por la norma ISO 646, es decir por la American Standard CodeforInformationInterchage o ASCII. Además cada campo, puede disponer a su vez de subcampos que corresponden o equivalen a las marcas de los dólares en formatos MARC, que están limitados a un espectro comprendido entre 0 y 9.
Todas estas características de la codificación de un registro bibliográfico en ISO2709, responden de forma directa a las convenciones establecidas en lo que se viene denominando como formato UNIMARC. Dicho de otra forma, con la norma ISO, se obtiene un registro bibliográfico que cumple con todas las especificaciones del estándar de descripción bibliográfica uniforme y convenido internacionalmente, es decir, UNIMARC. Esto se debe a que la estructura de datos utilizada es una implementación de las ISO2709. En definitiva y a efectos prácticos, codificar en UNIMARC es lo mismo que codificar en ISO2709. Véanse los siguientes ejemplos:
Registro ISO2709 Raw o Crudo
El mismo Registro ISO2709 formateado al estándar UNIMARC
El mismo Registro ISO2709 formateado al estándar UNIMARC
No hay comentarios:
Publicar un comentario