sábado, 14 de agosto de 2010

SET DE CARACTERES MÁS COMUNES

  • Anteriormente se ha citado brevemente la disposición del ISO 8859-1 que es el set de caracteres para definir el alfabeto latino que incluye a su vez los símbolos diacríticos más utilizados en castellano y portugués es decir "ñ" y "ç" entre otros, y que corresponden a los primeros 256 caracteres del estándar Unicode. Dicho esto, si bien ISO 8859-1 tendría que ser compatible con el set UTF-8 Unicode, (por forma parte de la norma Unicode), la tendencia actual es la transformación del primero en éste último. Esto se debe a una serie de características que hacen especial al set de caracteres UTF-8 Unicode que son las siguientes:
  • ISO 8859-1
    • Es la norma de codificación especializada en caracteres latinos de primer bloque que comprende los primeros 256 caracteres del set ISO 10646, del que derivó posteriormente en el set de codificación de caracteres UTF-8.
    • Esta norma no es universal, puesto que sólo representa los caracteres de los principales idiomas europeos.
    • La capacidad de codificación de ISO 8859-1 es de 8 bits al igual que UTF-8, pero con la desventaja de que los caracteres codificados en cualquiera de los casos ocupan más de 4bytes. Esto hace que la carga de un documento codificado con ISO 8859, sea más lenta.
    • Es muy corriente encontrar archivos HTML, definidos con este set de caracteres, por lo que HTML como formato de exportación tendrá que ser verificado en este punto para ser convertido si fuera necesario.
    • Véase Norma ISO 8859-1
  • UTF-8 Unicode
    • Es capaz de codificar cualquier caracter, puesto que esta diseñado para codificar con 8 bits de longitud de variable. De aquí que se considere el set de caracteres universal. (No obstante también se están empleando sets de hasta 32 bits que benefician principalmente a la codificación de caracteres de tipo ideográfico o visual, como caracteres chinos, japoneses o árabes)
    • No comprime la codificación de los caracteres, por lo que las notaciones textuales son completas.
    • Pese a las carencias de compresión de caracteres, los caracteres latinos propios de la ISO 8859-1 son codificados con extensiones entre 1 y 4 bytes. Esto supone una reducción de la memoria necesaria para ser cargados.
    • UTF-8 es el set de caracteres predeterminado para XML. Por tanto los archivos exportados en dicho formato, se deben codificar, tanto de salida como de entrada con UTF-8 Unicode.
    • Véase Norma UTF-8.
Referencias de ISO 2709:
LEMARCHAND, François. Uneclasse PHP pour manipuler des enregistrements au format ISO2709. Disponible en: http://balno.free.fr/iso2709_2/iso2709_record.html

No hay comentarios:

Publicar un comentario