Unidad 1.1. Lenguaje de etiquetado de documentos digitales: SGML, XML, HTML
En esta unidad, el estudiante hará un recorrido por los distintos lenguajes de etiquetado de documentos digitales que existen en la actualidad, pero prestando una especial atención a SGML, HTML, DHTML y XML.
Características más importantes de estos lenguajes:
SGML (Standardized Generalized Markup Language) se basa en la norma ISO 8879. Se trata de un modelo abierto para el diseño de documentación electrónica, que recoge las bases teóricas de una serie de aplicaciones, como por ejemplo, HTML.
Este lenguaje, que es muy complejo pero a la vez muy abierto, plantea un concepto de modelo distribuido, en el que los elementos que componen un documento se pueden distribuir en diferentes archivos, que pueden estar almacenados en el mismo o en distintos ordenadores. A cada uno de estos archivos se le llama “entidad” y son independientes entre sí. Las entidades poseen a su vez distintos elementos, como imágenes, ficheros de sonido, etc., que se organizan en una estructura lógica jerarquizada.
Además, en SGML se distinguen dos niveles de información: el contenido y el etiquetado. Éste último es descriptivo y utiliza un conjunto de caracteres ASCII, que pueden ser reconocidos en cualquier plataforma y sistema informático.
Al igual que los lenguajes de programación, SGML almacena la información sobre las etiquetas en un fichero de cabecera denominado DTD (definición del tipo de documento), en el que indica el nombre de cada etiqueta y lo que cada una de ellas puede contener.
HTML (Hipertext markup language) es un lenguaje de etiquetas hipertextuales. Es una aplicación de la norma ISO 8879, que cuenta con un DTD preestablecido.
Los documentos HTML son de texto plano, en los que se insertan etiquetas para definir distintas características. Estas etiquetas pueden ser de distinto tipo:
- Etiquetas de formato de documento
- Etiquetas de formato texto
- Etiquetas de inclusión
- Etiquetas de enlace o salto
La estructura de un documento HTML estará compuesta por:
- Una cabecera, que contiene información interna del documento, como el título, autor, etc. y una serie de metadatos, que no se visualizan por los usuarios de la web, sino que se emplea para clasificar la información o ver la autoría de la misma.
- Un cuerpo, que incluye todo el contenido que pueden ver los usuarios, más las etiquetas asociadas.
- Una declaración del tipo de documentos (es un elemento adicional, pero muy recomendable).
Los documentos HTML pueden contar con un tipo especial de etiquetas, los llamados metaelementos. Estos se colocan en la cabecera del documento y permiten definir datos internos como el autor, descriptores, resumen y datos catalográficos, que son claves a la hora de clasificar los documentos. Varios grupos de trabajo, como el Dublin Core Group, llevan años estudiando la ordenación, jerarquización y estandarización de estas etiquetas.
DHTML (Dynamic HTML o HTML dinámico). Nació para mejorar la rigidez de HTML y ofrece más posibilidades que éste. Sin embargo, cuenta con un lenguaje de programación y una estructura compleja, que lo hacen menos accesible, ya que se necesitará tener conocimientos de programación.
Además, las etiquetas empleadas y el comportamiento de los visualizadores son distintos en función del navegador que utilicemos.
Cuando hablamos de HTML dinámico estamos haciendo referencia a varios subsistemas concretos, como son las hojas de estilo en cascada y los guiones de programación; todo ello basado en la teoría de programación por objetos.
DHTML se basa en el modelo orientado al objeto. Tres de sus elementos básicos son: la clase, el objeto y la propiedad.
Todos los objetos tienen una propiedad diferenciadora que es el identificador. Así, aunque en un documento haya dos objetos de la misma clase con las mismas propiedades, cada uno de ellos debe tener un identificador diferente.
Los objetos pueden anidar a su vez objetos de nivel inferior, los cuales, heredarán las propiedades que tengan el objeto padre o principal.
Una hoja de estilo en cascada es un conjunto de definiciones sobre la forma en que se visualizará cada elemento de la página HTML. Pueden almacenarse en ficheros independientes del texto y son llamadas al inicio de los documentos con la orden.
Las propiedades del objeto tienen prioridad sobre las propiedades definidas en las hojas de estilo, las cuales se denomina “en cascada” porque se van heredando progresivamente.
Para imprimir dinamismo al HTML se usa guiones de programación incrustados en los documentos. El lenguaje empleado es Javascript.
Los guiones de programación suelen insertarse en las cabeceras de los documentos en forma de funciones que se activan según se produzcan determinados eventos en los distintos objetos. Algunos de estos eventos son:
- OnClick (al pulsar sobre el objeto)
- OnMouseOver (al pasar el ratón por encima)
-
Onload (al acabar de leer el documento)
XML (Extended Markup Language) es un metalenguaje que ordena, estructura y describe los documentos de las páginas web, permitiendo una descripción más minuciosa.
HTML y XML se complementan mutuamente, ya que ambos han nacido a partir de SGML, heredando de éste el concepto DTD (Document Type Definition), como un archivo que encierra una definición formal de un tipo de documento y especifica su estructura lógica. Define tanto los elementos de una página como sus atributos.
Otra característica de XML es que implementa el lenguaje de estilo de los documentos XSL, que permite modificar el aspecto de un documento. Este estándar está basado en el lenguaje de semántica y especificación de estilo de documento (DSSSL, ISO/IEC 10179) y se considera más potente que las hojas de estilo en cascada (CSS).
Además, el tratamiento de los enlaces está notablemente mejorado con la especificación XLL (Extensible Linking Language).
Todas estas cualidades de XML están dejando en evidencia a los navegadores, los cuales necesitan mejorar su potencia, ya que si bien visualizan XML, no soportan la totalidad de las prestaciones. Los navegadores que son capaces de interpretar este lenguaje se denominan XUA.
En los siguientes enlaces tienes acceso al resumen del debate y al enunciado y solución del ejercicio:
Bibliografía:
- Martínez Valero, Julián "XHTML" Madrid : Anaya, cop. 2001, ISSN: 84415106446
- Castro, Elizabeth. "HTML con XHTML y CSS " Madrid : Anaya Multimedia, cop. 2003. ISBN: 8441515336
- Livingston, Dan. "Edición Guía esencial de CSS y DHTML ". Madrid [etc.] : Prentice Hall, cop. 2001. ISBN: 8420533297.
- Abaitua, Joseba. Todo sobre SGML/XML. [en Línea] https://paginaspersonales.deusto.es/abaitua/konzeptu/sgml.htm [consulta 27/09/2013]
- Santamaría González, F. "XML (extensible markup language): nuevo estándar para la descripción de documentos en la word wide web" en Actas de las VI Jornadas Españolas de Documentación. Valencia 2931, octubre 1998. p. 819.