Microsoft publica las especificaciones de formatos binarios de Office (DOC, XLS, PPT, XLSB, Office Drawing)

Hace unos tres o cuatro años, no recuerdo por qué motivo, Microsoft decidió ofrecer bajo determinadas condiciones legales la documentación de varios formatos binarios de Office. Los interesados debían enviar una solicitud mediante correo electrónico a una dirección específica. El artículo KB840817 documenta el proceso: How to extract information from Office files by using Office file formats and schemas.

Esto ya no es necesario. Tal como anunciaron hace pocas semanas algunos de sus bloggers, Microsoft acaba de publicar las especificaciones de los formatos binarios de documentos de Word, Excel y Powerpoint. Estas especificaciones se ofrecen bajo la Open Specification Promise (promesa de especificación abierta). No me preguntéis qué significa esto porque no alcanzo a comprender todas las implicaciones legales del asunto. [;)]

Los formatos binarios documentados son los siguientes:

  • Archivos de Word, versiones 97 a 2007.
  • Archivos de Excel, versiones 97 a 2007.
  • Archivos de PowerPoint, versiones 97 a 2007.
  • Archivos XLSB de Excel 2007.
  • Office Drawing: autoformas y otros elementos gráficos.

Nota: La estructura de un archivo .XLSB está basada en el mismo estilo de empaquetado de XPS y Office Open XML. Sin embargo, las hojas no se almacenan en lenguaje XML, sino en el formato binario nativo de Excel conocido como BIFF (Binary Interchange File Format). Esto presenta ventajas considerables al abrir o guardar hojas de cálculo grandes. Para obtener más información sobre los formatos de archivo que admite Excel en particular, sugiero la entrada All About File Formats del blog del equipo de desarrollo de Excel.

También están disponibles otras especificaciones auxiliares:

  • Archivo compuesto (compound file). La estructura a bajo nivel de los documentos de Word, Excel y Powerpoint en formato antiguo es de este tipo.
  • Metarchivo de Windows (WMF).
  • Serialización de tinta digital.

Nota: un archivo compuesto está formado por uno o más flujos de datos que pueden estar organizados en una jerarquía de contenedores. En cierto modo se comporta como un sistema de archivos virtual. Las API de almacenamiento estructurado de Windows nos permiten trabajar con ellos.

Las especificaciones sólo están disponibles en inglés, naturalmente, y se pueden descargar en formato PDF o XPS desde las siguientes páginas:

Aparte de esto, se ha creado un proyecto en SourceForge con licencia de código abierto similar a la licencia BSD, para la transformación de documentos en formatos antiguos a documentos basados en Office Open XML: Office Binary (doc, xls, ppt) Translator to Open XML. Aún no hay código fuente ni ejecutable, tan solo documentación básica. La primera meta importante del proyecto será la conversión de documentos de Word.

8 thoughts on “Microsoft publica las especificaciones de formatos binarios de Office (DOC, XLS, PPT, XLSB, Office Drawing)

  1. Visto que el peor aspecto que consideran los detractores de OOXML es que incluya en un XML archivos binarios, Microsoft publica las especificaciones de sus binarios DOC, XLS, PPT, XLSB y Office Drawing. ¿Buena jugada por parte de Microsoft?

  2. Para mi es una buena noticia, que microsoft publique las especificaciones, pero para nosotros los Spanos le es dificil por que bienen en ingles, que bueno seria que llegaran en español.

  3. Primero lo de Yahoo y ahora esto. Parece que Microsoft ha decidido mirar hacia el futuro y unirse al «enemigo».

    Me alucina la capacidad de una empresa de este tamaño para reinventarse.

  4. Espero que sea de gran ayuda para lograr la interoperabilidad entre aplicaciones, de esta forma el usuario quedará en libertad de decidir que usar

  5. PingBack desde Microsoft publica las especificaciones de los formatos binarios de su Office » Actualidad – Espacio Linux Portal GNU/Linux en espa??ol

Responder a anonymous Cancelar respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *