Skip to content

Identificación de otos elementos especiales en el texto #63

@eduranm

Description

@eduranm

Descrição da nova funcionalidade

Incorporar al flujo de markup_doc la identificación y estructuración de contenido especial dentro del cuerpo del documento, para procesar imágenes, tablas, listas y fórmulas extraídas desde DOCX y convertirlas en bloques estructurados reutilizables.

Critérios de aceitação

  • Incorporar soporte para construir objetos estructurados de contenido especial

  • Soportar los tipos:

    • image
    • table
    • list
    • compound
  • Para el tipo image, debe:

    • incrementar el contador de figuras;
    • generar un identificador figid;
    • asignar la etiqueta <fig>;
    • conservar la referencia a la imagen;
    • intentar recuperar figlabel y title.
  • Para el tipo table, debe:

    • incrementar el contador de tablas;
    • generar un identificador tabid;
    • asignar la etiqueta <table>;
    • conservar el contenido HTML de la tabla;
    • intentar recuperar tablabel y title.
  • Para el tipo list, debe generar un bloque paragraph con la etiqueta <list>.

  • Para el tipo compound, debe:

    • incrementar el contador de ecuaciones;
    • generar un identificador eid;
    • clasificar el contenido como <inline-formula> o <disp-formula> según la estructura del contenido;
    • normalizar expresiones del tipo (1) cuando correspondan a fórmulas desplegadas.
  • Resolver referencias cruzadas para:

    • figuras;
    • tablas;
    • fórmulas.
  • Detectar referencias textuales a contenido especial, incluyendo variantes de:

    • imagen;
    • figura;
    • tabla;
    • ecuación;
    • fórmula;
      y devolver la etiqueta detectada, el identificador asociado y el tipo de referencia (reftype).

Anexos

  • Incorpora el soporte base para detectar y estructurar contenido especial del cuerpo del documento, como figuras, tablas, listas y fórmulas, a partir de archivos DOCX.

Referências

  • Wagtail images
  • python-docx / OOXML
  • lxml
  • MathML

Metadata

Metadata

Assignees

No one assigned

    Labels

    enhancementNew feature or request

    Type

    No type
    No fields configured for issues without a type.

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions