Skip to topic | Skip to bottom
Home

Tesi
Tesi.NuoviFormatiDatir1.7 - 29 Jul 2006 - 23:13 - AngeloDiIoriotopic end

Start of topic | Skip to actions

I file usati per testare D-Converter

Nuovi Formati Dati

IsaWiki gestisce alcuni formati dati di word processor in maniera ragionevole. Ma ultimamente stanno diventando di moda nuovi formati dati che non sono direttamente gestiti dal programma. Ci interesserebbe realizzare il sistema di conversione da e per questi altri formati dati.

In pratica ci interessa gestire:

  • OpenOffice: un file zippato di varie risorse di cui uno Ŕ un documento XML secondo un DTD proprio che contiene il testo vero e proprio. Il sistema deve spacchettare/impacchettare lo zip, identificare il file con il contenuto, trasformare l'XML di OO in IML e viceversa.
  • WordML?: il formato XML di Word ultime versioni e' proprietario e diventera' il formato standard di salvataggio con la prossima versione. Bisogna analizzarne le proprietÓ, e essere in grado di convertirlo in IML e viceversa. Di interesse sull'argomento anche la vconversione dei frammenti di VML in GIF e/o SVG realizzati nella tesi VmlConverter di GianlucaZonta.
  • DocBook?: un modello gerarchico invece che piatto che interessa in alcuni progetti tra cui EurisMulino. Per prendere in considerazione seria questo formato la conversione piatto/profondo Ŕ un requisito indispensabile.
  • XHTML 2: cambiano svariate cose, si riduce il vocabolario, e si introduce un modello profondo della gerarchia.
  • Un modello generale per la generazione di strutture profonde partendo da strutture piatte. Molti formati organizzano la gerarcha delle parti come sequence di heading di vario livello esplicito invece che come contenimento di strutture composte di titolo e contenuto. Ad es. XHTML 1.0 permette solo una sequenza di h1, h2, h3 come:


<h1>Titolo 1</h1>
<p> blah blah</p>
<h2>Titolo 2</h2>
<p>Blah blah</p>

mentre xhtml 2.0 prevede anche la struttura profonda:


<section>
   <h>Titolo 1</h>
   <p> blah blah</p>
   <section>
      <h>Titolo 2</h>
      <p>Blah blah</p>
   </section>
</section>

Primi passi

  • Installare ISA
  • Studiare IML (vedi BetterConverter)
  • Primi esperimenti con WordML? e Office
  • Studiare DocBooc?

Fase II

Obiettivo: prendere confidenza con gli strumenti ed i linguaggi che utilizziamo. Identifichiamo tre filoni di lavoro:

  • OpenOffice e WordML?:
    • Verificare che i documenti .htm siamo trasformabili in IML e producano, se processati con ISA, le stesse pagine HTML finali. In particolare testare ed eventualmente implementare: (i) le sostituzioni di espressioni regolare per portare in buona forma i documenti, (ii) il foglio di stile preconvert.xsl per "ripulire" i documenti delle "schifezze" di questi tool.
    • Verificare che l'export XML produca documenti processabili con ISA, e che portano allo stesso risultato finale. Probabilmente basta "saltare" la fase di trasformazioni in buona forma. GiÓ fornita da Word. Nel caso di OO, capire come bisogna gestire le risorse esterne (gestione del file ZIP).
  • DocBook?
    • Lavoriamo con DBLite, la versione semplificata (vedremo in seguito, che a noi interessa una versione ulteriormente semplificata).
    • Studiare le caratteristiche del linguaggio (contenitori, blocchi, elementi in-line) e progettare le conversioni. Ancora non parliamo di implementazione, ma dobbiamo avere le idee chiare sulle regole di conversione (dobbiamo sapere cosa viene convertito in cosa!)
  • (ultimo ma non ultimo di importanza). Trasformazioni da piatto a gerarchico e viceversa. Cerchiamo di generalizzare il meccanismo implementato dal foglio XSLT allegato.

Documento Programmatico

A breve, quando le idee saranno pi¨ chiare.

Obiettivi Parte 1 (conversioni da OO a IML)

* Il formato standard di salvataggio di OO e .odt ,il quale non Ŕ altro che uno zip contenente vari file .xml. Probabilmente a noi interessa solamente quello denominato "content.xml" che contiene il contenuto vero e proprio da convertire in IML.

* Prossimo Passo: iniziare a implementare le conversioni.

Obiettivi Parte 2 (conversioni da IML a DocBook?)

* La conversione Ŕ a buon punto ,Ŕ gia disponibile una versione funzionante ma ancora incompleta a causa di alcuni punti in sospeso ancora da chiarire.

* Questa versione Ŕ disponibile in allegato

Punto della Situazione

OpenOffice: La conversione dal formato OpenDocumentFormat? a IML Ŕ completata in entrambe le direzioni.

  • ODF-->IML : il sistema scompatta il file zippato,identifica le informazioni rilevanti nei vari file (content.xml,meta.xml,style.xml) e crea il file IML (evenualmente estrapola anche le immagini dallo zip)

  • IML-->ODT : il sistema crea il file zip stavolta identificando dall'IML le parti per i vari file di OpenDocument?.Ovviamente il file risultante risulterÓ uguale nel contenuto ma diverso nella formattazione rispetto all'originale.

WordML : La conversione dal formato xml di Word a IML Ŕ completata in entrambe le direzioni La particolaritÓ di questo formato Ŕ ,oltre a quella di essere molto complesso e poco intuitivo, Ŕ la rappresentazione delle immagini nell'xml. infatti il sistema si deve occupare di decodificare ( e codificare) le immagini da base64 al formato originale.

DocBook :

  • la conversione da IML a db (nel formato ristretto da implementare) non Ŕ ancora perfettamente ultimata in quanto non Ŕ ancora stata raggiunta una versione definitiva del dtd in accordo col mulino.cmq la versione provvisoria Ŕ funzionanta e soprattutto implementa la conversione piatto-gerarchico.
  • preconvert_odt.xsl:

  • la conversione db->iml Ŕ quasi totalmente ultimata ,manca solo qualche tag vista la vastitÓ di markup disponibile in questo formato.

XHTML2 : Il formato Ŕ ancora in fase si studio.Comunque l'implementazione della conversione non dovrebbe differire molto per alcuni aspetti da quella di docbook. Gli aspetti rilevanti sono (rispetto a XHTML 1.0 e in comune con db)

  • struttura gerarchica (elemento section)
  • cambiamento struttura paragrafi (gli elementi p possono contenere elementi contenitore come tabelle,liste etc...,in questo la sua implementazione Ŕ simile all'elemento para di docbook)
  • per il resto non ha grosse differenze dalla versione precedente

PROBLEMI APERTI:

  • Open office e Wordml: in entrambi i formati Ŕ assai problematica l'inclusione di file esterni (non immagini) come oggetti OLE. Open office li salva come .odg ossia oggetto grafico della sua distribuzione ,mentre wordml come .emf o .wmf ,metafile di windows.In entrambi i casi la loro conversione eventualmente in un formato immagine (.png,.gif etc...) non Ŕ reperibile.
  • Open Office form: le form in OO sono gestite in modo diverso da IML.Il problema Ŕ la possibilitÓ di non rispettare l'ordinamento delle form (in pratica in IML due form o sono disgiunte o incluse,in odt possono essere intrecciate).da decidere come risolvere la cosa.

-- FabioVitali - 14 Sep 2005


to top

I Attachment sort Action Size Date Who Comment
db_converter.xsl manage 63.6 K 10 May 2006 - 13:51 DevidMarcantoni XSLT IML->DOCBOOK
preconvert_odt.xsl manage 37.5 K 10 May 2006 - 13:40 DevidMarcantoni XSLT per odt->iml
gen2odt.xsl manage 26.8 K 10 May 2006 - 13:42 DevidMarcantoni XSLT IML->odt contenuto
gen2odt-meta.xsl manage 1.9 K 10 May 2006 - 13:42 DevidMarcantoni XSLT IML->ODT meta.xml
gen2odt-styles.xsl manage 1.9 K 10 May 2006 - 13:43 DevidMarcantoni XSLT IML->ODT style.xml
preconvert_xml.xsl manage 25.5 K 10 May 2006 - 13:44 DevidMarcantoni XSLT wordml->IML
gen2wml.xsl manage 15.7 K 10 May 2006 - 13:46 DevidMarcantoni XSLT IML->wordml
MedHebron_brochure.iml manage 21.1 K 10 May 2006 - 13:52 DevidMarcantoni esempio file IML convertito da ODT
software.odt manage 755.2 K 10 May 2006 - 13:56 DevidMarcantoni esempio odt convertito da IML
Metawml.iml manage 54.0 K 10 May 2006 - 13:57 DevidMarcantoni esempio IML convertito da wordml
finale.xml manage 8.8 K 10 May 2006 - 13:59 DevidMarcantoni esempio file wml convertito da IML
DiIorioFuriniVitali06.xml manage 27.2 K 10 May 2006 - 14:01 DevidMarcantoni esempio docbook generato da IML
docbook.rar manage 174.1 K 29 Jul 2006 - 23:08 AngeloDiIorio File di test docbook
iml.rar manage 2607.5 K 29 Jul 2006 - 23:08 AngeloDiIorio File di test IML
OpenOffice_odt.rar manage 2055.4 K 29 Jul 2006 - 23:10 AngeloDiIorio File di test OpenOffice
wordml.rar manage 230.9 K 29 Jul 2006 - 23:11 AngeloDiIorio File di test WordML?
xhtml2.rar manage 0.4 K 29 Jul 2006 - 23:11 AngeloDiIorio File di test HTML2.0

You are here: Tesi > TesiDaAssegnare > NuoviFormatiDati

to top

Copyright © 1999-2017 by the contributing authors. All material on this collaboration platform is the property of the contributing authors.
Ideas, requests, problems regarding Fabio's Wiki? Send feedback