Come eseguire l'iterazione programmatica tramite pedici, apici ed equazioni presenti in un documento di Word


12

Ho alcuni documenti Word, ognuno contenente alcune centinaia di pagine di dati scientifici che includono:

  • Formule chimiche (H2SO4 con tutti i pedici e apici corretti)
  • Numeri scientifici (esponenti formattati usando apici)
  • Molte equazioni matematiche. Scritto usando l'editor di equazioni matematiche in Word.

Il problema è che archiviare questi dati in Word non è efficiente per noi. Quindi vogliamo archiviare tutte queste informazioni in un database (MySQL). Vogliamo convertire la formattazione in LaTex.

Esiste un modo per scorrere tutti i sottotitoli, i apice e le equazioni all'interno di un documento di Word usando VBA?


Hai pensato di estrarre i dati XML dal documento stesso? Tutti i documenti Microsoft 2007+ (.docx) sono sostanzialmente file xml compressi. Puoi recuperarli usando un parser xml.
James Mertz,

è stato troppo lungo per pubblicare un commento, quindi l'ho aggiunto come risposta.
James Mertz,

Risposte:


12

Si C'è. Vorrei usare su Powershell in quanto gestisce i file di Word abbastanza bene. Penso che sarò il modo più semplice.

Maggiori informazioni su Powershell vs Word automation qui: http://www.simple-talk.com/dotnet/.net-tools/com-automation-of-office-applications-via-powershell/

Ho scavato un po 'più a fondo e ho trovato questo script PowerShell:

param([string]$docpath,[string]$htmlpath = $docpath)

$srcfiles = Get-ChildItem $docPath -filter "*.doc"
$saveFormat = [Enum]::Parse([Microsoft.Office.Interop.Word.WdSaveFormat], "wdFormatFilteredHTML");
$word = new-object -comobject word.application
$word.Visible = $False

function saveas-filteredhtml
    {
        $opendoc = $word.documents.open($doc.FullName);
        $opendoc.saveas([ref]"$htmlpath\$doc.fullname.html", [ref]$saveFormat);
        $opendoc.close();
    }

ForEach ($doc in $srcfiles)
    {
        Write-Host "Processing :" $doc.FullName
        saveas-filteredhtml
        $doc = $null
    }

$word.quit();

Salvalo come .ps1 e inizia con:

convertdoc-tohtml.ps1 -docpath "C:\Documents" -htmlpath "C:\Output"

Salverà tutto il file .doc dalla directory specificata, come i file html. Quindi ho un file doc in cui ho il tuo H2SO4 con sottoscrizioni e dopo la conversione PowerShell l'output è il seguente:

<html>

<head>
<meta http-equiv=Content-Type content="text/html; charset=windows-1252">
<meta name=Generator content="Microsoft Word 14 (filtered)">
<style>
<!--
 /* Font Definitions */
 @font-face
    {font-family:Calibri;
    panose-1:2 15 5 2 2 2 4 3 2 4;}
 /* Style Definitions */
 p.MsoNormal, li.MsoNormal, div.MsoNormal
    {margin-top:0in;
    margin-right:0in;
    margin-bottom:10.0pt;
    margin-left:0in;
    line-height:115%;
    font-size:11.0pt;
    font-family:"Calibri","sans-serif";}
.MsoChpDefault
    {font-family:"Calibri","sans-serif";}
.MsoPapDefault
    {margin-bottom:10.0pt;
    line-height:115%;}
@page WordSection1
    {size:8.5in 11.0in;
    margin:1.0in 1.0in 1.0in 1.0in;}
div.WordSection1
    {page:WordSection1;}
-->
</style>

</head>

<body lang=EN-US>

<div class=WordSection1>

<p class=MsoNormal><span lang=PL>H<sub>2</sub>SO<sub>4</sub></span></p>

</div>

</body>

</html>

Come puoi vedere i pedici hanno i loro tag in HTML, quindi l'unica cosa che rimane è analizzare il file in bash o c ++ per tagliare da corpo a / corpo, cambiare in LATEX e rimuovere il resto dei tag HTML in seguito.

Codice da http://blogs.technet.com/b/bshukla/archive/2011/09/27/3347395.aspx


Quindi ho sviluppato un parser in C ++ per cercare il pedice HTML e sostituirlo con il pedice LATEX.

Il codice:

#include <iostream>
#include <fstream>
#include <string>
#include <sstream>
#include <vector>

using namespace std;

 vector < vector <string> > parse( vector < vector <string> > vec, string filename )
{
        /*
                PARSES SPECIFIED FILE. EACH WORD SEPARATED AND
                PLACED IN VECTOR FIELD.

                REQUIRED INCLUDES:
                                #include <iostream>
                                #include <fstream>
                                #include <string>
                                #include <sstream>
                                #include <vector>

            EXPECTS: TWO DIMENTIONAL VECTOR
                     STRING WITH FILENAME
            RETURNS: TWO DIMENTIONAL VECTOR
                     vec[lines][words]
        */
        string vword;
        ifstream vfile;
        string tmp;

         // FILENAME CONVERSION FROM STING
        //  TO CHAR TABLE

        char cfilename[filename.length()+1];
        if( filename.length() < 126 )
        {
                for(int i = 0; i < filename.length(); i++)
                                cfilename[i] = filename[i];
                cfilename[filename.length()] = '\0';
        }
        else return vec;

         // OPENING FILE
        //
        vfile.open( cfilename );
        if (vfile.is_open())
        {
                while ( vfile.good() )
                {
                        getline( vfile, vword );
                        vector < string > vline;
                        vline.clear();

                        for (int i = 0; i < vword.length(); i++)
                        {
                                tmp = "";
                                 // PARSING CONTENT. OMITTING SPACES AND TABS
                                //
                                while (vword[i] != ' ' && vword[i] != ((char)9) && i < vword.length() )
                                        tmp += vword[i++];
                                if( tmp.length() > 0 ) vline.push_back(tmp);
                        }
                        if (!vline.empty())
                                vec.push_back(vline);
                }
                vfile.close();
        }
        else cout << "Unable to open file " << filename << ".\n";
        return vec;
}

int main()
{
        vector < vector < string > > vec;
        vec = parse( vec, "parse.html" );

        bool body = false;
        for (int i = 0; i < vec.size(); i++)
        {
                for (int j = 0; j < vec[i].size(); j++)
                {
                        if ( vec[i][j] == "<body") body=true;
                        if ( vec[i][j] == "</body>" ) body=false;
                        if ( body == true )
                        {
                                for ( int k=0; k < vec[i][j].size(); k++ )
                                {
                                        if (k+4 < vec[i][j].size() )
                                        {
                                                if (    vec[i][j][k]   == '<' &&
                                                        vec[i][j][k+1] == 's' &&
                                                        vec[i][j][k+2] == 'u' &&
                                                        vec[i][j][k+3] == 'b' &&
                                                        vec[i][j][k+4] == '>' )
                                                {

                                                        string tmp = "";
                                                        while (vec[i][j][k+5] != '<')
                                                        {
                                                                tmp+=vec[i][j][k+5];
                                                                k++;
                                                        }
                                                        tmp = "_{" + tmp + "}";
                                                        k=k+5+5;
                                                        cout << tmp << endl;;
                                                }
                                                else cout << vec[i][j][k];
                                        }
                                        else cout << vec[i][j][k];
                                }
                                cout << endl;
                        }
                }
        }
        return 0;
}

Per il file html:

<html>

<head>
<meta http-equiv=Content-Type content="text/html; charset=windows-1252">
<meta name=Generator content="Microsoft Word 14 (filtered)">
<style>
<!--
 /* Font Definitions */
 @font-face
        {font-family:Calibri;
        panose-1:2 15 5 2 2 2 4 3 2 4;}
 /* Style Definitions */
 p.MsoNormal, li.MsoNormal, div.MsoNormal
        {margin-top:0in;
        margin-right:0in;
        margin-bottom:10.0pt;
        margin-left:0in;
        line-height:115%;
        font-size:11.0pt;
        font-family:"Calibri","sans-serif";}
.MsoChpDefault
        {font-family:"Calibri","sans-serif";}
.MsoPapDefault
        {margin-bottom:10.0pt;
        line-height:115%;}
@page WordSection1
        {size:8.5in 11.0in;
        margin:1.0in 1.0in 1.0in 1.0in;}
div.WordSection1
        {page:WordSection1;}
-->
</style>

</head>

<body lang=EN-US>

<div class=WordSection1>

<p class=MsoNormal><span lang=PL>H<sub>2</sub>SO<sub>4</sub></span></p>

</div>

</body>

</html>

L'output è:

<body
lang=EN-US>
<div
class=WordSection1>
<p
class=MsoNormal><span
lang=PL>H_{2}
SO_{4}
</span></p>
</div>

Naturalmente non è l'ideale, ma trattare è una prova del concetto.


3

È possibile estrarre l'xml direttamente da qualsiasi documento di Office che sia 2007+. Questo viene fatto nel modo seguente:

  1. rinominare il file da .docx a .zip
  2. estrarre il file usando 7zip (o qualche altro programma di estrazione)
  3. Per il contenuto effettivo del documento cerca nella cartella estratta sotto la wordsottocartella e il document.xmlfile. Ciò dovrebbe contenere tutto il contenuto del documento.

inserisci qui la descrizione dell'immagine

Ho creato un documento di esempio e nei tag body l'ho trovato (nota che l'ho messo rapidamente insieme, quindi la formattazione potrebbe essere un po 'fuori):

<?xml version="1.0" encoding="UTF-8" standalone="true"?>
<w:body>
    -<w:p w:rsidRDefault="000E0C3A" w:rsidR="008B5DAA">
        -<w:r>
            <w:t xml:space="preserve">This </w:t>
        </w:r>
-       <w:r w:rsidRPr="000E0C3A">
            -<w:rPr>
                <w:vertAlign w:val="superscript"/>
            </w:rPr>
            <w:t>is</w:t>
        </w:r>
-       <w:r>
            <w:t xml:space="preserve"> a </w:t>
        </w:r>
            -<w:r w:rsidRPr="000E0C3A">
                -<w:rPr>
                    <w:vertAlign w:val="subscript"/>
                </w:rPr>
                <w:t>test</w:t>
            </w:r>
        -<w:r>
            <w:t>.</w:t>
        </w:r>
    </w:p>
</w:body>

Sembra che il <w:t>tag sia per il testo <w:rPr>sia la definizione del carattere e <w:p>sia un nuovo paragrafo.

La parola equivalente si presenta così:

inserisci qui la descrizione dell'immagine


2

Ho osservato un approccio diverso da quello perseguito da mnmnc.

I miei tentativi di salvare un documento Word di prova come HTML non hanno avuto successo. In passato ho scoperto che l'HTML generato da Office è così pieno di paglia che è quasi impossibile individuare i bit desiderati. Ho scoperto che è il caso qui. Ho anche avuto un problema con le equazioni. Word salva le equazioni come immagini. Per ogni equazione ci saranno due immagini una con un'estensione di WMZ e una con un'estensione di GIF. Se visualizzi il file html con Google Chrome, le equazioni sembrano OK ma non meravigliose; l'aspetto corrisponde al file GIF quando viene visualizzato con uno strumento di visualizzazione / modifica delle immagini in grado di gestire immagini trasparenti. Se visualizzi il file HTML con Internet Explorer, le equazioni sembrano perfette.

Informazioni aggiuntive

Avrei dovuto includere queste informazioni nella risposta originale.

Ho creato un piccolo documento di Word che ho salvato come HTML. I tre pannelli nell'immagine seguente mostrano il documento Word originale, il documento HTML come visualizzato da Microsoft Internet Explorer e il documento HTML come visualizzato da Google Chrome.

Parola originale, HTML visualizzato da IE e HTML visualizzato da Chrome

Come spiegato in precedenza, la differenza tra le immagini IE e Chrome è il risultato del salvataggio delle equazioni due volte, una in formato WMZ e una in formato GIF. L'html è troppo grande per essere mostrato qui.

L'Html creato dalla macro è:

<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Frameset//EN" 
                   "http://www.w3.org/TR/xhtml1/DTD/xhtml1-frameset.dtd">
<html xmlns="http://www.w3.org/1999/xhtml" xml:lang="en" lang="en">
<head><meta http-equiv="Content-Type" content="text/html; charset=utf-8" />
</head><body>
<p>Some ordinary text.</p>
<p>H<sub>2</sub>SO<sub>4</sub>.</p>
<p>Abc &amp; def &gt; ghi &lt; jkl</p>
<p>x<sup>3</sup>+ x<sup>2</sup>+3x+4=0.</p><p></p>
<p><i>Equation</i>  </p>
<p>Mno</p>
<p><i>Equation</i></p>
</body></html>

Che viene visualizzato come:

HTML creato dalla macro come visualizzato da IE

Non ho provato a convertire le equazioni poiché il kit di sviluppo software MathType gratuito include apparentemente routine che si convertono in LaTex

Il codice è piuttosto semplice, quindi non molti commenti. Chiedi se qualcosa non è chiaro. Nota: questa è una versione migliorata del codice originale.

Sub ConvertToHtml()

  Dim FileNum As Long
  Dim NumPendingCR As Long
  Dim objChr As Object
  Dim PathCrnt As String
  Dim rng As Word.Range
  Dim WithinPara As Boolean
  Dim WithinSuper As Boolean
  Dim WithinSub As Boolean

  FileNum = FreeFile
  PathCrnt = ActiveDocument.Path
  Open PathCrnt & "\TestWord.html" For Output Access Write Lock Write As #FileNum

  Print #FileNum, "<!DOCTYPE html PUBLIC ""-//W3C//DTD XHTML 1.0 Frameset//EN""" & _
                  " ""http://www.w3.org/TR/xhtml1/DTD/xhtml1-frameset.dtd"">" & _
                  vbCr & vbLf & "<html xmlns=""http://www.w3.org/1999/xhtml"" " & _
                  "xml:lang=""en"" lang=""en"">" & vbCr & vbLf & _
                  "<head><meta http-equiv=""Content-Type"" content=""text/html; " _
                  & "charset=utf-8"" />" & vbCr & vbLf & "</head><body>"

  For Each rng In ActiveDocument.StoryRanges

    NumPendingCR = 0
    WithinPara = False
    WithinSub = False
    WithinSuper = False

    Do While Not (rng Is Nothing)
      For Each objChr In rng.Characters
        If objChr.Font.Superscript Then
          If Not WithinSuper Then
            ' Start of superscript
            Print #FileNum, "<sup>";
            WithinSuper = True
          End If
        ElseIf WithinSuper Then
          ' End of superscript
          Print #FileNum, "</sup>";
          WithinSuper = False
        End If
        If objChr.Font.Subscript Then
          If Not WithinSub Then
            ' Start of subscript
            Print #FileNum, "<sub>";
            WithinSub = True
          End If
        ElseIf WithinSub Then
          ' End of subscript
          Print #FileNum, "</sub>";
          WithinSub = False
          End If
          Select Case objChr
            Case vbCr
              NumPendingCR = NumPendingCR + 1
            Case "&"
              Print #FileNum, CheckPara(NumPendingCR, WithinPara) & "&amp;";
            Case "<"
              Print #FileNum, CheckPara(NumPendingCR, WithinPara) & "&lt;";
            Case ">"
              Print #FileNum, CheckPara(NumPendingCR, WithinPara) & "&gt;";
            Case Chr(1)
              Print #FileNum, CheckPara(NumPendingCR, WithinPara) & "<i>Equation</i>";
            Case Else
              Print #FileNum, CheckPara(NumPendingCR, WithinPara) & objChr;
          End Select
      Next
      Set rng = rng.NextStoryRange
    Loop
  Next

  If WithinPara Then
    Print #FileNum, "</p>";
    withpara = False
  End If

  Print #FileNum, vbCr & vbLf & "</body></html>"

  Close FileNum

End Sub
Function CheckPara(ByRef NumPendingCR As Long, _
                   ByRef WithinPara As Boolean) As String

  ' Have a character to output.  Check paragraph status, return
  ' necessary commands and adjust NumPendingCR and WithinPara.

  Dim RtnValue As String

  RtnValue = ""

  If NumPendingCR = 0 Then
    If Not WithinPara Then
      CheckPara = "<p>"
      WithinPara = True
    Else
      CheckPara = ""
    End If
    Exit Function
  End If

  If WithinPara And (NumPendingCR > 0) Then
    ' Terminate paragraph
    RtnValue = "</p>"
    NumPendingCR = NumPendingCR - 1
    WithinPara = False
  End If
  Do While NumPendingCR > 1
    ' Replace each pair of CRs with an empty paragraph
    RtnValue = RtnValue & "<p></p>"
    NumPendingCR = NumPendingCR - 2
  Loop
  RtnValue = RtnValue & vbCr & vbLf & "<p>"
  WithinPara = True
  NumPendingCR = 0

  CheckPara = RtnValue

End Function

Ottimo lavoro. Funzionerà per più file o devi inserirlo nel file che vuoi convertire?
mnmnc,

@mnmnc. Grazie. Penso che la tua soluzione sia impressione, anche se probabilmente è chiaro che non credo che una soluzione che inizia con Microsoft HTML funzionerà. Come risultato di una domanda Stack Overflow, sto lavorando alla conversione di Excel in HTML perché Microsoft PublishObjects crea HTML inaccettabile per la maggior parte (tutti?) Degli smartphone. Ho poca esperienza con Word VBA; Sono il migliore con Excel e Outlook VBA e ero bravo con Acess VBA. Tutti questi consentono a una macro in un file di accedere ad altri file, quindi sono sicuro che lo stesso vale per Word.
Tony Dallimore,

0

Il modo più semplice per farlo è solo le seguenti righe in VBA:

Sub testing()
With ActiveDocument.Content.Find
 .ClearFormatting
 .Format = True
 .Font.Superscript = True
 .Execute Forward:=True
End With

End Sub

Questo troverà tutto il testo scritto. Se vuoi fare qualcosa con esso, basta inserirlo nel metodo. Ad esempio, per trovare la parola "super" in un apice e trasformarla in "super trovato" usare:

Sub testing()

With ActiveDocument.Content.Find
 .ClearFormatting
 .Format = True
 .Font.Superscript = True
 .Execute Forward:=True, Replace:=wdReplaceAll, _
 FindText:="super", ReplaceWith:="super found"
End With

End Sub
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.