Das `xml`-Modul¶

Das XML-Modul wird mit Python mitgeliefert. Im folgenden Abschnitt werden wir uns auf die zwei Untermodule minidom und ElementTree.

Arbeiten mit `minidom`¶

Im folgenden Beispiel analysieren wir books.xml:

<?xml version="1.0"?>
<catalog>
   <book id="1">
      <title>Python basics</title>
      <language>en</language>
      <author>Veit Schiele</author>
      <license>BSD-3-Clause</license>
      <date>2021-10-28</date>
   </book>
   <book id="2">
      <title>Jupyter Tutorial</title>
      <language>en</language>
      <author>Veit Schiele</author>
      <license>BSD-3-Clause</license>
      <date>2019-06-27</date>
   </book>
   <book id="3">
      <title>Jupyter Tutorial</title>
      <language>de</language>
      <author>Veit Schiele</author>
      <license>BSD-3-Clause</license>
      <date>2020-10-26</date>
   </book>
   <book id="4">
      <title>PyViz Tutorial</title>
      <language>en</language>
      <author>Veit Schiele</author>
      <license>BSD-3-Clause</license>
      <date>2020-04-13</date>
   </book>
</catalog>

Hierzu importieren wir zunächst das minidom-Modul und geben ihm denselben Namen, damit es leichter referenziert werden kann:
```
1import xml.dom.minidom as minidom
```

Anschließend definieren wir die Methode getTitles und erfassen mit der Methode getElementsByTagName die gewünschten XML-Tags:

def getTitles(xml):
    """
    Print all titles found in books.xml
    """
    doc = minidom.parse(xml)
    node = doc.documentElement
    books = doc.getElementsByTagName("book")

Dann erstellen wir eine leere Liste namens titles, die mit den Titelobjekten gefüllt wird:

    titles = []
    for book in books:
        titleObj = book.getElementsByTagName("title")[0]
        titles.append(titleObj)

Nun wird in verschachtelten for-Schleifen der Titel ausgegeben:

    for title in titles:
        nodes = title.childNodes
        for node in nodes:
            if node.nodeType == node.TEXT_NODE:
                print(node.data)

Schließlich setzen wir die __name__-Variable noch wie __main__ gesetzt, sodass das Modul wie das Hauptprogramm ausgeführt werden kann. Anschließend wenden wir unsere getTitles-Methode auf unsere books.xml-Datei an:
```
24if __name__ == "__main__":
25    document = "books.xml"
26    getTitles(document)
```

Parsen mit ElementTree¶

Importieren von cElementTree:
```
1import xml.etree.cElementTree as ET
```
Bemerkung

cElementTree ist in C geschrieben und ist erheblich schneller als ElementTree.

Anschließend definieren wir die Methode parseXML und das Wurzelelement root:

def parseXML(xml_file):
    """
    Parse XML with ElementTree
    """
    tree = ET.ElementTree(file=xml_file)
    print(tree.getroot())
    root = tree.getroot()
    print(f"tag={root.tag}, attrib={root.attrib}")

>>> from elementtree_example import parseXML
>>> parseXML("books.xml")
<Element 'catalog' at 0x101863790>
tag=catalog, attrib={}

Ausgeben der XML-Kindelemente von book:

    for child in root:
        print(child.tag, child.attrib)
        if child.tag == "book":
            for step_child in child:
                print(step_child.tag)

>>> from elementtree_example import parseXML
>>> parseXML("books.xml")
<Element 'catalog' at 0x101863790>
tag=catalog, attrib={}
book {'id': '1'}
title
language
author
license
date
book {'id': '2'}
...

Inhalte der Kindelemente mit iter ausgeben:

    print("-" * 20)
    print("Iterating using iter")
    print("-" * 20)
    books = root.iter()
    for book in books:
        book_children = book.iter()
        for book_child in book_children:
            print(f"{book_child.tag}={book_child.text}")

>>> from elementtree_example import parseXML
>>> parseXML("books.xml")
…
--------------------
Iterating using iter
--------------------
catalog=
book=
title=Python basics
language=en
author=Veit Schiele
license=BSD-3-Clause
date=2021-10-28
book=
title=Jupyter Tutorial
…

Das xml-Modul¶

Arbeiten mit minidom¶

Parsen mit ElementTree¶

Das `xml`-Modul¶

Arbeiten mit `minidom`¶