Zeichenketten

Die Verarbeitung von Zeichenketten ist eine der Stärken von Python. Es gibt viele Optionen zur Begrenzung von Zeichenketten:

"Eine Zeichenfolge in doppelten Anführungszeichen kann 'einfache Anführungszeichen' enthalten."
'Eine Zeichenfolge in einfachen Anführungszeichen kann "doppelte Anführungszeichen" enthalten.'
"""\tEine Zeichenkette, die mit einem Tabulator beginnt und mit einem Zeilenumbruchzeichen endet.\n"""
"""Dies ist eine Zeichenkette in dreifach doppelten Anführungszeichen, die
einzige Zeichenkette, die echte Zeilenumbrüche enthält."""

Zeichenketten können durch einfache (' '), doppelte (" "), dreifache einfache (''' ''') oder dreifache doppelte (""" """) Anführungszeichen getrennt werden.

Eine normale Zeichenkette kann nicht auf mehrere Zeilen aufgeteilt werden. Der folgende Code wird also nicht funktionieren:

"Dies ist ein fehlerhafter Versuch, einen einen Zeilenumbruch in
eine Zeichenkette einzufügen, ohne \n zu verwenden."

Sie können auch Tabulator- (\t) und Newline-Zeichen (\n) enthalten. Allgemein können Backslashes \ als Escape-Zeichen verwendet werden. So kann z.B. \\ für einen einzelnen Backslash und \' für ein einfaches Anführungszeichen verwendet werden, wodurch es die Zeichenfolge nicht beendet:

"You don't need a backslash here."
'However, this wouldn\'t work without a backslash.'

Python bietet jedoch auch Zeichenketten in dreifachen Anführungszeichen ("""), die dies ermöglichen und einfache und doppelte Anführungszeichen ohne Backslashes \ als Escape-Zeichen enthalten können.

Sonderzeichen und Escape-Sequenzen

\n steht für das Newline-Zeichen und \t für das Tabulatorzeichen. Zeichenfolgen, die mit einem Backslash beginnen und zur Darstellung anderer Zeichen verwendet werden, werden Escape-Sequenzen genannt. Escape-Sequenzen werden in der Regel verwendet, um Sonderzeichen darzustellen, d.h. Zeichen, für die es keine einstellige druckbare Darstellung gibt.

Hier sind weitere Zeichen, die ihr mit dem Escape-Zeichen erhalten könnt:

Escape-Sequenz

Ausgabe

Erläuterung

\\

\

Backslash

\'

'

einfaches Anführungszeichen

\"

"

doppeltes Anführungszeichen

\b

Backspace (BS)

\n

ASCII Linefeed (LF)

\r

ASCII Carriage Return (CR)

\t

Tabulator (TAB)

u00B5

µ

Unicode 16 bit

U000000B5

µ

Unicode 32 bit

N{SNAKE}

🐍

Unicode Emoji name

Zeilen 1–7

Der ASCII-Zeichensatz, der von Python verwendet wird und der Standardzeichensatz auf fast allen Computern ist, definiert eine ganze Reihe weiterer Sonderzeichen.

Zeilen 8–9

Unicode-Escape-Sequenzen.

Zeile 10

Unicode-Namen zur Angabe eines Unicode-Zeichens.

Operatoren und Funktionen

Die Operatoren und Funktionen, die mit Zeichenketten arbeiten, geben neue, vom Original abgeleitete Zeichenketten zurück. Die Operatoren (in, + und *) und eingebauten Funktionen (len, max und min) arbeiten mit Zeichenketten genauso wie mit Listen und Tupeln.

>>> welcome = "Hello pythonistas!\n"
>>> 2 * welcome
'Hello pythonistas!\nHello pythonistas!\n'
>>> welcome + welcome
'Hello pythonistas!\nHello pythonistas!\n'
>>> "python" in welcome
True
>>> max(welcome)
'y'
>>> min(welcome)
'\n'

Indizierung und Slicing

Die Index- und Slice-Notation funktioniert auf die gleiche Weise, um einzelne Elemente oder Slices zu erhalten:

>>> welcome[0:5]
'Hello'
>>> welcome[6:-1]
'pythonistas!'

Die Index- und Slice-Notation kann jedoch nicht verwendet werden, um Elemente hinzuzufügen, zu entfernen oder zu ersetzen, da Zeichenketten unveränderlich sind:

>>> welcome[6:-1] = "everybody!"
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
TypeError: 'str' object does not support item assignment

String-Methoden

Die meisten der Python-String-Methoden sind im str-Typ integriert, so dass alle str-Objekte automatisch über sie verfügen:

>>> welcome = "hello pythonistas!\n"
>>> welcome.isupper()
False
>>> welcome.isalpha()
False
>>> welcome[0:5].isalpha()
True
>>> welcome.capitalize()
'Hello pythonistas!\n'
>>> welcome.title()
'Hello Pythonistas!\n'
>>> welcome.strip()
'Hello pythonistas!'
>>> welcome.split(" ")
['hello', 'pythonistas!\n']
>>> chunks = [snippet.strip() for snippet in welcome.split(" ")]
>>> chunks
['hello', 'pythonistas!']
>>> " ".join(chunks)
'hello pythonistas!'
>>> welcome.replace("\n", "")
'hello pythonistas!'

Im Folgenden findet ihr einen Überblick über die häufigsten String-Methoden:

Methode

Beschreibung

str.count()

gibt die Anzahl der sich nicht überschneidenden Vorkommen der Zeichenkette zurück.

str.endswith()

gibt True zurück, wenn die Zeichenkette mit dem Suffix endet.

str.startswith()

gibt True zurück, wenn die Zeichenkette mit dem Präfix beginnt.

str.join()

verwendet die Zeichenkette als Begrenzer für die Verkettung einer Folge anderer Zeichenketten.

str.index()

gibt die Position des ersten Zeichens in der Zeichenkette zurück, wenn es in der Zeichenkette gefunden wurde; löst einen ValueError aus, wenn es nicht gefunden wurde.

str.find()

gibt die Position des ersten Zeichens des ersten Vorkommens der Teilzeichenkette in der Zeichenkette zurück; wie index, gibt aber -1 zurück, wenn nichts gefunden wurde.

str.rfind()

Rückgabe der Position des ersten Zeichens des letzten Vorkommens der Teilzeichenkette in der Zeichenkette; gibt -1 zurück, wenn nichts gefunden wurde.

str.replace()

ersetzt Vorkommen einer Zeichenkette durch eine andere Zeichenkette.

str.strip(), str.rstrip(), str.lstrip()

schneiden Leerzeichen ab, einschließlich Zeilenumbrüchen.

str.split()

zerlegt eine Zeichenkette in eine Liste von Teilzeichenketten unter Verwendung des übergebenen Trennzeichens.

str.lower()

konvertiert alphabetische Zeichen in Kleinbuchstaben.

str.upper()

konvertiert alphabetische Zeichen in Großbuchstaben.

str.casefold()

konvertiert Zeichen in Kleinbuchstaben und konvertiert alle regionsspezifischen variablen Zeichenkombinationen in eine gemeinsame vergleichbare Form.

str.ljust(), str.rjust()

linksbündig bzw. rechtsbündig; füllt die gegenüberliegende Seite der Zeichenkette mit Leerzeichen (oder einem anderen Füllzeichen) auf, um eine Zeichenkette mit einer Mindestbreite zu erhalten.

str.split und str.join

Während str.split() eine Liste von Zeichenfolgen zurückgibt, nimmt str.join() eine Liste von Zeichenketten und fügt sie zu einer einzigen Zeichenkette zusammen. Normalerweise verwendet str.split() Leerraum als Begrenzungszeichen für die aufzuteilenden Zeichenketten, aber ihr könnt dieses Verhalten mit einem optionalen Parameter ändern.

Warnung

Die Verkettung von Zeichenketten mit + ist zwar nützlich, aber nicht effizient, wenn es darum geht, eine große Anzahl von Zeichenketten zu einer einzigen Zeichenkette zusammenzufügen, da jedes Mal, wenn + angewendet wird, ein neues Zeichenketten-Objekt erstellt wird. "Hello" + "Pythonistas!" erzeugt zwei Objekte, von denen eines sofort wieder verworfen wird.

Wenn ihr mit str.join() Zeichenfolgen zusammenführt, könnt ihr zwischen die Zeichenfolgen beliebige Zeichen einfügen:

>>> " :: ".join(["License", "OSI Approved"])
'License :: OSI Approved'

Ihr könnt auch eine leere Zeichenkette, "", verwenden, z.B. für die CamelCase-Schreibweise von Python-Klassen:

>>> "".join(["My", "Class"])
'MyClass'

str.split() wird meist verwendet um Zeichenketten an Leerräumen zu trennen. Ihr könnt eine Zeichenkette jedoch auch an einer bestimmten anderen Zeichenfolge trennen, indem ihr einen optionalen Parameter übergebt:

>>> example = "1. You can have\n\twhitespaces, newlines\n   and tabs mixed in\n\tthe string."
>>> example.split()
['1.', 'You', 'can', 'have', 'whitespaces,', 'newlines', 'and', 'tabs', 'mixed', 'in', 'the', 'string.']
>>> license = "License :: OSI Approved"
>>> license.split(" :: ")
['License', 'OSI Approved']

Manchmal ist es nützlich, dem letzten Feld in einer Zeichenkette zu erlauben, beliebigen Text zu enthalten. Ihr könnt dies tun, indem ihr einen optionalen zweiten Parameter angebt, wie viele Teilungen durchgeführt werden sollen:

>>> example.split(" ", 1)
['1.', 'You can have\n\twhitespaces, newlines\n   and tabs mixed in\n\tthe string.']

Wenn ihr str.split() mit dem optionalen zweiten Argument verwendenwollt, müsst ihr zunächst ein erstes Argument angeben. Um zu erreichen, dass bei allen Leerzeichen geteilt wird, verwendet None als erstes Argument:

>>> example.split(None, 8)
['1.', 'You', 'can', 'have', 'whitespaces,', 'newlines', 'and', 'tabs', 'mixed in\n\tthe string.']

Tipp

Ich verwende str.split() und str.join() ausgiebig, meist für Textdateien, die von anderen Programmen erzeugt wurden. Zum Schreiben von CSV- oder JSON-Dateien verwende ich jedoch meist die zugehörigen Python-Bibliotheken.

Leerraum entfernen

str.strip() gibt eine neue Zeichenkette zurück, die sich von der ursprünglichen Zeichenkette nur dadurch unterscheidet, dass alle Leerzeichen am Anfang oder Ende der Zeichenkette entfernt wurden. str.lstrip() und str.rstrip() arbeiten ähnlich, entfernen jedoch nur die Leerzeichen am linken bzw. rechten Ende der ursprünglichen Zeichenkette:

>>> example = "    whitespaces, newlines \n\tand tabs. \n"
>>> example.strip()
'whitespaces, newlines \n\tand tabs.'
>>> example.lstrip()
'whitespaces, newlines \n\tand tabs. \n'
>>> example.rstrip()
'    whitespaces, newlines \n\tand tabs.'

In diesem Beispiel werden die Newlines \n als Leerzeichen betrachtet. Die genaue Zuordnung kann sich von Betriebssystem zu Betriebssystem unterscheiden. Ihr könnt herausfinden, was Python als Leerzeichen betrachtet, indem ihr auf die Konstante string.whitespace zugreift. Bei mir wird das folgende zurückgegeben:

>>> import string
>>> string.whitespace
' \t\n\r\x0b\x0c'

Die im Hexadezimalformat (\x0b, \x0c) angegebenen Zeichen stellen die vertikalen Tabulator- und Vorschubzeichen dar.

Tipp

Ändert nicht den Wert dieser Variablen um die Funktionsweise von str.strip() usw. zu beeinflussen. Welche Zeichen diese Methoden entfernen, könnt ihr Zeichen als zusätzlichen Parameter übergeben:

>>> url = "https://www.cusy.io/"
>>> url.strip("htps:/w.")
'cusy.io'

Suche in Zeichenketten

str-Objekte bieten mehrere Methoden für die einfache Suche nach Zeichenketten: Die vier grundlegenden Methoden für die Suche nach Zeichenketten sind str.find(), str.rfind(), str.index() und str.rindex(). Eine verwandte Methode, str.count(), zählt, wie oft eine Zeichenfolge in einer anderen Zeichenfolge gefunden werden kann.

str.find() benötigt einen einzigen Parameter: die gesuchte Teilzeichenkette; zurückgegeben wird dann die Position des ersten Vorkommens oder -1, wenn es kein Vorkommen gibt:

>>> hipy = "Hello Pythonistas!\n"
>>> hipy.find("\n")
18

str.find() kann auch ein oder zwei zusätzliche Parameter annehmen:

start

Zahl, der Zeichen am Anfang der zu durchsuchenden Zeichenkette, die ignoriert werden soll.

end

Zahl, der Zeichen am Ende der zu durchsuchenden Zeichenkette, die ignoriert werden soll.

Im Gegensatz zu find() beginnt rfind() die Suche am Ende der Zeichenkette und gibt daher die Position des letzten Vorkommens zurück.

index() und rindex() unterscheiden sich von find() und rfind() dadurch, dass statt dem Rückgabewert -1 eine ValueError-Ausnahme ausgelöst wird.

Ihr könnt zwei weitere String-Methoden verwenden, um Strings zu suchen: str.startswith() und str.endswith(). Diese Methoden geben True- oder False als Ergebnis zurück, je nachdem, ob die Zeichenkette, auf die sie angewendet werden, mit einer der als Parameter angegebenen Zeichenketten beginnt oder endet:

>>> hipy.endswith("\n")
True
>>> hipy.endswith(("\n", "\r"))
True

Darüber hinaus gibt es einige Methoden, mit denen die Eigenschaft einer Zeichenkette überprüft werden kann:

Methode

[!#$%…]

[a-zA-Z]

[¼½¾]

[¹²³]

[0-9]

str.isprintable()

str.isalnum()

str.isnumeric()

str.isdigit()

str.isdecimal()

str.isspace() prüft auf Leerzeichen.

Zeichenketten ändern

str-Objekte sind unveränderlich, aber sie verfügen über mehrere Methoden, die eine modifizierte Version der ursprünglichen Zeichenkette zurückgeben können.

str.replace() könnt ihr verwenden, um Vorkommen des ersten Parameter durch den zweiten zu ersetzen, z.B.:

>>> hipy.replace("\n", "\n\r")
'Hello Pythonistas!\n\r'

str.maketrans() und str.translate() können zusammen verwendet werden, um Zeichen in Zeichenketten in andere Zeichen zu übersetzen, z.B.:

1>>> hipy = "Hello Pythonistas!\n"
2>>> trans_map = hipy.maketrans(" ", "-", "!\n")
3>>> hipy.translate(trans_map)
4'Hello-Pythonistas'
Zeile 2

str.maketrans() wird verwendet, um eine Übersetzungstabelle aus den beiden Zeichenketten-Argumenten zu erstellen. Die beiden Argumente müssen jeweils die gleiche Anzahl von Zeichen enthalten. Als drittes Argument werden Zeichen übergeben, die nicht zurückgegeben werden sollen.

Zeile 3

Die von str.maketrans() erzeugte Tabelle wird an str.translate() übergeben.

re

Die Python-Standard-Bibliothek re enthält ebenfalls Funktionen für die Arbeit mit Zeichenketten. Dabei bietet re ausgefeiltere Möglichkeiten zur Musterextraktion und -ersetzung als der str-Typ.

>>> import re
>>> re.sub("\n", "", welcome)
'Hello pythonistas!'

Hier wird der reguläre Ausdruck zunächst kompiliert und dann seine re.Pattern.sub()-Methode für den übergebenen Text aufgerufen. Ihr könnt den Ausdruck selbst mit re.compile() kompilieren und so ein wiederverwendbares regex-Objekt bilden, das auf unterschiedliche Zeichenketten angewendet die CPU-Zyklen verringert:

>>> regex = re.compile("\n")
>>> regex.sub("", welcome)
'Hello pythonistas!'

Wenn ihr stattdessen eine Liste aller Muster erhalten möchtet, die dem regex-Objekt entsprechen, könnt ihr die re.Pattern.findall()-Methode verwenden:

>>> regex.findall(welcome)
['\n']

Bemerkung

Um das umständliche Escaping mit \ in einem regulären Ausdruck zu vermeiden, könnt ihr rohe String-Literale wie r'C:\PATH\TO\FILE' anstelle des entsprechenden 'C:\\PATH\\TO\\FILE' verwenden.

re.Pattern.match() und re.Pattern.search() sind eng mit re.Pattern.findall() verwandt. Während findall alle Übereinstimmungen in einer Zeichenkette zurückgibt, gibt search nur die erste Übereinstimmung und match nur Übereinstimmungen am Anfang der Zeichenkette zurück. Als weniger triviales Beispiel betrachten wir einen Textblock und einen regulären Ausdruck, der die meisten E-Mail-Adressen identifizieren kann:

>>> addresses = """Veit <veit@cusy.io>
... Veit Schiele <veit.schiele@cusy.io>
... cusy GmbH <info@cusy.io>
... """
>>> pattern = r"[A-Z0-9._%+-]+@[A-Z0-9.-]+\.[A-Z]{2,4}"
>>> regex = re.compile(pattern, flags=re.IGNORECASE)
>>> regex.findall(addresses)
['veit@cusy.io', 'veit.schiele@cusy.io', 'info@cusy.io']
>>> regex.search(addresses)
<re.Match object; span=(6, 18), match='veit@cusy.io'>
>>> print(regex.match(addresses))
None

regex.match gibt None zurück, da das Muster nur dann passt, wenn es am Anfang der Zeichenkette steht.

Angenommen, ihr möchtet E-Mail-Adressen finden und gleichzeitig jede Adresse in ihre drei Komponenten aufteilen:

  1. Personenname

  2. Domänenname

  3. Domänensuffix

Dazu setzt ihr zunächst runde Klammern () um die zu segmentierenden Teile des Musters:

>>> pattern = r"([A-Z0-9._%+-]+)@([A-Z0-9.-]+)\.([A-Z]{2,4})"
>>> regex = re.compile(pattern, flags=re.IGNORECASE)
>>> match = regex.match("veit@cusy.io")
>>> match.groups()
('veit', 'cusy', 'io')

re.Match.groups() gibt ein Tupel zurück, das alle Untergruppen der Übereinstimmung enthält.

re.Pattern.findall() gibt eine Liste von Tupeln zurück, wenn das Muster Gruppen enthält:

>>> regex.findall(addresses)
[('veit', 'cusy', 'io'), ('veit.schiele', 'cusy', 'io'), ('info', 'cusy', 'io')]

Auch in re.Pattern.sub() können Gruppen verwendet werden wobei \1 für die erste übereinstimmende Gruppe steht, \2 für die zweite usw.:

>>> regex.findall(addresses)
[('veit', 'cusy', 'io'), ('veit.schiele', 'cusy', 'io'), ('info', 'cusy', 'io')]
>>> print(regex.sub(r"Username: \1, Domain: \2, Suffix: \3", addresses))
Veit <Username: veit, Domain: cusy, Suffix: io>
Veit Schiele <Username: veit.schiele, Domain: cusy, Suffix: io>
cusy GmbH <Username: info, Domain: cusy, Suffix: io>

Die folgende Tabelle enthält einen kurzen Überblick über Methoden für reguläre Ausdrücke:

Methode

Beschreibung

re.findall()

gibt alle sich nicht überschneidenden übereinstimmenden Muster in einer Zeichenkette als Liste zurück.

re.finditer()

wie findall, gibt aber einen Iterator zurück.

re.match()

entspricht dem Muster am Anfang der Zeichenkette und segmentiert optional die Musterkomponenten in Gruppen; wenn das Muster übereinstimmt, wird ein match-Objekt zurückgegeben, andernfalls keines.

re.search()

durchsucht die Zeichenkette nach Übereinstimmungen mit dem Muster; gibt in diesem Fall ein match-Objekt zurück; im Gegensatz zu match kann die Übereinstimmung an einer beliebigen Stelle der Zeichenkette und nicht nur am Anfang stehen.

re.split()

zerlegt die Zeichenkette bei jedem Auftreten des Musters in Teile.

re.sub(), re.subn()

ersetzt alle (sub) oder die ersten n Vorkommen (subn) des Musters in der Zeichenkette durch einen Ersetzungsausdruck; verwendet die Symbole \1, \2, …, um auf die Elemente der Übereinstimmungsgruppe zu verweisen.

str.removeprefix() str.removesuffix()

In Python 3.9 kann dies verwendet werden, um das Suffix oder den Dateinamen zu extrahieren.

Konvertieren von Zeichenketten in Zahlen

Ihr könnt die Funktionen int und float verwenden, um Zeichenketten in Ganzzahl- bzw. Fließkommazahlen zu konvertieren. Wenn eine Zeichenkette übergeben wird, die nicht als Zahl des angegebenen Typs interpretiert werden kann, lösen diese Funktionen eine ValueError-Ausnahme aus. Ausnahmen werden in Exceptions ausführlicher erklärt. Darüber hinaus könnt ihr int einen optionalen zweiten Parameter übergeben, der die numerische Basis angibt, die bei der Interpretation der Zeichenfolge verwendet werden soll:

 1>>> float("12.34")
 212.34
 3>>> float("12e3")
 412000.0
 5>>> int("1000")
 61000
 7>>> int("1000", base=10)
 81000
 9>>> int("1000", 8)
10512
11>>> int("1000", 2)
128
13>>> int("1234", 2)
14Traceback (most recent call last):
15  File "<stdin>", line 1, in <module>
16ValueError: invalid literal for int() with base 2: '1234'
Zeilen 5–8

Wird kein zweiter Parameter angegeben, rechnet int mit einer Basis von 10.

Zeilen 9, 10

1000 wird als Oktalzahl interpretiert.

Zeilen 11, 12

1000 wird als Dualzahl interpretiert.

Zeilen 13–16

1234 kann nicht als Ganzzahl auf der Basis 2 angegeben werden. Daher wird eine ValueError-Ausnahme ausgelöst.

Ändern von Zeichenketten mit Listenmanipulationen

Da str-Objekte unveränderlich sind, gibt es keine Möglichkeit, sie direkt zu verändern wie Listen. Ihr könnt sie jedoch in Listen umwandeln:

>>> palindromes = "lol level gag"
>>> palindromes_list = list(palindromes)
>>> palindromes_list.reverse()
>>> "".join(palindromes_list)
'gag level lol'

Objekte in Zeichenketten konvertieren

In Python kann fast alles in eine Zeichenkette mit der eingebauten Funktion str umgewandelt werden:

>>> data_types = [(7, "Data types", 19), (7.1, "Numbers", 19), (7.2, "Lists", 23)]
>>> (
...     "The title of chapter "
...     + str(data_types[0][0])
...     + " is «"
...     + data_types[0][1]
...     + "»."
... )
'The title of chapter 7 is «Data types».'

Das Beispiel verwendet str, um eine Ganzzahl aus der Liste data_types in eine Zeichenkette umzuwandeln, die dann wieder konkateniert werden, um die endgültige Zeichenkette zu bilden.

Bemerkung

Während str meist verwendet wird, um für Menschen lesbare Texte zu erzeugen, wird repr() eher für Debugging-Ausgaben oder Statusberichte verwendet, z.B., um Informationen über die eingebaute Python-Funktion len() zu erhalten:

>>> repr(len)
'<built-in function len>'

print()

Die Funktion print() gibt Zeichenketten aus wobei andere Python-Datentypen leicht in Strings umgewandelt und formatiert werden können, z.B.:

>>> import math
>>> pi = math.pi
>>> d = 28
>>> u = pi * d
>>> print(
...     "Pi ist",
...     pi,
...     "und der Umfang bei einem Durchmesser von",
...     d,
...     "Zoll ist",
...     u,
...     "Zoll.",
... )
Pi ist 3.141592653589793 und der Umfang bei einem Durchmesser von 28 Zoll ist 87.96459430051421 Zoll.

F-Strings

Mit F-Strings lassen sich die für einen Text zu detaillierten Zahlen kürzen:

>>> print(f"Der Wert von Pi ist {pi:.3f}.")
Der Wert von Pi ist 3.142.

In {pi:.3f} wird die Format-Spezifikation f verwendet, um die Zahl Pi auf drei Nachkommastellen zu kürzen.

In A/B-Testszenarien möchtet ihr oft die prozentuale Veränderung einer Kennzahl darstellen. Mit F-Strings können sie verständlich formuliert werden:

>>> metrics = 0.814172
>>> print(f"Die AUC hat sich vergrößert auf {metrics:=+7.2%}")
Die AUC hat sich vergrößert auf +81.42%

In diesem Beispiel wird die Variable metrics formatiert, wobei = die Inhalte der Variable nach dem + übernimmt, wobei insgesamt sieben Zeichen einschließlich des Vorzeichen, metrics und des Prozentzeichens angezeigt werden. .2 sorgt für zwei Dezimalstellen, während das %-Symbol den Dezimalwert in eine Prozentzahl umwandelt. So wird 0.514172 in +51.42% umgewandelt.

Werte lassen sich auch in binäre und hexadezimale Werte umrechnen:

>>> block_size = 192
>>> print(f"Binary block size: {block_size:b}")
Binary block size: 11000000
>>> print(f"Hex block size: {block_size:x}")
Hex block size: c0

Es gibt auch Formatierungsangaben, die ideal geeignet sind für die CLI-Ausgabe, z.B.:

>>> data_types = [(7, "Data types", 19), (7.1, "Numbers", 19), (7.2, "Lists", 23)]
>>> for n, title, page in data_types:
...     print(f"{n:.1f} {title:.<25} {page: >3}")
...
7.0 Data types...............  19
7.1 Numbers..................  19
7.2 Lists....................  23

Allgemein sieht das Format folgendermaßen aus, wobei alle Angaben in eckigen Klammern optional sind:

:[[FILL]ALIGN][SIGN][0b|0o|0x|d|n][0][WIDTH][GROUPING]["." PRECISION][TYPE]

In der folgenden Tabelle sind die Felder für die Zeichenkettenformatierung und ihre Bedeutung aufgeführt:

Feld

Bedeutung

FILL

Zeichen, das zum Ausfüllen von ALIGN verwendet wird. Der Standardwert ist ein Leerzeichen.

ALIGN

Textausrichtung und Füllzeichen:

<: linksbündig
>: rechtsbündig
^: zentriert
=: Füllzeichen nach SIGN

SIGN

Vorzeichen anzeigen:

+: Vorzeichen bei positiven und negativen Zahlen anzeigen
-: Standardwert, - nur bei negativen Zahlen oder Leerzeichen bei positiven Zahlen

0b|0o|0x|d|n

Vorzeichen für ganze Zahlen:

0b: Binärzahlen
0o: Oktalzahlen
0x: Hexadezimalzahlen
d: Standardwert, dezimale Ganzzahl zur Basis 10
n: verwendet die aktuelle locale-Einstellung, um die entsprechenden Zahlentrennzeichen einzufügen

0

füllt mit Nullen auf

WIDTH

Minimale Feldbreite

GROUPING

Zahlentrennzeichen: [1]

,: Komma als Tausendertrennzeichen
_: Unterstrich für Tausendertrennzeichen

.PRECISION

Bei Fließkommazahlen die Anzahl der Ziffern nach dem Punkt
bei nicht-numerischen Werten die maximale Länge

TYPE

Ausgabeformat als Zahlentyp oder Zeichenkette

… für Ganzzahlen:

b: Binärformat
c: konvertiert die Ganzzahl in das entsprechende Unicode-Zeichen
d: Standardwert, Dezimalzeichen
n: dasselbe wie d, mit dem Unterschied, dass es die aktuelle locale-Einstellung verwendet, um die entsprechenden Zahlentrennzeichen einzufügen
o: Oktalformat
x: Hexadezimalformat zur Basis 16, wobei für die Ziffern über 9 Kleinbuchstaben verwendet werden
X: Hexadezimalformat zur Basis 16, wobei für die Ziffern über 9 Großbuchstaben verwendet werden

… für Fließkommazahlen:

e: Exponent mit e als Trennzeichen zwischen Koeffizient und Exponent
E: Exponent mit E als Trennzeichen zwischen Koeffizient und Exponent
g: Standardwert für Fließkommazahlen, wobei der Exponent eine feste Breite für große und kleine Zahlen erhält
G: Wie g, wechselt aber zu E, wenn die Zahl zu groß wird. Die Darstellungen von Unendlich und NaN werden ebenfalls in Großbuchstaben geschrieben
n: Wie g mit dem Unterschied, dass es die aktuelle locale-Einstellung verwendet, um die die entsprechenden Zahlentrennzeichen einzufügen
%: Prozentsatz. Multipliziert die Zahl mit 100 und zeigt sie im festen Format f an, gefolgt von einem Prozentzeichen

Tipp

Eine gute Quelle für F-Strings ist die Hilfe-Funktion:

>>> help()
help> FORMATTING
...

Ihr könnt die Hilfe hier durchblättern und viele Beispiele finden.

Mit :q und könnt ihr die Hilfe-Funktion wieder verlassen.

Fehlersuche in F-Strings

In Python 3.8 wurde ein Spezifizierer eingeführt, der bei der Fehlersuche in F-String-Variablen hilft. Durch Hinzufügen eines Gleichheitszeichens = wird der Code innerhalb des F-Strings aufgenommen:

>>> uid = "veit"
>>> print(f"My name is {uid.capitalize()=}")
My name is uid.capitalize()='Veit'

Formatierung von Datums-, Zeitformaten und IP-Adressen

datetime unterstützt die Formatierung von Zeichenketten mit der gleichen Syntax wie die strftime-Methode für diese Objekte.

>>> import datetime
>>> today = datetime.date.today()
>>> print(f"Today is {today:%d %B %Y}.")
Today is 26 November 2023.

Das ipaddress-Modul von Python unterstützt auch die Formatierung von IPv4Address- und IPv6Address-Objekten.

Schließlich können Bibliotheken von Drittanbietern auch ihre eigene Unterstützung für die Formatierung von Strings hinzufügen, indem sie eine __format__-Methode zu ihren Objekten hinzufügen.

Eingebaute Module für Zeichenketten

Die Python-Standardbibliothek enthält eine Reihe eingebauter Module, mit denen ihr Zeichenketten managen könnt:

Modul

Beschreibung

string

vergleicht mit Konstanten wie string.digits oder string.whitespace

re

sucht und ersetzt Text mit regulären Ausdrücken

struct

konvertiert zwischen Python-Werten und C-Strukturen, die als Python-Bytes-Objekte dargestellt werden.

difflib

hilft beim Berechnen von Deltas, beim Auffinden von Unterschieden zwischen Zeichenketten oder Sequenzen und beim Erstellen von Patches und Diff-Dateien

textwrap

umbricht und füllt Text, formatiert Text mit Zeilenumbrüchen oder Leerzeichen

Checks

  • Könnt ihr z.B. eine Zeichenkette mit einer ganzen Zahl addieren oder multiplizieren, oder mit einer Gleitkommazahl oder einer komplexen Zahl?

  • Wie könnt ihr eine Überschrift wie variables and expressions so abändern, dass sie keine Leerzeichen mehr enthält und besser als Dateinamen verwendet werden kann?

  • Welche der folgenden Zeichenketten können nicht in Zahlen umgewandelt werden und warum?

    • int("1e2")

    • int(1e+2)

    • int("1+2")

    • int("+2")

  • Wenn ihr überprüfen wollt, ob eine Zeile mit .. note:: beginnt, welche Methode würdet ihr verwenden? Gibt es auch noch andere Möglichkeiten?

  • Angenommen, ihr habt eine Zeichenkette mit Ausrufezeichen, Anführungszeichen und Zeilenumbrruch. Wie können diese aus der Zeichenkette entfernt werden?

  • Wie könnt ihr alle Leerräume und Satzzeichen aus einer Zeichenfolge in einen Bindestrich (-) ändern?

  • Welche Anwendungsfälle könnt ihr euch vorstellen, in denen das struct-Modul für das Lesen oder Schreiben von Binärdaten nützlich wäre?

    • beim Lesen und Schreiben einer Binärdatei

    • beim Lesen von einer externen Schnittstelle, wobei die Daten genau so gespeichert werden sollen, wie sie übermittelt wurden

  • Welchen regulären Ausdruck würdet ihr verwenden, um Zeichenfolgen zu finden, die die Zahlen zwischen -3 und +3 darstellen?

  • Welchen regulären Ausdruck würdet ihr verwenden, um Hexadezimalwerte zu finden?