Arbeiten mit Text Data
In diesem Beispiel wird Ihnen die Arbeit mit Text Data Schritt für Schritt gezeigt.
Python Pandas Arbeiten mit Text Data Module.
Hier können Sie Ihre Datei “chicago.csv” mit der Methode pd.read_csv () hinzufügen

Mit der Methode .info () können Sie sehen, wie viel Datenspeicher in Ihrem Index verwendet wird

Die Funktion nunique () wird verwendet, um unterschiedliche Beobachtungen über der angeforderten Achse zu zählen.
Die Funktion count (), um die Nummer für jede Spalte oder Zeile zu ermitteln.

Die astype () -Methode wird verwendet, um ein Pandas-Objekt in einen angegebenen dtype umzuwandeln, und die Funktion bietet auch die Möglichkeit, jede geeignete vorhandene Spalte in einen kategorialen Typ zu konvertieren.

Allgemeine String-Methoden – lower upper title and len
Beispiel für die Methoden astype (), lower (), upper (), title ()
astype ()

Die Zeichenfolgenmethoden .lower () und .upper () sind selbsterklärend. Wenn Sie die Methode .upper () für eine Zeichenfolge ausführen, werden alle Zeichen in Großbuchstaben konvertiert, während bei der Methode lower () alle Zeichen in Kleinbuchstaben konvertiert werden.


Die title () -Methode gibt eine Zeichenfolge zurück, bei der das erste Zeichen in jedem Wort in Großbuchstaben geschrieben wird. Wie ein Header oder ein Titel.

Sie können len () verwenden, um die Länge der angegebenen Zeichenfolge, des Arrays, der Liste, des Tupels, des Wörterbuchs usw. abzurufen.

Beispiel für Spalten in Lower mit der Methode .str.lower ()

Oben mit der Methode .str.upper ()

Im Titel mit der Methode .str.title ()

Hier Beispiel für Werte im Titel mit der Methode .str.title ()

Beispiel für Werte mit der Methode .str.len ()

Die .str.replace () -Methode.
Die Methode replace () ersetzt eine angegebene Phrase durch eine andere angegebene Phrase.
Beispiel für die Methode replace ()

Hier sehen Sie den DataFrame der NaN-Werte

Sie können die .dropna (how = “all”) aufrufen und fehlende Werte entfernen.

Filtern mit String-Methoden
Mit der Funktion str.contains () wird getestet, ob Muster oder Regex in einer Zeichenfolge einer Serie oder eines Index enthalten sind.
Hier Beispiel zum Wort “Wasser” mit den Methoden str.contains () und str.lower ()

Sie sehen hier das Wort “water”, ist “True” geworden

Mit [mask] sehen Sie das Wort “water” in Ihrem Index am Anfang und in der Mitte der Tabelle

Rufen Sie str.startswith auf, wenn Sie das Wort “water” nur am Wortanfang wünschen

Rufen Sie str.endswith auf, wenn Sie das Wort “ist” nur am Ende des Wortes möchten

strip lstrip and rstrip Methoden
Beispiel für die Methoden lstrip() rstrip() strip ()
Die Funktion lstrip () (linker strip) entfernt führende Leerzeichen (links) in der Zeichenfolge.

Die Funktion rstrip () (rechter strip) entfernt das nachgestellte Leerzeichen (rechts).

Die Funktion strip () entfernt sowohl führende als auch nachfolgende Leerzeichen.

Arbeiten mit Text Data Teilen Sie Zeichenfolgen mit .str.split () durch Zeichen
Arbeiten mit dem Textdatenmodul. Teilen Sie Zeichenfolgen nach Zeichen mit .str.split ()
Beispiel für die .str.split () -Methode
Die Funktion teilt () die Zeichenfolge in der Serie / dem Index von Anfang an an der angegebenen Trennzeichenfolge.

Beispiel für die Methoden .str.split () und str.get ()
Die Funktion str.get () wird verwendet, um Elemente aus jeder Komponente an der angegebenen Position zu extrahieren.

Beispiel für die Methoden .str.split (), str.get (), value_counts ()
Die Funktion value_counts () wird verwendet, um eine Serie abzurufen, die die Anzahl eindeutiger Werte enthält, und das erste Element ist das am häufigsten vorkommende Element.
