Arbeiten mit Text Data

In diesem Beispiel wird Ihnen die Arbeit mit Text Data Schritt für Schritt gezeigt.

Python Pandas Arbeiten mit Text Data Module.

Hier können Sie Ihre Datei “chicago.csv” mit der Methode pd.read_csv () hinzufügen

Here you can add your "chicago.csv" file with pd.read_csv() Method

Mit der Methode .info () können Sie sehen, wie viel Datenspeicher in Ihrem Index verwendet wird

with .info () Method you can see how much Data Memory Usage and the values your index

Die Funktion nunique () wird verwendet, um unterschiedliche Beobachtungen über der angeforderten Achse zu zählen.

Die Funktion count (), um die Nummer für jede Spalte oder Zeile zu ermitteln.

The count() function to find the number for each column or row.

Die astype () -Methode wird verwendet, um ein Pandas-Objekt in einen angegebenen dtype umzuwandeln, und die Funktion bietet auch die Möglichkeit, jede geeignete vorhandene Spalte in einen kategorialen Typ zu konvertieren.

The astype() method is used to cast a pandas object to a specified dtype and function also provides the capability to convert any suitable existing column to categorical type.

Allgemeine String-Methoden – lower upper title and len

Beispiel für die Methoden astype (), lower (), upper (), title ()

 astype ()

 astype ()

Die Zeichenfolgenmethoden .lower () und .upper () sind selbsterklärend. Wenn Sie die Methode .upper () für eine Zeichenfolge ausführen, werden alle Zeichen in Großbuchstaben konvertiert, während bei der Methode lower () alle Zeichen in Kleinbuchstaben konvertiert werden.

The .lower()
.upper()

Die title () -Methode gibt eine Zeichenfolge zurück, bei der das erste Zeichen in jedem Wort in Großbuchstaben geschrieben wird. Wie ein Header oder ein Titel.

The title ()

Sie können len () verwenden, um die Länge der angegebenen Zeichenfolge, des Arrays, der Liste, des Tupels, des Wörterbuchs usw. abzurufen.

You can use the len()

Beispiel für Spalten in Lower mit der Methode .str.lower ()

Example of columns in Lower with .str.lower() method

Oben mit der Methode .str.upper ()

Example of columns in upper with .str.upper() method

Im Titel mit der Methode .str.title ()

Example of columns in title with .str.title() method

Hier Beispiel für Werte im Titel mit der Methode .str.title ()

Here example of values in title with .str.title() method

Beispiel für Werte mit der Methode .str.len ()

Example of values with .str.len() method

Die .str.replace () -Methode.

Die Methode replace () ersetzt eine angegebene Phrase durch eine andere angegebene Phrase.

Beispiel für die Methode replace ()

Example of the replace() method

Hier sehen Sie den DataFrame der NaN-Werte

Here you can see the DataFrame of NaN values

Sie können die .dropna (how = “all”) aufrufen und fehlende Werte entfernen.

You can call the .dropna (how="all") and remove missing values.

Filtern mit String-Methoden

Mit der Funktion str.contains () wird getestet, ob Muster oder Regex in einer Zeichenfolge einer Serie oder eines Index enthalten sind.

Hier Beispiel zum Wort “Wasser” mit den Methoden str.contains () und str.lower ()

The str.contains () function is used to test if pattern or regex is contained within a string of a Series or Index.

Sie sehen hier das Wort “water”, ist “True” geworden

This image has an empty alt attribute; its file name is Bildschirmfoto-2020-03-04-um-17.17.11-1024x366.png

Mit [mask] sehen Sie das Wort “water” in Ihrem Index am Anfang und in der Mitte der Tabelle

This image has an empty alt attribute; its file name is Bildschirmfoto-2020-03-04-um-17.18.11-1024x341.png

Rufen Sie str.startswith auf, wenn Sie das Wort “water” nur am Wortanfang wünschen

Call str.startswith if you want the word "water" only at the beginning of the word

Rufen Sie str.endswith auf, wenn Sie das Wort “ist” nur am Ende des Wortes möchten

This image has an empty alt attribute; its file name is Bildschirmfoto-2020-03-04-um-17.37.44-1024x377.png

strip lstrip and rstrip Methoden

Beispiel für die Methoden lstrip() rstrip() strip ()

Die Funktion lstrip () (linker strip) entfernt führende Leerzeichen (links) in der Zeichenfolge.

This image has an empty alt attribute; its file name is Bildschirmfoto-2020-03-04-um-17.46.23.png

Die Funktion rstrip () (rechter strip) entfernt das nachgestellte Leerzeichen (rechts).

This image has an empty alt attribute; its file name is Bildschirmfoto-2020-03-04-um-17.47.11-1024x462.png

Die Funktion strip () entfernt sowohl führende als auch nachfolgende Leerzeichen.

This image has an empty alt attribute; its file name is Bildschirmfoto-2020-03-04-um-17.47.45-1024x285.png

Arbeiten mit Text Data Teilen Sie Zeichenfolgen mit .str.split () durch Zeichen

Arbeiten mit dem Textdatenmodul. Teilen Sie Zeichenfolgen nach Zeichen mit .str.split ()

Beispiel für die .str.split () -Methode

Die Funktion teilt () die Zeichenfolge in der Serie / dem Index von Anfang an an der angegebenen Trennzeichenfolge.

This image has an empty alt attribute; its file name is Bildschirmfoto-2020-03-04-um-18.04.47.png

Beispiel für die Methoden .str.split () und str.get ()

Die Funktion str.get () wird verwendet, um Elemente aus jeder Komponente an der angegebenen Position zu extrahieren.

This image has an empty alt attribute; its file name is Bildschirmfoto-2020-03-04-um-18.08.53-1024x423.png

Beispiel für die Methoden .str.split (), str.get (), value_counts ()

Die Funktion value_counts () wird verwendet, um eine Serie abzurufen, die die Anzahl eindeutiger Werte enthält, und das erste Element ist das am häufigsten vorkommende Element.

This image has an empty alt attribute; its file name is Bildschirmfoto-2020-03-04-um-18.10.23-1024x321.png
https://www.fellow-consulting.de/excel-pandas-infor-data-lake/
https://www.fellow-consulting.de/digitale-transformation/ephesoft-idm-capture/

Verpasse diese Tipps nicht!

Wir senden keinen Spam! Erfahre mehr in unserer Datenschutzerklärung.