PDF Tabellen in Power Query einlesen

Hits: 260

Leider fehlt nach wie vor eine direkte Möglichkeit, welche PDF Tabellen in Power Query einlesen könnte. Um trotzdem die gewünschten Werte in Power BI oder Excel weiterverarbeiten zu können, müsst Ihr auf Workarounds zurückgreifen. Drei Möglichkeiten will ich Euch heute aufzeigen.

Variante 1 – PDF mittels Word in eine Webpage umwandeln

Als erstes öffnet Ihr die PDF Datei in Word. Die folgende Warnmeldung könnt Ihr ignorieren respektive “OK” anklicken.

Word Warnmeldung PDF Import
Word Warnmeldung PDF Import
PDF als Webseite speichern
PDF als Webseite speichern

Speichert die Datei danach als Web Page (HTML) ab. Im Query Editor respektive Power Query importiert Ihr die Datei über den “Web Import”.

Web_Import
Web_Import
Web_Import_Dialog
Web_Import_Dialog

Gebt anstelle einer URL den Speicherort der Datei ein. Danach wählt Ihr wie gewohnt die gesuchte Tabelle aus – eh voilà, da ist die Tabelle.

PDF Tabellen in PQ
PDF Tabellen in PQ

Variante 2 – PDF mittels Tabula bearbeiten

Ein anderer Weg ist die Umwandlung der PDF Datei mittels Tabula. Tabula ist gratis und kann hier heruntergeladen werden. Führt das Programm aus und wartet bis sich ein Browserfenster öffnet. Ladet dann das PDF File hoch.

Tabula_PDF_Import
Tabula_PDF_Import

Danach zur gewünschten Tabellen scrollen und diese mit einem Rahmen einfassen.

Tabula_Tabelle_auswählen
Tabula_Tabelle_auswählen

Klickt auf “Preview & Export Extracted Data” und schaut die Vorschau an. Mittels Klick auf “Export” werden die Daten entweder als .csv oder Excel Datei gespeichert. Bitte beachtet, dass Tabula nur textbasierte Dokumente verarbeiten kann. Gescannte Dateien sind Bilder und können nicht verarbeitet werden.

Variante 3 – PDF mittels R einlesen

Die beiden vorgenannten Varianten eignen sich sowohl für Excel als auch für Power BI Desktop.
Im Power BI Desktop geht die Umwandlung von PDF Dateien mit der dritten Variante noch einfacher. Unter Verwendung von R können PDF Tabellen direkt umgewandelt werden. Imke hat dazu einen Blogbeitrag veröffentlicht:
http://www.thebiccountant.com/2018/01/09/use-r-to-import-text-from-pdf-files-in-power-bi/

Fazit:

Mit allen drei Varianten kann Power Query mühelos PDF Tabellen einlesen.
In Excel funktionierte die erste Variante bei mir am besten.
Die R-Variante in Power BI Desktop schlägt aber die anderen beiden Möglichkeiten bei weitem. Da Imke das Vorgehen wie immer sehr gut beschrieben hat, verzichte ich hier auf eine Wiederholung.

Hat Euch der Beitrag gefallen? Dann hinterlasst einen Kommentar oder “liked” ihn. Danke.

Mehr Artikel über Power Query findet Ihr im Power Query Online Buch.
Happy Querying!