先日Pythonを使ってpdf文書の抽出というのにPyPDF2というライブラリを使ってみました。 本日は、↓こちらの内容に書いてあるコードを参考にして、pdf文章の抽出用の別のライブラリ(pdfminer)を使ってみました。 ↓pdfはこういった中身になっています。 ↑こちら ...
pythonでpdfファイルから日本語を含む文字列を引っ張りだしたいと思って調べたら pdfminer.sixを使えば簡単に出来ることがわかった。いろいろパラメータを指定する必要があるらしいが親切にもpdfminer.high_levelという関数が用意されているので超簡単。
一部の結果でアクセス不可の可能性があるため、非表示になっています。
アクセス不可の結果を表示する