This tool, initially made specifically for use with Sony's Digital Paper System (DPS), is now a general-purpose DjVu to PDF converter with a focus on small output size and the ability to preserve ...
今回はOCR(PDFや画像データの文字認識)用ライブラリを紹介します。OCR用のサンプルデータは下記の通りです。 シンプルな読み込みはtabula.read_pdf(filepath, pages='all')とします。またfilepathにurlを指定すればweb経由で取得も可能です。 下記の通り戻り値はリスト ...
OCRはどんな時に役立つの? みなさんは「画像の中の文字をテキスト化したい」と思ったことはありませんか? • PDFやスクリーンショットから文字をコピーしたい • レシートや領収書を自動でデータ化したい • ホワイトボードに書いた内容を文字として ...
OCR技術の進化により、紙の書類や画像、スキャンしたPDFから文字情報を簡単に抽出できるようになりました。業務効率化やペーパーレス化が進む中、OCRソフトを活用する企業や個人ユーザーも増えています。 しかし最近では、月額課金型のサービスが主流となり、 ...
Go言語による高速なAPI受付と、PythonのEasyOCRエンジンをgRPCで繋ぐ、スケーラブルなOCRバックエンド基盤を構築しました。本記事では、そのアーキテクチャの構築ポイントを解説します。 今回の設計の核は、Google Kubernetes Engine(GKE)上でのサイドカー構成の ...