Lynx is a project combining several smaller OpenCV initiatives developed for the Hackberry YSWS event, featuring various image processing functionalities on its website. This is a bilingual OCR system ...
This tool, initially made specifically for use with Sony's Digital Paper System (DPS), is now a general-purpose DjVu to PDF converter with a focus on small output size and the ability to preserve ...
以前に"Tesseract OCR"というのを試しました。 今回は"Easy OCR"というのを試してみます。 この中にColabでデモができるようになっているので、日本語について少しいじってみます。 Colabを開いて、ランタイムをGPUにしてから作業を進めます。 !pip install easyocr --no ...
古典籍資料の写真からテキストデータを抽出できるツール「NDL古典籍OCR-Lite」が11月26日、国会図書館の実験的なサービスを提供する「NDLラボ」の公式「GitHub」サイトで公開された。
こんなこともできてしまうなんて、もう、「python」はすごすぎ。ん十年前まだまだWindows機だった頃の「ocr」はソフトの値段もすごかったけど、結果としては、いまいち、だったことを思い出します。文字化けしてんのかな、と思うほど文字になっていなくて ...
日本人のフルネームを読み込ませることで姓と名に分割するPythonパッケージがGitHubで公開された。 これはRei Sakamoto(@rskmoi)さんが作成したもので、自身の手による姓名分割ツール「NameDivider」のPythonパッケージ。漢字の統計情報をもとに特徴量を作って ...
鈴木たかのり (@takanory) です。今月の 「Python Monthly Topics」 では、Pythonのパッケージを公開するときに、デジタル証明書 (Digital attestations) を用いてより安全に公開する方法について紹介します。 PEP 740の提案とその背景 この機能はPEP 740によって2024年1月 ...