Claris Connect、Documents Utilityを触る(1)
Dates Utilityの機能は大きく2種類
- 画像やドキュメントファイルからのテキスト抽出
- データ形式のコンバート」の2つの役割
今回は画像やドキュメントファイルからのテキスト抽出について
Extract text from .pdf(pdfからテキストを抽出する)
- 指定したURLにあるpdfからテキストを取得
- パスワード付きのPDFにも対応
- 改行コード(¥n)のありなしを、指定できる
- 現在(2020/06/07)日本語の抜き出しは、文字化けする
- 文字コードはUTF-8で指定(これで合っているはず)
- 他の文字コードの選択肢でも、念のためトライしたが失敗
- 英語は問題なし
Extract text from .doc or .docx(docまたは.docxからテキストを抽出する)
- 指定したURLにあるWord書類からテキストを取得
- 改行コード(¥n)のありなしを、指定できる
- 日本語も問題なし
Extract text from .png or .jpg(pngまたは.jpgからテキストを抽出する)
- 指定したURLにある画像からテキストを取得
- 画僧がどの言語かを指定する必要がある(カスタム値も入寮可能)
- 改行コード(¥n)のありなしを、指定できる
- 日本語の取得は失敗
- カスタム入力で言語を日本語(Japanese)に指定したが、404エラーで失敗
- 英語の場合は画像からテキストの抽出が可能
Extract text from .rtf(rtfからテキストを抽出する)
- 指定したURLにあるリッチテキスト書類からテキストを取得
- 改行コード(¥n)のありなしを、指定できる
- 日本語テキストも取得可能
使ってみた感想
- PDFや画像からテキストの抽出ができるのは、非常に面白い機能。
- 図表が入っている場合に、どれくらいの精度でテキストが抽出されるのかは気になる。
- 実際の使い所があるかどうかは、ちょっと悩むところもあるかもしれない(Word書類や、pdf書類のの内容をそのまま展開するケースは考えにくく、何かしらの処理が追加されてはじめてワークフローに活用できるのではないか)