Text Porter(日本語版) について

Web/Internetサーバ組込用テキスト抽出エンジン。

Text Porterは、文書を作成したアプリケーションがなくても文書を直接読み込んで、テキスト文字列を抽出することが可能なほか、文書に埋め込まれたOLEオブジェクトからでもテキストを抽出することができます。また、サーバ上に組み込んでのシステム構築も可能です。社内文書のセキュリティ管理や文書サーバの検索用インデックス作成、音声ブラウザ用のテキスト作成エンジンとして様々な方面に活用できます。

MS OFFICE製品、QuarkXPress、Page Makerに代表されるDTPソフト、PDFファイルなどからテキスト情報を抽出します。ワープロソフトやプレゼンテーションソフトなどで作製した様々な形式の既存ファイルからテキスト情報を抽出するソフトです。Text Porterの最大の特徴は、文書を作成したアプリケーションに関係なく、テキストの抽出ができることです。抽出機能では、ワード文書に張り付けたエクセル文書のテキストといったOLEオブジェクトにも対応しております。

その他、表はセルの内容を文章として抽出し、図形、イメージ、線画、枠、数式などは無視する。パワーポイントなどプレゼンテーションファイルからは、スライドとノートのテキストを抽出、各種設定によってタグによるスライドとノートの区別の有無も選択できます。 また"行"はワークシートの一行を文字列の一行として出力し、"列"は一行内の出力は、列の先頭から列順に出力します。HTMLやXML文書では、タグと属性以外のテキスト文字列のみを抽出できます。