PDICのテキストを抽出するツールです。 以前に試作したPDIC検索ツールの残骸です。
PDICで使われている、PDIC形式の辞書からテキストデータを抽出するプログラムです。 PDIC形式で配布されている辞書を、他の形式に変換したい場合などに有用かもしれません。 PDIC自体にその様な機能は存在しますので、それで差し支えない人には不要なツールです。
通常の autotools を利用したプログラムと同様です。 特有のオプションとして以下のものがあります。
iconv関数に必要なヘッダおよびライブラリが存在するディレクトリを指定します。
SJIS系の辞書に収録されているテキストの文字コードを指定します。 iconvが対応している文字コードを指定してください。 デフォルトはCP932です。
pdicdump が出力する文字コードを指定します。 正確にはSJIS系の辞書のテキストを出力する際にこの文字コードに変換されます。 iconvが対応し、UTF-8互換な文字コードである必要があります。 デフォルトはUTF-8です。
$pdicdump file
として実行するとfileというファイル名のPDIC辞書からテキストデータを抽出して標準出力に CSV形式でダンプします。 内容は概ねPDICのCSV形式に従いますが、
という点が異なります。 PDIC 1行テキスト形式で出力する場合は
$pdicdump -o pdic1 file
のようにします。 出力の文字コードはUTF-8に固定されています。
SJIS形式の辞書については見出し・テキスト・用例の文字コードを オプションで指定できます。詳しくは--helpで確認してください。 ただし、動作確認はしていません。 発音記号にSIL IPA 93フォントの利用を想定している辞書の場合は
$pdicdump -p silipa93 file
のように-pオプションを指定してください。 逆にSIL IPA 93フォントを利用しない事を想定している辞書の場合は
$pdicdump -p asis file
のように指定してください。
プログラムの大部分は修正BSDライセンスに従います。 同梱のCOPYINGファイルを参照して下さい。 BOCU-1のエンコーダー/デコーダー等、私の著作でないものはそれぞれのライセンスに従ってください。 詳細は個々のファイルを確認してください。
2019/06/15 Version 1.1.0。一部の辞書で項目が出力されない、出力が壊れる等のバグ修正。 デバッグ出力に対応。 環境変数PDICR_DEBUGを定義していると標準エラー出力にデバッグ用の上方が出力される。 出力量が膨大になるので注意。
2010/08/09 公開。