Oxford Advanced Learner's Compassの本文テキストを、FreeUWINGを利用してJIS X 4081 UTF-8 extension形式に変換するツールです。
Oxford Advanced Learner's Dictionary, 7th Edition (以下OALD7)に付属しているOxford Advanced Learner's Compass (以下OALC)のCD-ROMに含まれる本文テキストをFreeUWINGを利用してJIS X 4081 UTF-8 extension形式に変換するツールです。 OALC付属のブラウザが動作しない環境や、他の辞書と串刺し検索を行いたい場合などに使えます。
oald7-fuw-20200411-src.tar.gz OALD7, The Oxford Guide to British and American Culture (以下 Cultural Guide), The Oxford Wordfinder Dictionary (以下Wordfinder)のテキストをJIS X 4081 UTF-8 extension形式に変換します。
このツール自体は任意のディレクトリに展開するだけです。 ただし、FreeUWINGの導入以外に以下の要件を満たす必要があります。
それより古い版で実行するとエラーで止まります。
本文はdeflateで圧縮されており、その伸長に利用しています。
画像の収録時にリサイズ、あるいはBMP形式への変換を行う場合はImage::Magickモジュールが必要です。 音声の収録時にPCM形式への変換を行う場合はlameとSoX (v13.0.0 で確認) が必要です。
変換ツールを展開したディレクトリ内の要求される位置に、OALCのCD-ROM上のデータをコピーします。 CD-ROM上のデータが存在するディレクトリと、要求される位置は下表に示してあります。 必要なファイルはCONTENT.tdaとCONTENT.tda.tdzのふたつになります。 ただし、音声・画像については同じディレクトリにあるfiles.datとNAME.tdaも必要です。
辞書 | データが存在するCD-ROM上のディレクトリ | 要求されるデータの位置 |
---|---|---|
OALD7 | data/entry/files.skn | OALD7/SRC |
Cultural Guide | data/guide/entry/files.skn | OALD7CG/SRC |
Wordfinder | data/wordfinder/files.skn | OALD7WF/SRC |
音声 (US) | data/pronus/files.skn | OALD7/SRC/us |
音声 (UK) | data/pronuk/files.skn | OALD7/SRC/uk |
画像 (OALD7) | data/image_fullsize/files.skn | OALD7/SRC/images |
画像 (Cultural Guide) | data/guide_image_fullsize/files.skn | OALD7CG/SRC/images |
その場合も含め、画像を収録しない場合はOALD7/oald7-fuw.conf, OALD7CG/oald7cg-fuw.confにある
'image_type' => 1,
の部分について、音声を収録しない場合はOALD7/oald7-fuw.confにある
'sound_type' => 1,
について、1を0に変更してください。
Image::Magickモジュールが使用可能であれば収録する画像形式の変更、または/および、リサイズが行えます。 画像をBMP形式に変換して収録する場合はOALD7/oald7-fuw.conf, OALD7CG/oald7cg-fuw.confの'image_type'を2に変更してください。 リサイズを行う場合は同じく'image_max_width'と'image_max_height'について、幅、高さの最大値をそれぞれ設定してください。どちらか一方のみ指定することも可能です。
lameとSoXが使用可能であれば音声をPCM形式に変換して収録できます。 音声をPCM形式に変換して収録する場合はOALD7/oald7-fuw.confの'sound_type'を2に変更してください。 ちなみに、モノクロ・8ビット・11.025kHzへ変換した場合、音声部分の作成にはCore 2 Duo T7200 (2GHz) 搭載のノートPCで約2時間かかり、音声部分のサイズは約1GBになります。 ただし、Cygwin 環境では子プロセスの起動に時間がかかるようで、ものすごく時間がかかります。 Cygwin環境では音声の変換を行わない事をおすすめします。
OALD7についてはidiomとphrasal verbから条件検索のインデックスを作成しますが、デフォルトではLookup 1.4+media向けの設定になっています。 OALD7/oald7-fuw.confの記述を参照して適宜変更してください。
通常のFreeUWINGを利用したツールと同様です。
$fuwmake
で辞書が生成されます。 パッケージを作る場合は
$fuwmake package
等のようにします。 packageの部分をpackage-tar-gzやpackage-tar-bz2に変えれば、それぞれに応じたファイル形式でパッケージが作られます。
20100515以降のeblook 1.6.1+mediaとLookup 1.4+media向けの補助パッケージが含まれています。 利用すると条件検索検索時におけるcontentの表示が改善されます。
サイズを変更しない場合は幅720ピクセルという結構大きめの画像が多いため、環境によっては見づらいかもしれません。
元のデータがMP3であり、無圧縮のPCMに変換すると容量もしくは音質面での制限が厳しいため、デフォルトではMP3にRIFF-WAVEのヘッダをつけて収録しています。 この場合、一部のソフトウェアでしか再生できないと思われます。 Meadow、NTEmacsでは再生できることを確認していますが、UNIX系OSで動作しているEmacsでは再生できない筈です。
書籍間の相互参照はできません。 また、相互参照は元のXMLのソースに参照先が明記されているもののみ対応しています。 これは、OALC付属のブラウザで直接参照先に飛ぶものや、ポップアップウィンドウが表示された際に表示する項目が選べないものが相当すると思います。
ツールのライセンスはGPL v2に従って下さい。 ツール及び作成された書籍は正当な権利の範囲内で利用してください。 正当な権利の範囲がわからない方は使用しない事をお薦めします。
2020/04/11 @INCにカレントディレクトリが含まれないPerl (5.26以降) に対応した。 デフォルトでは画像のリサイズは行わないようにした。
2010/05/22 公開。
2010/05/19 Lookup 1.4+media用の補助パッケージを同梱した。 idiomとphrasal verbから条件検索のインデックスを作成するようにした。