oald7-fuw

Oxford Advanced Learner's Compassの本文テキストを、FreeUWINGを利用してJIS X 4081 UTF-8 extension形式に変換するツールです。

oald7-fuw

Oxford Advanced Learner's Dictionary, 7th Edition (以下OALD7)に付属しているOxford Advanced Learner's Compass (以下OALC)のCD-ROMに含まれる本文テキストをFreeUWINGを利用してJIS X 4081 UTF-8 extension形式に変換するツールです。 OALC付属のブラウザが動作しない環境や、他の辞書と串刺し検索を行いたい場合などに使えます。

for your download

oald7-fuw-20100519-src.tar.gz OALD7, The Oxford Guide to British and American Culture (以下 Cultural Guide), The Oxford Wordfinder Dictionary (以下Wordfinder)のテキストをJIS X 4081 UTF-8 extension形式に変換します。

インストール

このツール自体は任意のディレクトリに展開するだけです。 ただし、FreeUWINGの導入以外に以下の要件を満たす必要があります。

FreeUWINGが20100512以降であること。

それより古い版で実行するとエラーで止まります。

PerlがCompress::Raw::Zlibモジュールを利用可能であること。

本文はdeflateで圧縮されており、その伸長に利用しています。

画像の収録時にリサイズ、あるいはBMP形式への変換を行う場合はImage::Magickモジュールが必要です。 音声の収録時にPCM形式への変換を行う場合はlameSoX (v13.0.0 で確認) が必要です。

変換準備

データの準備

変換ツールを展開したディレクトリ内の要求される位置に、OALCのCD-ROM上のデータをコピーします。 CD-ROM上のデータが存在するディレクトリと、要求される位置は下表に示してあります。 必要なファイルはCONTENT.tdaCONTENT.tda.tdzのふたつになります。 ただし、音声・画像については同じディレクトリにあるfiles.datNAME.tdaも必要です。

辞書 データが存在するCD-ROM上のディレクトリ 要求されるデータの位置
OALD7 data/entry/files.skn OALD7/SRC
Cultural Guide data/guide/entry/files.skn OALD7CG/SRC
Wordfinder data/wordfinder/files.skn OALD7WF/SRC
音声 (US) data/pronus/files.skn OALD7/SRC/us
音声 (UK) data/pronuk/files.skn OALD7/SRC/uk
画像 (OALD7) data/image_fullsize/files.skn OALD7/SRC/images
画像 (Cultural Guide) data/guide_image_fullsize/files.skn OALD7CG/SRC/images

OALD7/oald7-fuw.conf, OALD7CG/oald7cg-fuw.conf, OALD7WF/oald7wf-fuw.confの修正

その場合も含め、画像を収録しない場合はOALD7/oald7-fuw.conf, OALD7CG/oald7cg-fuw.confにある

  'image_type' => 1,

の部分について、音声を収録しない場合はOALD7/oald7-fuw.confにある

  'sound_type' => 1,

について、10に変更してください。

Image::Magickモジュールが使用可能であれば収録する画像形式の変更、または/および、リサイズが行えます。 画像をBMP形式に変換して収録する場合はOALD7/oald7-fuw.conf, OALD7CG/oald7cg-fuw.conf'image_type'2に変更してください。 リサイズを行う場合は同じく'image_max_width''image_max_height'について、幅、高さの最大値をそれぞれ設定してください。どちらか一方のみ指定することも可能です。

lameとSoXが使用可能であれば音声をPCM形式に変換して収録できます。 音声をPCM形式に変換して収録する場合はOALD7/oald7-fuw.conf'sound_type'2に変更してください。 ちなみに、モノクロ・8ビット・11.025kHzへ変換した場合、音声部分の作成にはCore 2 Duo T7200 (2GHz) 搭載のノートPCで約2時間かかり、音声部分のサイズは約1GBになります。 ただし、Cygwin 環境では子プロセスの起動に時間がかかるようで、ものすごく時間がかかります。 Cygwin環境では音声の変換を行わない事をおすすめします。

OALD7についてはidiomとphrasal verbから条件検索のインデックスを作成しますが、デフォルトではLookup 1.4+media向けの設定になっています。 OALD7/oald7-fuw.confの記述を参照して適宜変更してください。

変換

通常のFreeUWINGを利用したツールと同様です。

$fuwmake

で辞書が生成されます。 パッケージを作る場合は

$fuwmake package

等のようにします。 packageの部分をpackage-tar-gzpackage-tar-bz2に変えれば、それぞれに応じたファイル形式でパッケージが作られます。

補助パッケージ

20100515以降のeblook 1.6.1+mediaとLookup 1.4+media向けの補助パッケージが含まれています。 利用すると条件検索検索時におけるcontentの表示が改善されます。

制限・不具合

画像表示に関する制限

サイズを変更しない場合は幅720ピクセルという結構大きめの画像が多いため、環境によっては見づらいかもしれません。

音声再生に関する制限

元のデータがMP3であり、無圧縮のPCMに変換すると容量もしくは音質面での制限が厳しいため、デフォルトではMP3にRIFF-WAVEのヘッダをつけて収録しています。 この場合、一部のソフトウェアでしか再生できないと思われます。 Meadow、NTEmacsでは再生できることを確認していますが、UNIX系OSで動作しているEmacsでは再生できない筈です。

相互参照に関する制限

書籍間の相互参照はできません。 また、相互参照は元のXMLのソースに参照先が明記されているもののみ対応しています。 これは、OALC付属のブラウザで直接参照先に飛ぶものや、ポップアップウィンドウが表示された際に表示する項目が選べないものが相当すると思います。

その他

ツールのライセンスはGPL v2に従って下さい。 ツール及び作成された書籍は正当な権利の範囲内で利用してください。 正当な権利の範囲がわからない方は使用しない事をお薦めします。

更新履歴

2010/05/22 公開。

2010/05/19 Lookup 1.4+media用の補助パッケージを同梱した。 idiomとphrasal verbから条件検索のインデックスを作成するようにした。

written by Kazuhiro Ito (mailto: mailto)

あみあみ Amazon Yahoo 楽天 NTT-X Store

無料ホームページ 無料のクレジットカード 海外格安航空券 転職 海外旅行保険が無料! 格安航空券