« 微かに富士山が見えました | トップページ | VAIO type PにXPモデルが…(--; »

2009/05/24

Wikipedia for 200LX, ファイルサイズ限界に到達

かれこれ1年前に200LXへ4GB SDを導入して以来、Wikipedia日本語版をほぼ毎月ちまちまとダウンロード・変換して使ってきました。
しかしGWにアーカイブされた20090423版以降、wikipedia-fpwでの変換作業がunknown tag nameで停止するようになってしまい、その前の20090124版を使い続けていました。

cygwinだとperlが落ちることがある、という過去の記述がwikipedia-fpwにあったので、新型インフルエンザ騒動で週末ひきこもり状態になったところで、要塞(牛:Core 2 duo 2.4GHz)にwubiでubuntuを導入して試してみたところ、最新の20090520版でも変換ができました。
しかし…できあがったファイルは2.2GBに達しており、ファイルサイズ限界2GB(FAT16)のSDカードには入れることができませんでした。

それでは、ファイルサイズ限界がいつ来たのかと調べてみたところ、ちょうどcygwinでの変換ができなくなった20090423版で、2.0GB(2,183,323,548byte)でした。

(この前の、20090124版は1.95GBでした。)

試しに20090520版を相互参照なしで変換してみた結果、1.9GB(2,023,075,840byte)で、200LXのEBRでも辞書引きできました。 あと暫くの間は、相互参照無しなら何とか使えそうですが、相互参照なしは寂しいです…
SDHCのWillcom03での運用に変えるなど、考えてみます。

ちなみに変換にかかる時間はcygwinの時の75%くらい。 ubuntuの方がperlの実行効率が高いことが分かりました。

パドラッパ@館

|

« 微かに富士山が見えました | トップページ | VAIO type PにXPモデルが…(--; »

コメント

あかぼしさんへ
コメントに気づいていませんでした、すみません。
このエントリー以後、もう手を出していません。

見出しデータの再配置は、そのような処理自体を存じませんでした。もしかしたら検索が速くなるのかも?と思いますが、実は去年母艦が吹っ飛んだので、実験環境が無くなってしまいました(泣)

投稿: パドラッパ | 2013/01/24 07:24

はじめまして。現在2008年6月号IPの付録のwikiデータを利用しています。現在のWikipedia(ja)0103Lite WinRAR 自己展開(2分割)ファイル2.11 GiB (2,263,617,891 bytes)2013-01-03Lite 版 見出項目数: 845,611 最新のデータを利用したいのですが、これは試してみられたでしょうか? またttlsort.exe(見出しをデータの先頭に再配置)の処理はされていますでしょうか?

投稿: あかぼし | 2013/01/18 12:20

コメントを書く



(ウェブ上には掲載しません)




トラックバック

この記事のトラックバックURL:
http://app.cocolog-nifty.com/t/trackback/60475/45111685

この記事へのトラックバック一覧です: Wikipedia for 200LX, ファイルサイズ限界に到達:

« 微かに富士山が見えました | トップページ | VAIO type PにXPモデルが…(--; »