« 怪デムパゆんゆんw | トップページ | 侮れぬご近所 »

2006年5月27日 (土)

げに恐ろしきは文字コード也

このブログと相互リンクさせて頂いている、私がいろいろとお世話になっているdona222さんのブログ「寝ない人雑記」で、多言語混植のホムペで苦労された話が紹介されている。

地方紙に勤めていた頃は、日本語の文字コード処理(整理記者稼業の傍らシステムの面倒も見ていた)だけでも頭を抱えていたのに、いくらユニコード全盛のご時世とはいえ多言語混植のホムペ作りはさぞかし大変だったこととお察し申し上げる。(お忙しそうですがせめてちゃんと寝てくださいね>dona222様)

で、新聞社にとっても文字コードって鬼門なんですよ。システム部門や校閲部門では特に。

Windowsの内部で使われる文字コード(リンゴマークは知らん)、Windows2000まではJISコードベースで、XPになったら「ユニコード」と呼ばれる規格に変わっていること、少しパソコンに詳しい人なら知っている人も多いのではないだろうか。この2つのコード体系、実務上は全く互換性がないと言って良い。実は、このことが新聞製作の現場でいろいろと問題を引き起こしている。「ユニコード」の方が扱える文字の数は多い。そしてどうなるか。固有名詞でよく使われる文字が化けるのである。

いまはどこの新聞でも、記者は自分でパソコンの画面で記事を入力して送稿してくる。で、Windowsのバージョンが統一されていないと、非常に厄介な問題が起きる。小さな新聞社では、製作システム内部の文字コードはまだJISコードベースのところが多い。するとどうなるか。最悪の場合、数千字が化けてしまうのだ。しかも、化ける文字の中には「はしごだか」「たつさき」(私はWindows2000使いで、このブログの草稿は普通のテキストエディタ使ってるから、漢字が出ないんだよ)のような、固有名詞でよく使われる字種が多く含まれるから始末が悪い。

普通はこういう使用頻度の高い文字は外字扱いで登録しておくのだが、WindowsXPだと普通の変換で出る。で、そのまま入力して送信→受信したら違う文字に化ける→紙面事故発生という経路をたどる訳だ。

歴史がある気の利いた記者用ワープロだとこの辺の処理はきちんとしているのだが、中小新聞向けの新聞製作ソフトにバンドルされている某社製のソフトは、この辺の処理はお構いなし。記者が入力した文字コードをそのまま機械的に処理して垂れ流してくるから、滋賀新聞では「数千字の文字化け」が発覚するという事態が発生した。
「ユニコードでは標準仕様として備わっているが、JISコードでは扱えない文字」は〓に変換するか、製作システムで用意した該当する自社外字に変換するようなフィルターかませば済む話なんだが、文字コード処理に疎い人間が開発するとお粗末な結果が待ち構えている。

パソコン入力された文字は正しいという前提で校閲部門が簡素化されているし、変な文字に化けた場合、それが固有名詞の一部だったりすると発見は困難。

新聞社のシステム担当者にとって、文字コードの問題って結構頭が痛いのだ。
こういうこと教えてくれるシステム関連の専門家もあんまりいないみたいだしな。

いつになるか分からないがこの項続く。

|

« 怪デムパゆんゆんw | トップページ | 侮れぬご近所 »