文字コードらへん:(8/17追記有り)
昨日の続きと言うよりは、前提らへん。
(1)JIS
「JISC 日本工業標準調査会」 → 「JIS検索」 → 「JIS規格番号からJISを検索」の入力欄にJISの番号を入れて検索すると、JISのPDFを見ることが出来る。
らへんを一通り見る。
*
(2)iana に登録されているエンコード一覧
http://www.iana.org/assignments/character-sets より:
Name: Extended_UNIX_Code_Packed_Format_for_Japanese MIBenum: 18 Source: Standardized by OSF, UNIX International, and UNIX Systems Laboratories Pacific. Uses ISO 2022 rules to select code set 0: US-ASCII (a single 7-bit byte set) code set 1: JIS X0208-1990 (a double 8-bit byte set) restricted to A0-FF in both bytes code set 2: Half Width Katakana (a single 7-bit byte set) requiring SS2 as the character prefix code set 3: JIS X0212-1990 (a double 7-bit byte set) restricted to A0-FF in both bytes requiring SS3 as the character prefix Alias: csEUCPkdFmtJapanese Alias: EUC-JP (preferred MIME name) Name: Extended_UNIX_Code_Fixed_Width_for_Japanese MIBenum: 19 Source: Used in Japan. Each character is 2 octets. code set 0: US-ASCII (a single 7-bit byte set) 1st byte = 00 2nd byte = 20-7E code set 1: JIS X0208-1990 (a double 7-bit byte set) restricted to A0-FF in both bytes code set 2: Half Width Katakana (a single 7-bit byte set) 1st byte = 00 2nd byte = A0-FF code set 3: JIS X0212-1990 (a double 7-bit byte set) restricted to A0-FF in the first byte and 21-7E in the second byte Alias: csEUCFixWidJapanese# 引用部分を間違えていたため追加(8/17)
JIS X 0213は対象外。EUC-JIS-2004(EUC-JIS-2004-plane1)(旧EUC-JISX0213)は無い。(SHIFT_JIS2004,ISO-2022-JP2004とかも当然無い)
[追記]wikipediaより
符号化方式は、ISO/IEC 2022にそった形のみ規格としてあり、ISO-2022-JP-3、Shift_JISX0213、EUC-JISX0213は参考として記述がある。これらのコードはIANAに登録されていないので、インターネットでの情報交換をすることはできない。
*
(3)JIS X 0213の文字を(標準で)入力できるOS
- Macintosh OS X
- Windows Vista(予定?)
詳しくは不明。現在有る物である程度シェアがあるものってOS Xだけ?
[8/17追記]
(4)その他不明点
naka64さんを巻き込んでしまっています。お世話になります。書きかけ、と明記しているところでコメントしてしまっていて良い物かどうか悩みましたが……
まあX0213:2004を扱おうとしてもUnicode2面の文字を数値文字参照にすることもかなわないわけですが。
ここについては勉強不足に付きわかりませんでした。JIS X0213:2004ではU+2xxxx辺りに振られている文字は、Unicodeコンソーシアムでは「選定中」(↓)と言うこと?
基本多言語面(BMP)と呼ばれる16ビットで表現できる部分(プレーン)の標準化を終え、残りの16面(補足プレーン)の文字を選定中である。
*
実のところ、X0201,X0208,X0212の文字について扱うEUC-JPのことを考えた時、「3バイトEUCになる文字などは数値文字参照にする」だけ(それが簡単なことかは兎も角)ですむと考えていました。
が、X0213もあるでよ、と言う話になってくると、理解の範疇を超えてしまったかもしれません。
X0213にしか無い文字、を入力できるシステムも出てきているけれど、文字符号化方式としてShift_JIS2004,EUC-JIS2004などはIANAに登録されておらず、(現時点で)Web上で扱うには無理がある、と言う認識(*1)では居たため、意図的に気にしていませんでした。それでもJIS X 0213の規格書にUCSのコードポイントが振ってある、と言うことで数値文字参照:&#xHHHHH;(4,5桁の16進)で表せられればそれほど問題じゃないかと思ってました。(表示できるUAは少ないだろうけど)。
ただ、上記でnaka64さんが「数値文字参照にすることもかなわない」と書かれてしまったので、わからなくなってしまいました。orz
(*1)参考:2000年のX0213制定後、「青空文庫」がShift_JISX0213を使用した事に対する苦言(?)
第2部第10回、第11回で、『青空文庫』( http://aozora.gr.jp/ )が0213のシフトJIS(Shift_JISX0213)を使って入力したテキストを公開していることを紹介した。これについて川俣晶さんから、「インターネット上でShift_JISX0213を使ったHTML文書を公開することには問題がある」という指摘をいただいた。私も川俣さんの指摘は正しいと思う。以下に転載したい。
http://internet.watch.impress.co.jp/www/column/ogata/part2_13.htm
*
(5)現時点で出そうと思っているアイデアの行方
……まぁいいや。とりあえずは
- Unicodeのページがあり(この時点で &#xHHHHH;で表記できない文字はない、とする)、ここからデータを取得する物とする。
- X0208で表記できる文字はEUC-JPに変換できる(現状通り)
- X0212で表記できる文字は、現状では3バイトEUCになるけれど、数値文字参照にして欲しい
- JIS Xなんとか、で表記できない文字も数値文字参照にして欲しい
という考えで、「OS Xなどから入力したX0213にしか存在しない文字」については(次期Windowsが出て同様の文字が入力できるようになったら?)またその時に、と言うことで。
# 自分の手持ちマシンで「JIS X 0213にしか存在しない文字」を入力できるわけではないので、どうしても理解もしずらく、テストも出来ないわけで。
## 青空文庫見るための「JIS X 0213文字入りフォント」ってUnicodeフォントじゃないのか?何もかもが判らん……。2000年時点では16ビットに収まるように仮のUnicode番号が振ってあったのでそれに入れてあるとか…謎。