CJKV

CJKVを表す漢字。縦書き順に「越」
画像提供依頼:地域を示す地図の画像提供をお願いします。2023年2月

CJKV は、中国語日本語朝鮮語ベトナム語 (: Chinese-Japanese-Korean-Vietnamese) の略。特に、その四言語で共通して使われる、または使われていた文字体系である漢字チュノムを含む)のこと。ソフトウェア国際化、中でも文字コードに関する分野で用いられる。

比較的早くに漢字を廃止し、漢字に含めるべきか諸説あるチュノムを擁するベトナム語を除いた中国語日本語朝鮮語の頭文字だけをとって CJK と呼ぶこともある。主な東アジア書記系を総称するときに用いられる。用語の使用頻度は CJKV より CJK のほうが多いが、CJK と言いながら実際は CJKV について述べていることも多い。

特徴

マルチバイト文字

中国語・日本語・朝鮮語をコンピュータで扱う場合、英数字とプログラミングや操作に使われる記号に加え、漢字平仮名片仮名ハングルが必要となる。これらの文字集合は、欧米の言語の多くが用いているようなアルファベットとは異なり、1 バイト (8ビット) で表現できる文字の総数を大きく越えている。このため、これらの言語ではマルチバイト文字を使うことになる。

文字の入力

漢字・平仮名・片仮名・ハングル(特に漢字)は文字集合が大きいので、すべての文字をキーボードに直接割り当てると巨大なものとなり、習得は難しくなってしまう。そのため現在では、英字キーボード、もしくはそれにいくつかのキーを追加したキーボードとソフトウェアによるインプットメソッドを使用して入力することが一般的である。そのためには入力先となるソフトウェアが、使用しているインプットメソッドに対応している必要がある。

漢字を用いる日本語と中国語では、読みを入力してソフトウェアで変換を行い、目的の表記を得る種類のインプットメソッドが一般的である(Microsoft IMEGoogle 日本語入力ATOKSKK など)。読みによるインプットメソッドは、さらに変換の区切りによって漢字 1 文字を単位とする単漢字変換、漢字熟語と助詞で構成される文節の並びを単位とする連文節変換などに分けられる。中国語では文字全体の形状の分類と一部の筆画を与えて漢字を特定する五筆字型輸入法など、字の構造に基づくインプットメソッドも使われている[1]。 朝鮮語のインプットメソッドでは、ハングルを構成する要素であるチャモ(字母)単位で入力を行う方法が一般的である[2]

組版

主に紙面上の文書を作る際、CJKV では欧米言語と異なる組版の方法が必要になる。

縦書き縦組み)はその一つである。コンピュータのテキスト表示および処理は元来横書きであったが、CJK/CJKV のテキストは伝統的に縦書きであるため、組版では縦書きへの対応が求められる。その際には単に縦に表示するだけではなく、文字の間隔や配置を縦書き対応にしなければならない[3]

詳細は「縦書きと横書き」を参照

また、CJKV の組版では縦組み、横組みのどちらであっても、正方形で構成される格子上に文字を配置する機能が求められる。これは、漢字・平仮名・片仮名・ハングルなど CJKV 特有の文字の大半が、正方形に合う字形を持つためである。しかし、一部の記号やラテン文字はそうでないため、それらが混在する文書では縦書き用文字への置き換えなど、複雑な処理が必要になる[4]

CJKV に適用できる組版規則を定めた規格としては、JIS X 4051-1995 (2004年に改正)が知られている[5]

文字コード規格

Unicode

UnicodeCJK統合漢字は、ベトナムの符号化文字集合規格である TCVN 5773:1993 と TCVN 6056:1995 の漢字(チュニョチュノム)も原規格として統合しており、実態は CJKV である。例えば、「U+7551 畑」には、日本語の国字の「畑」 (JIS X 0208-1990 の 482A) とチュノムの「畑」 (TCVN 5773:1993 の 3C2F) が統合されている。

脚注

  1. ^ ランディ(2002)、pp.231-237
  2. ^ ランディ(2002)、pp.266-267
  3. ^ ランディ(2002)、p.347
  4. ^ ランディ(2002)、p.349
  5. ^ ランディ(2002)、pp.341-343

参考文献

関連項目

外部リンク

日本語用の
文字コード
JIS規格
符号化文字集合
文字符号化方式
文字一覧
JIS以外の公規格
メーカーの規格
符号化文字集合
文字符号化方式
日本語を含む
多言語文字集合
Unicode
ISO/IEC 10646
JIS X 0221
文字符号化方式
文字一覧
TRONコード
日本語以外用の
文字集合
初期の文字コード
ISO/IEC 8859
書誌用
  • ISO 5426
  • ISO 5426-2
  • ISO 5427
  • ISO 5428
  • ISO 6438
  • ISO 6861
  • ISO 6862
  • ISO 9036
  • ISO 10585
  • ISO 10586
  • ISO 10754
  • ISO 11822
  • ANSEL
  • MARC-8
国家標準
EUC
ISO/IEC 2022
  • ISO/IEC 2022 CN
  • ISO/IEC 2022 KR
  • CCCII
MacOS
コードページ
  • Macintosh Standard Roman Character Set
  • アラビア語
  • CentralEurRoman
  • EUC-CN
  • Big5
  • クロアチア語
  • キリル
  • デーヴァナーガリー
  • Dingbats
  • ペルシャ語
  • ギリシア語
  • グジャラート語
  • グルムキー
  • ヘブライ語
  • アイスランド語
  • EUC-KR
  • ルーマニア語
  • MacSymbol
  • TIS-620
  • トルコ語
  • ウクライナ語
DOS
コードページ
  • 437
  • 720
  • 737
  • 775
  • 850
  • 852
  • 855
  • 857
  • 858
  • 860
  • 861
  • 862
  • 863
  • 864
  • 865
  • 866
  • 869
  • KOI8
  • Kamenicky
  • Mazovia
  • MIK
  • Iran System
Windows
コードページ
EBCDIC
コードページ
  • 37
  • 293(英語版)
  • 300(英語版)
  • 310(英語版)
  • 351(英語版)
  • 353(英語版)
  • 355(英語版)
  • 357(英語版)
  • 358(英語版)
  • 359(英語版)
  • 360(英語版)
  • 819
  • 930(英語版)
  • 933(英語版)
  • 939(英語版)
  • 1364(英語版)
  • 1390(英語版)
  • 1399(英語版)
  • 8859(英語版)
その他標準
記号用
プラットフォーム
固有
  • ATASCII
  • CDC display code
  • DEC Radix-50
  • Fieldata
  • GSM 03.38
  • HP roman8
  • PETSCII
  • TI calculator character sets
  • ZX Spectrum character set
ソフトウェア
区分け
概念
関連トピック
カテゴリ カテゴリ
Windowsのインプットメソッド
  • IMM32
  • AIMM
  • TSF
  • CUAS
  • InputScope
Unix系OSのインプットメソッド
macOSのインプットメソッド
  • Text Services Manager
  • Input Method Kit
  • MacUIM
  • OpenVanilla
他のOSのインプットメソッド
  • Java Input Method Framework
日本語入力システム
開発停止
中国語入力システム
ハングル入力システム
  • 2ボル式
  • en:Keyboard_layout#East_Asian_languages
ベトナム語入力システム
  • Telex
手書き文字認識エンジン
漢字入力方法
キー配列 - かな入力 - ローマ字入力 - ローマ字かな変換 - 入力予測 - 自動補完
  • 表示
  • 編集
スタブアイコン

この項目は、文字文字学に関連した書きかけの項目です。この項目を加筆・訂正などしてくださる協力者を求めています(P:文字)。

  • 表示
  • 編集