字符集
概述
GB18030全称《信息技术中文编码字符集》,共收录七万多个汉字和字符,它在GBK(《汉字内码扩展规范》)的基础上增加了中日韩语中的汉字和少数民族的文字及字符,完全兼容GB2312(《信息交换用汉字编码字符集》),基本兼容GBK。
GB18030目前共发布过三个版本:
- 第一版于2000年发布,称为GB18030-2000
- 第二版于2005年发布,称为GB18030-2005
- 第三版于2022年发布,称为GB18030-2022
虚谷数据库专注于GB18030-2022编码与Unicode编码的映射关系,不涉及新字符字形的展示,而是运算存储这些编码。
GB18030-2005标准中的部分字符在Unicode中无对应码位,故临时映射至Unicode BMP(Basic Multilingual Plane,基本多语言平面)的PUA(Private Use Area,私人使用区)。随着Unicode升级至5.0,这些字符获得了标准码位,GB18030-2022标准对18个字符的Unicode映射进行了调整,导致与GB18030-2005标准在Unicode映射上不兼容。
虚谷数据库V12.5新增GB18030_2022字符集,使用GB18030-2022标准;保留GB18030字符集,使用GB18030-2005标准。
使用GB18030_2022字符集
虚谷数据库目前支持库级字符集,创建库时,指定GB18030_2022字符集即可。
SQL
SQL> CREATE DATABASE DB_TEST CHAR SET 'GB18030_2022';
SQL> SELECT db_name,char_set from dba_databases WHERE db_name='DB_TEST';
DB_NAME | CHAR_SET |
------------------------------------------------------------------------------
DB_TEST| GB18030_2022|
说明:
- GB18030_2022字符集为虚谷数据库定义字符集名。
- 客户端程序(如JDBC连接数据库的程序)在接收数据时应当使用操作系统支持的字符集。