Skip to content

字符集

概述

GB18030全称《信息技术中文编码字符集》,共收录七万多个汉字和字符,它在GBK(《汉字内码扩展规范》)的基础上增加了中日韩语中的汉字和少数民族的文字及字符,完全兼容GB2312(《信息交换用汉字编码字符集》),基本兼容GBK。

GB18030目前共发布过三个版本:

  • 第一版于2000年发布,称为GB18030-2000
  • 第二版于2005年发布,称为GB18030-2005
  • 第三版于2022年发布,称为GB18030-2022

虚谷数据库专注于GB18030-2022编码与Unicode编码的映射关系,不涉及新字符字形的展示,而是运算存储这些编码。

GB18030-2005标准中的部分字符在Unicode中无对应码位,故临时映射至Unicode BMP(Basic Multilingual Plane,基本多语言平面)的PUA(Private Use Area,私人使用区)。随着Unicode升级至5.0,这些字符获得了标准码位,GB18030-2022标准对18个字符的Unicode映射进行了调整,导致与GB18030-2005标准在Unicode映射上不兼容。

虚谷数据库V12.5新增GB18030_2022字符集,使用GB18030-2022标准;保留GB18030字符集,使用GB18030-2005标准。

使用GB18030_2022字符集

虚谷数据库目前支持库级字符集,创建库时,指定GB18030_2022字符集即可。

SQL
SQL> CREATE DATABASE DB_TEST CHAR SET 'GB18030_2022';
SQL> SELECT db_name,char_set from dba_databases WHERE db_name='DB_TEST';

DB_NAME | CHAR_SET | 
------------------------------------------------------------------------------
DB_TEST| GB18030_2022|

说明:

  • GB18030_2022字符集为虚谷数据库定义字符集名。
  • 客户端程序(如JDBC连接数据库的程序)在接收数据时应当使用操作系统支持的字符集。