好得很程序员自学网

<tfoot draggable='sEl'></tfoot>

PostgreSQL的中文拼音排序案例

前一段时间开发人员咨询,说postgresql里面想根据一个字段做 中文 的 拼音 排序 ,但是不得其解

环境:

 

OS:CentOS 6.3

DB: PostgreSQL 9.2.4

TABLE: tbl_kenyon

场景:

 

?

1

2

3

4

5

postgres=# \d tbl_kenyon

   Table "public.tbl_kenyon"

  Column | Type |  Modifiers 

--------+------+---------------

  vname | text |

--使用排序后的结果,不是很理想

?

1

2

3

4

5

6

7

8

postgres=# select vname from tbl_kenyon order by vname;

  vname

-------

  上海

  北京

  杭州

  浙江

(4 rows )

说明:

 

postgresql的排序除了受到数据库的编码影响外,还有一个初始化参数是locale也会影响(initdb),,通常我的选择是C,这可以让postgres数据库通过strcmp()这个函数来比较字符串,而不是strcoll()函数。

这个参数可以在数据库里查看,如

?

1

2

3

4

5

6

7

8

9

10

11

postgres=# \l

                 List of databases

    Name     | Owner  | Encoding | Collate | Ctype |  Access privileges

-----------------+----------+----------+---------+-------+-----------------------

  dkenyon     | u_kenyon | UTF8   | C    | C   |

  postgres    | postgres | UTF8   | C    | C   |

  template0    | postgres | UTF8   | C    | C   | =c/postgres     +

          |     |     |     |    | postgres=CTc/postgres

  template1    | postgres | UTF8   | C    | C   | =c/postgres     +

          |     |     |     |    | postgres=CTc/postgres

(6 rows )

--简体中文在系统表里的支持

?

1

2

3

4

5

6

7

8

9

10

postgres=# select collname,collcollate,collctype,b.nspname,c.rolname as collowner

postgres-# from pg_collation a,pg_namespace b,pg_authid c

postgres-# where a.collnamespace = b.oid and a.collowner = c.oid and lower (collname) like '%zh_cn%' ;

   collname  | collcollate | collctype  | nspname  | collowner

--------------+--------------+--------------+------------+-----------

  zh_CN    | zh_CN    | zh_CN    | pg_catalog | postgres

  zh_CN    | zh_CN.utf8  | zh_CN.utf8  | pg_catalog | postgres

  zh_CN.gb2312 | zh_CN.gb2312 | zh_CN.gb2312 | pg_catalog | postgres

  zh_CN.utf8  | zh_CN.utf8  | zh_CN.utf8  | pg_catalog | postgres

(4 rows )

因为初始化时选择的locale是C,所以数据库的默认排序也是C,要想字段内容按照中文拼音排序,需要将UTF8格式存储的内容转换为GBK方式。

解决办法:

 

1.转换字段的方式,加个convert_to前缀函数

?

1

2

3

4

5

6

7

8

9

postgres=# select vname from tbl_kenyon order by convert_to(vname, 'GBK' );

  vname

 

-------

  北京

  杭州

  上海

  浙江

(4 rows )

--convert_to函数输入参数是text形式,输出编码是bytea形式,是将字符转换为目标编码的函数,如

?

1

2

3

4

5

postgres=# select convert_to( '浙江' , 'UTF8' ),( '浙江' , 'GBK' );

   convert_to  |  row  

----------------+------------

  \xe6b599e6b19f | (浙江,GBK)

(1 row)

2.列指定zh_cn的方式存储

?

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

31

32

postgres=# alter table tbl_kenyon add cname text collate "zh_CN" ;

ALTER TABLE

postgres=# \d tbl_kenyon

   Table "public.tbl_kenyon"

  Column | Type |  Modifiers 

--------+------+---------------

  vname | text |

  cname | text | collate zh_CN

postgres=# select * from tbl_kenyon;

  vname | cname

-------+-------

  浙江 | 浙江

  杭州 | 杭州

  上海 | 上海

  北京 | 北京

(4 rows )

postgres=# select * from tbl_kenyon order by vname;

  vname | cname

-------+-------

  上海 | 上海

  北京 | 北京

  杭州 | 杭州

  浙江 | 浙江

(4 rows )

postgres=# select * from tbl_kenyon order by cname;

  vname | cname

-------+-------

  北京 | 北京

  杭州 | 杭州

  上海 | 上海

  浙江 | 浙江

(4 rows )

3.查询时指定collate

?

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

postgres=# select * from tbl_kenyon order by vname collate "C" ;

  vname | cname

-------+-------

  上海 | 上海

  北京 | 北京

  杭州 | 杭州

  浙江 | 浙江

(4 rows )

postgres=# select * from tbl_kenyon order by vname collate "zh_CN" ;

  vname | cname

-------+-------

  北京 | 北京

  杭州 | 杭州

  上海 | 上海

  浙江 | 浙江

(4 rows )

其他问题:

 

1.在用了方法一的convert_to函数转换一段时间后,开发告诉我说有异常,报错 character with byte sequence 0xc2 0xae in encoding "UTF8" has no equivalent in encoding "GBK"

?

1

2

Error querying database . Cause: org.postgresql.util.PSQLException: ERROR: character with byte sequence 0xc2 0xae in

  encoding "UTF8" has no equivalent in encoding "GBK"

排查了一下,发现数据库里存了一些比较奇怪的字符导致的,比如Mircle&reg; city,niwhite&reg;town。后对该表重建了一下,用方法二解决,所以convert_to函数使用对一些奇怪的字符转换时需要注意。

2.对于多音字,仍然会产生一定的歧义,比如重庆,会按Z去排序

上述办法能满足大部分汉字的拼音排序,但仍有一些不足。比较理想的解决办法是对这类基础数据录入时就指定拼音规则,或者数据库里存一份数据的拼音字典来关联使用。

其他:

使用zh_cn存储时测试字段大小,未测试取值速度

?

1

2

3

4

5

6

7

8

9

10

11

12

13

postgres=# insert into tbl_kenyon select repeat( '浙江GDOOASASHOME爱你' ,5000), repeat( '浙江GDOOASASHOME爱你' ,5000) ;

INSERT 0 1

postgres=# insert into tbl_kenyon select repeat( '浙江GDOOASASHOME爱你' ,50000), repeat( '浙江GDOOASASHOME爱你' ,50000) ;

INSERT 0 1

postgres=# insert into tbl_kenyon select repeat( '浙江GDOOASASHOME爱你' ,100000), repeat( '浙江GDOOASASHOME爱你' ,100000) ;

INSERT 0 1

postgres=# select pg_column_size(cname),pg_column_size(vname) from tbl_kenyon ;

  pg_column_size | pg_column_size

----------------+----------------

       1410 |      1406

      13769 |     13769

      27506 |     27506

(3 rows )

存储差异并不大

补充

?

1

2

#高版本可能不支持,或者语法不对?

select * from store order by storename collate 'zh_CN' ;

以上为个人经验,希望能给大家一个参考,也希望大家多多支持服务器之家。如有错误或未考虑完全的地方,望不吝赐教。

原文链接:https://my.oschina.net/Kenyon/blog/183063

查看更多关于PostgreSQL的中文拼音排序案例的详细内容...

  阅读:38次