好得很程序员自学网

<tfoot draggable='sEl'></tfoot>

Postgresql去重函数distinct的用法说明

在项目中我们常会对数据进行 去重 处理,有时候会用in或者EXISTS函数。或者通过group by也是可以实现查重

不过 Postgresql 还有自带去重函数: distinct

下面是distinct 的实例:

 

1、创建表:user

?

1

2

3

4

5

6

7

8

9

CREATE TABLE ` user ` (

  ` name ` varchar (30) DEFAULT NULL ,

  `age` int (11) DEFAULT NULL

) ENGINE=InnoDB DEFAULT CHARSET=utf8;

INSERT INTO ` user ` VALUES ( '张三' , 20);

INSERT INTO ` user ` VALUES ( '李四' , 22);

INSERT INTO ` user ` VALUES ( '李四' , 20);

INSERT INTO ` user ` VALUES ( '张三' , 22);

INSERT INTO ` user ` VALUES ( '张三' , 20);

查询结果:

?

1

2

3

4

5

6

SELECT * FROM user

张三 20

李四 22

李四 20

张三 22

张三 20

2、根据 name 查询去重后的数据:

?

1

2

3

SELECT distinct name FROM user

张三

李四

3、根据name 和 age 查询去重后的数据:

?

1

2

3

4

5

SELECT distinct name ,age FROM user

张三 20

李四 22

李四 20

张三 22

4、根据name,age查询重复数据数:

?

1

2

3

4

5

SELECT distinct name ,age, count (*) 数据条数 FROM user GROUP BY name ,age

张三 20 2

张三 22 1

李四 20 1

李四 22 1

二、查出重复数据后,我们需要删除重复数据

 

删除重复数据一般几种方式,一般采用 临时表 或者根据 某个字段,例如id等,通过max或者min函数去重。

 补充:基于postgresql ctid实现数据的差异同步

项目背景:

最近在做异构数据同步方面(非实时)的工作,从oracle,gbase,postgresql向mysql数据库中同步,对于没有自增字段(自增ID或时间字段)的业务表,做差异同步是一件非常麻烦的事情,主要体现在记录的新增、更新与删除上

备注:源库只提供一个只读权限的用户

ctid在pg中的作用

ctid是用来指向自身或新元组的元组标识符,怎么理解呢?下面能过几个实验来测试一下

?

1

2

3

satdb=# create table test_ctid(id int , name varchar (100));

satdb=# insert into test_ctid values (1,‘a '),(1,‘a' );

satdb=# insert into test_ctid values (2,‘a '),(3,‘a' );

查看记录的ctid值

?

1

2

3

4

5

6

7

8

satdb=# select id, name ,ctid from test_ctid;

id | name | ctid

----±-----±------

1 | a | (0,1)

1 | a | (0,2)

2 | a | (0,3)

3 | a | (0,4)

(4 rows )

对id为2的记录进行更新

?

1

2

satdb=# update test_ctid set name =‘b' where id=2;

UPDATE 1

这里可以看到id=2的记录指向了新的元组标识符 (0,5)

?

1

2

3

4

5

6

7

8

9

10

11

12

13

satdb=# select id, name ,ctid from test_ctid;

id | name | ctid

----±-----±------

1 | a | (0,1)

1 | a | (0,2)

3 | a | (0,4)

2 | b | (0,5)

(4 rows )

satdb=# select * from test_ctid where ctid= '(0,1)' ;

id | name

----±-----

1 | a

(1 row)

删除 id=3的记录后,对应的ctid(0,4)不存在了

?

1

2

3

4

5

6

7

8

9

satdb=# delete from test_ctid where id=3;

DELETE 1

satdb=# select *,ctid from test_ctid;

id | name | ctid

----±-----±------

1 | a | (0,1)

1 | a | (0,2)

2 | b | (0,5)

(3 rows )

再插入一条记录时,看看会不会使用(0,4)这个标识符

?

1

2

3

4

5

6

7

8

9

satdb=# insert into test_ctid values (3,‘d');

INSERT 0 1

satdb=# select *,ctid from test_ctid;

id | name | ctid

----±-----±------

1 | a | (0,1)

1 | a | (0,2)

2 | b | (0,5)

3 | d | (0,6)

这里新插入的记录不会使用(0,4),而是直接分配新的标识符(0,6)

总结:

1、ctid的作用与oracle rowid类似,可以唯一标识一条记录

2、记录的更新后,后生产新的ctid

3、记录删除后,新插入的记录不会使用已经删除记录的ctid

4、基于ctid可以实现记录的去重操作

5、基于ctid可以实现差异增量同步(新增、删除、更新)

以上为个人经验,希望能给大家一个参考,也希望大家多多支持服务器之家。如有错误或未考虑完全的地方,望不吝赐教。

原文链接:https://blog.csdn.net/Tastill/article/details/80005901

查看更多关于Postgresql去重函数distinct的用法说明的详细内容...

  阅读:66次