Postgresql去重函数distinct的用法说明

在项目中我们常会对数据进行去重处理，有时候会用in或者EXISTS函数。或者通过group by也是可以实现查重

不过 Postgresql 还有自带去重函数： distinct

下面是distinct 的实例：

1、创建表：user

								
									 CREATE   TABLE   `  user  ` ( 

									    `  name  `   varchar  (30)   DEFAULT   NULL  , 

									    `age`   int  (11)   DEFAULT   NULL 

									 ) ENGINE=InnoDB   DEFAULT   CHARSET=utf8; 

									 INSERT   INTO   `  user  `   VALUES   (  '张三'  , 20); 

									 INSERT   INTO   `  user  `   VALUES   (  '李四'  , 22); 

									 INSERT   INTO   `  user  `   VALUES   (  '李四'  , 20); 

									 INSERT   INTO   `  user  `   VALUES   (  '张三'  , 22); 

									 INSERT   INTO   `  user  `   VALUES   (  '张三'  , 20);

查询结果：

SELECT * FROM user

张三 20

李四 22

李四 20

张三 22

张三 20

2、根据 name 查询去重后的数据：

SELECT distinct name FROM user

张三

李四

3、根据name 和 age 查询去重后的数据：

SELECT distinct name ,age FROM user

张三 20

李四 22

李四 20

张三 22

4、根据name,age查询重复数据数：

SELECT distinct name ,age, count (*) 数据条数 FROM user GROUP BY name ,age

张三 20 2

张三 22 1

李四 20 1

李四 22 1

二、查出重复数据后，我们需要删除重复数据

删除重复数据一般几种方式，一般采用临时表或者根据某个字段，例如id等，通过max或者min函数去重。

补充：基于postgresql ctid实现数据的差异同步

项目背景：

最近在做异构数据同步方面（非实时）的工作，从oracle,gbase,postgresql向mysql数据库中同步，对于没有自增字段（自增ID或时间字段）的业务表，做差异同步是一件非常麻烦的事情，主要体现在记录的新增、更新与删除上

备注：源库只提供一个只读权限的用户

ctid在pg中的作用

ctid是用来指向自身或新元组的元组标识符，怎么理解呢？下面能过几个实验来测试一下

satdb=# create table test_ctid(id int , name varchar (100));

satdb=# insert into test_ctid values (1,‘a '),(1,‘a' );

satdb=# insert into test_ctid values (2,‘a '),(3,‘a' );

查看记录的ctid值

satdb=# select id, name ,ctid from test_ctid;

id | name | ctid

----±-----±------

1 | a | (0,1)

1 | a | (0,2)

2 | a | (0,3)

3 | a | (0,4)

(4 rows )

对id为2的记录进行更新

1 2	satdb=# update test_ctid set name =‘b' where id=2; UPDATE 1

这里可以看到id=2的记录指向了新的元组标识符 (0,5)

								
									 satdb=#   select   id,  name  ,ctid   from   test_ctid; 

									 id |   name   | ctid 

									 ----±-----±------ 

									 1 | a | (0,1) 

									 1 | a | (0,2) 

									 3 | a | (0,4) 

									 2 | b | (0,5) 

									 (4   rows  ) 

									 satdb=#   select   *   from   test_ctid   where   ctid=  '(0,1)'  ; 

									 id |   name 

									 ----±----- 

									 1 | a 

									 (1 row)

删除 id=3的记录后，对应的ctid(0,4)不存在了

								
									 satdb=#   delete   from   test_ctid   where   id=3; 

									 DELETE   1 

									 satdb=#   select   *,ctid   from   test_ctid; 

									 id |   name   | ctid 

									 ----±-----±------ 

									 1 | a | (0,1) 

									 1 | a | (0,2) 

									 2 | b | (0,5) 

									 (3   rows  )

再插入一条记录时，看看会不会使用(0,4)这个标识符

								
									 satdb=#   insert   into   test_ctid   values  (3,‘d'); 

									 INSERT   0 1 

									 satdb=#   select   *,ctid   from   test_ctid; 

									 id |   name   | ctid 

									 ----±-----±------ 

									 1 | a | (0,1) 

									 1 | a | (0,2) 

									 2 | b | (0,5) 

									 3 | d | (0,6)

这里新插入的记录不会使用(0,4)，而是直接分配新的标识符(0,6)

总结：

1、ctid的作用与oracle rowid类似，可以唯一标识一条记录

2、记录的更新后，后生产新的ctid

3、记录删除后，新插入的记录不会使用已经删除记录的ctid

4、基于ctid可以实现记录的去重操作

5、基于ctid可以实现差异增量同步(新增、删除、更新)

以上为个人经验，希望能给大家一个参考，也希望大家多多支持服务器之家。如有错误或未考虑完全的地方，望不吝赐教。

原文链接：https://blog.csdn.net/Tastill/article/details/80005901

声明：本文来自网络，不代表【好得很程序员自学网】立场，转载请注明出处：http://www.haodehen.cn/did229552

更新时间：2023-05-14 阅读：130次