在实际工作学习中,我们总会碰到要求删除重复数据的问题。网上也有很多,不过找了网上各位高手写的文章后,现在总结下如何在mysql中查询和删除重复的数据。
比如我们有这样子一个简单的表:
mysql> desc demo;
+——-+——————+——+—–+———+—————-+
| Field | Type | Null | Key | Default | Extra |
+——-+——————+——+—–+———+—————-+
| id | int(11) unsigned | NO | PRI | NULL | auto_increment |
| site | varchar(100) | NO | MUL | | |
+——-+——————+——+—–+———+—————-+
id是主键。
查询下数据:
mysql> select * from demo order by id;
+—-+————————+
| id | site |
+—-+————————+
| 1 | http://www.CodeBit.cn |
| 2 | http://YITU.org |
| 3 | http://www.ShuoWen.org |
| 4 | http://www.CodeBit.cn |
| 5 | http://www.ShuoWen.org |
+—-+————————+
可以看到id=1和id=4,id=3和id=5数据是相同的。
首先我们可以查询哪些数据是相同的,比如:
mysql> select * from demo
where id in (select id from demo group by id having count(id) > 1)
接下来如何删除这些重复的数据呢?
当没有创建表或创建索引权限的时候,可以用下面的方法:
如果你要删除较旧的重复记录,可以使用下面的语句:
mysql> delete from a
-> using demo as a, demo as b
-> where (a.id > b.id)
-> and (a.site = b.site);
或者:
如果你要删除较新的重复记录,可以使用下面的语句:
mysql> delete from a
-> using demo as a, demo as b
-> where (a.id < b.id)
-> and (a.site = b.site);
你可以用下面的语句先确认将被删除的重复记录:
如果有创建索引的权限,可以用下面的方法:
在表上创建唯一键索引:
mysql> alter ignore table demo add unique index ukey (site);
mysql> select * from demo order by id;
+—-+————————+
| id | site |
+—-+————————+
| 1 | http://www.CodeBit.cn |
| 2 | http://YITU.org |
| 3 | http://www.ShuoWen.org |
+—-+————————+
重复记录被删除后,如果需要,可以删除索引:
mysql> alter table demo drop index ukey;
Query OK, 3 rows affected (0.37 sec)
Records: 3 Duplicates: 0 Warnings: 0
如果有创建表的权限,可以用下面的方法:
创建一个新表,然后将原表中不重复的数据插入新表:
mysql> create table demo_new as select * from demo group by site;
mysql> show tables;
+—————-+
| Tables_in_test |
+—————-+
| demo |
| demo_new |
+—————-+
mysql> select * from demo_new order by id;
+—-+————————+
| id | site |
+—-+————————+
| 1 | http://www.CodeBit.cn |
| 2 | http://YITU.org |
| 3 | http://www.ShuoWen.org |
+—-+————————+
然后将原表备份,将新表重命名为当前表:
mysql> rename table demo to demo_old, demo_new to demo;
mysql> show tables;
+—————-+
| Tables_in_test |
+—————-+
| demo |
| demo_old |
+—————-+
mysql> select * from demo order by id;
+—-+————————+
| id | site |
+—-+————————+
| 1 | http://www.CodeBit.cn |
| 2 | http://YITU.org |
| 3 | http://www.ShuoWen.org |
+—-+————————+
注意:使用这种方式创建的表会丢失原表的索引信息!
mysql> desc demo;
+——-+——————+——+—–+———+——-+
| Field | Type | Null | Key | Default | Extra |
+——-+——————+——+—–+———+——-+
| id | int(11) unsigned | NO | | 0 | |
| site | varchar(100) | NO | | | |
+——-+——————+——+—–+———+——-+
如果要保持和原表信息一致,你可以使用 show create table demo; 来查看原表的创建语句,然后使用原表的创建语句创建新表,接着使用 insert … select 语句插入数据,再重命名表即可。当然,如果要避免重复记录,最好的办法还是不要插入重复数据。