Java中List去重和Stream去重的示例分析

这篇文章主要介绍了Java中List去重和Stream去重的示例分析，具有一定借鉴价值，感兴趣的朋友可以参考下，希望大家阅读完这篇文章之后大有收获，下面让小编带着大家一起了解一下。

成都创新互联公司-专业网站定制、快速模板网站建设、高性价比正安网站开发、企业建站全套包干低至880元,成熟完善的模板库,直接使用。一站式正安网站制作公司更省心,省钱,快速模板网站建设找我们，业务覆盖正安地区。费用合理售后完善，十余年实体公司更值得信赖。

问题

当下互联网技术成熟，越来越多的趋向去中心化、分布式、流计算，使得很多以前在数据库侧做的事情放到了Java端。今天有人问道，如果数据库字段没有索引，那么应该如何根据该字段去重？大家都一致认为用Java来做，但怎么做呢？

解答

忽然想起以前写过list去重的文章，找出来一看。做法就是将list中对象的hashcode和equals方法重写，然后丢到HashSet里，然后取出来。这是最初刚学Java的时候像被字典一样背写出来的答案。就比如面试，面过号称做了3年Java的人，问Set和HashMap的区别可以背出来，问如何实现就不知道了。也就是说，初学者只背特性。但真正在项目中使用的时候你需要确保一下是不是真的这样。因为背书没用，只能相信结果。你需要知道HashSet如何帮我做到去重了。换个思路，不用HashSet可以去重吗？最简单，最直接的办法不就是每次都拿着和历史数据比较，都不相同则插入队尾。而HashSet只是加速了这个过程而已。

首先，给出我们要排序的对象User

@Data
@Builder
@AllArgsConstructor
public class User {
 private Integer id;
 private String name;
}
List users = Lists.newArrayList(
    new User(1, "a"),
    new User(1, "b"),
    new User(2, "b"),
    new User(1, "a"));

目标是取出id不重复的user，为了防止扯皮，给个规则，只要任意取出id唯一的数据即可，不用拘泥id相同时算哪个。

用最直观的办法

这个办法就是用一个空list存放遍历后的数据。

@Test
public void dis1() {
  List result = new LinkedList<>();
  for (User user : users) {
   boolean b = result.stream().anyMatch(u -> u.getId().equals(user.getId()));
   if (!b) {
    result.add(user);
   }
  }
  System.out.println(result);
}

用HashSet

背过特性的都知道HashSet可以去重，那么是如何去重的呢？再深入一点的背过根据hashcode和equals方法。那么如何根据这两个做到的呢？没有看过源码的人是无法继续的，面试也就到此结束了。

事实上，HashSet是由HashMap来实现的(没有看过源码的时候曾经一直直观的以为HashMap的key是HashSet来实现的，恰恰相反)。这里不展开叙述，只要看HashSet的构造方法和add方法就能理解了。

public HashSet() {
  map = new HashMap<>();
}
/**
* 显然，存在则返回false，不存在的返回true
*/
public boolean add(E e) {
  return map.put(e, PRESENT)==null;
}

那么，由此也可以看出HashSet的去重复就是根据HashMap实现的，而HashMap的实现又完全依赖于hashcode和equals方法。这下就彻底打通了，想用HashSet就必须看好自己的这两个方法。

在本题目中，要根据id去重，那么，我们的比较依据就是id了。修改如下：

@Override
public boolean equals(Object o) {
  if (this == o) {
   return true;
  }
  if (o == null || getClass() != o.getClass()) {
   return false;
  }
  User user = (User) o;
  return Objects.equals(id, user.id);
}
@Override
public int hashCode() {
  return Objects.hash(id);
}
//hashcode
result = 31 * result + (element == null ? 0 : element.hashCode());

其中， Objects调用Arrays的hashcode，内容如上述所示。乘以31等于x<<5-x。

最终实现如下：

@Test
public void dis2() {
  Set result = new HashSet<>(users);
  System.out.println(result);
}

使用Java的Stream去重

回到最初的问题，之所以提这个问题是因为想要将数据库侧去重拿到Java端，那么数据量可能比较大，比如10w条。对于大数据，采用Stream相关函数是最简单的了。正好Stream也提供了distinct函数。那么应该怎么用呢？

users.parallelStream().distinct().forEach(System.out::println);

没看到用lambda当作参数，也就是没有提供自定义条件。幸好Javadoc标注了去重标准：

Returns a stream consisting of the distinct elements
(according to {@link Object#equals(Object)}) of this stream.

我们知道，也必须背过这样一个准则：equals返回true的时候，hashcode的返回值必须相同. 这个在背的时候略微有些逻辑混乱，但只要了解了HashMap的实现方式就不会觉得拗口了。HashMap先根据hashcode方法定位，再比较equals方法。

所以，要使用distinct来实现去重，必须重写hashcode和equals方法，除非你使用默认的。

那么，究竟为啥要这么做？点进去看一眼实现。

 Node reduce(PipelineHelper helper, Spliterator spliterator) {
  // If the stream is SORTED then it should also be ORDERED so the following will also
  // preserve the sort order
  TerminalOp> reduceOp
      = ReduceOps.>makeRef(LinkedHashSet::new, LinkedHashSet::add,                           LinkedHashSet::addAll);
  return Nodes.node(reduceOp.evaluateParallel(helper, spliterator));
}

内部是用reduce实现的啊，想到reduce，瞬间想到一种自己实现distinctBykey的方法。我只要用reduce，计算部分就是把Stream的元素拿出来和我自己内置的一个HashMap比较，有则跳过，没有则放进去。其实，思路还是最开始的那个最直白的方法。

@Test
public void dis3() {
  users.parallelStream().filter(distinctByKey(User::getId))
    .forEach(System.out::println);
}
public static  Predicate distinctByKey(Function keyExtractor) {
  Set

甜橘子，专注成都网站制作网站设计与营销型网站建设与优化

首页

网站建设

网站制作案例

解决方案

网站设计报价

网站制作动态

关于我们

联系我们

成都网站建设设计将想法与焦点和您一起共享

Java中List去重和Stream去重的示例分析

其他资讯

flutter高刷新率,flutter 刷新

flutter开发鸿蒙,flutter 开源项目

php读取全部数据,php读取全部数据的函数

nosql异步控制的简单介绍

jquery下拉列表,js下拉列表

甜橘子，专注成都网站制作网站设计与营销型网站建设与优化

成都网站建设设计 将想法与焦点和您一起共享

Java中List去重和Stream去重的示例分析

其他资讯

flutter高刷新率,flutter 刷新

flutter开发鸿蒙,flutter 开源项目

php读取全部数据,php读取全部数据的函数

nosql异步控制的简单介绍

jquery下拉列表,js下拉列表

成都网站建设设计将想法与焦点和您一起共享