账户合并

标签: 深度优先搜索 广度优先搜索 并查集 数组 哈希表 字符串 排序

难度: Medium

给定一个列表 accounts,每个元素 accounts[i] 是一个字符串列表,其中第一个元素 accounts[i][0] 是 名称 (name),其余元素是 emails 表示该账户的邮箱地址。

现在,我们想合并这些账户。如果两个账户都有一些共同的邮箱地址,则两个账户必定属于同一个人。请注意,即使两个账户具有相同的名称,它们也可能属于不同的人,因为人们可能具有相同的名称。一个人最初可以拥有任意数量的账户,但其所有账户都具有相同的名称。

合并账户后,按以下格式返回账户:每个账户的第一个元素是名称,其余元素是 按字符 ASCII 顺序排列 的邮箱地址。账户本身可以以 任意顺序 返回。

示例 1:

输入:accounts = [["John", "johnsmith@mail.com", "john00@mail.com"], ["John", "johnnybravo@mail.com"], ["John", "johnsmith@mail.com", "john_newyork@mail.com"], ["Mary", "mary@mail.com"]]
输出:[["John", 'john00@mail.com', 'john_newyork@mail.com', 'johnsmith@mail.com'],  ["John", "johnnybravo@mail.com"], ["Mary", "mary@mail.com"]]
解释:
第一个和第三个 John 是同一个人,因为他们有共同的邮箱地址 "johnsmith@mail.com"。 
第二个 John 和 Mary 是不同的人,因为他们的邮箱地址没有被其他帐户使用。
可以以任何顺序返回这些列表,例如答案 [['Mary','mary@mail.com'],['John','johnnybravo@mail.com'],
['John','john00@mail.com','john_newyork@mail.com','johnsmith@mail.com']] 也是正确的。

示例 2:

输入:accounts = [["Gabe","Gabe0@m.co","Gabe3@m.co","Gabe1@m.co"],["Kevin","Kevin3@m.co","Kevin5@m.co","Kevin0@m.co"],["Ethan","Ethan5@m.co","Ethan4@m.co","Ethan0@m.co"],["Hanzo","Hanzo3@m.co","Hanzo1@m.co","Hanzo0@m.co"],["Fern","Fern5@m.co","Fern1@m.co","Fern0@m.co"]]
输出:[["Ethan","Ethan0@m.co","Ethan4@m.co","Ethan5@m.co"],["Gabe","Gabe0@m.co","Gabe1@m.co","Gabe3@m.co"],["Hanzo","Hanzo0@m.co","Hanzo1@m.co","Hanzo3@m.co"],["Kevin","Kevin0@m.co","Kevin3@m.co","Kevin5@m.co"],["Fern","Fern0@m.co","Fern1@m.co","Fern5@m.co"]]

提示:

  • 1 <= accounts.length <= 1000
  • 2 <= accounts[i].length <= 10
  • 1 <= accounts[i][j].length <= 30
  • accounts[i][0] 由英文字母组成
  • accounts[i][j] (for j > 0) 是有效的邮箱地址

Submission

运行时间: 55 ms

内存: 18.5 MB

from collections import defaultdict
class UnionFind:
    def __init__(self, n):
        self.par = [i for i in range(n)]
        self.rank = [1]*n

    def find(self, x):
        while x != self.par[x]:
            self.par[x] = self.par[self.par[x]]
            x = self.par[x]
        return x

    def union(self, x1, x2):
        p1, p2 = self.find(x1), self.find(x2)
        if p1 == p2:
            return False
        if self.rank[p1] > self.rank[p2]:
            self.par[p2] = p1
            self.rank[p1] += self.rank[p2]
        else:
            self.par[p1] = p2
            self.rank[p2] += self.rank[p1]
        return True

class Solution:
    def accountsMerge(self, accounts: List[List[str]]) -> List[List[str]]:
        uf = UnionFind(len(accounts))
        emailToAcc = {}

        for i, a in enumerate(accounts):
            for e in a[1:]:
                if e in emailToAcc:
                    uf.union(i, emailToAcc[e])
                else:
                    emailToAcc[e] = i
        
        emailGroup = defaultdict(list)
        for e, i in emailToAcc.items():
            leader = uf.find(i)
            emailGroup[leader].append(e)

        res = []
        for i, emails in emailGroup.items():
            name = accounts[i][0]
            res.append([name]+sorted(emailGroup[i]))
        return res

Explain

这个题解使用了并查集的思路来解决账户合并问题。首先,为每个账户分配一个唯一的编号,然后遍历所有账户的邮箱地址,将具有相同邮箱地址的账户合并到一个集合中。最后,遍历并查集,将属于同一个集合的邮箱地址合并到一起,并按照字典序排序,与账户名一起作为结果返回。

时间复杂度: O(nmlogm),其中 n 为账户数量,m 为每个账户邮箱地址数量的上限。

空间复杂度: O(nm),其中 n 为账户数量,m 为每个账户邮箱地址数量的上限。

```python
from collections import defaultdict

class UnionFind:
    def __init__(self, n):
        self.par = [i for i in range(n)]  # 初始化并查集,每个元素的父节点初始化为自己
        self.rank = [1]*n  # 初始化每个元素的秩为1

    def find(self, x):
        # 查找元素 x 所属集合的根节点
        while x != self.par[x]:
            self.par[x] = self.par[self.par[x]]  # 路径压缩
            x = self.par[x]
        return x

    def union(self, x1, x2):
        # 合并元素 x1 和 x2 所属的集合
        p1, p2 = self.find(x1), self.find(x2)
        if p1 == p2:
            return False
        if self.rank[p1] > self.rank[p2]:
            self.par[p2] = p1
            self.rank[p1] += self.rank[p2]
        else:
            self.par[p1] = p2
            self.rank[p2] += self.rank[p1]
        return True

class Solution:
    def accountsMerge(self, accounts: List[List[str]]) -> List[List[str]]:
        uf = UnionFind(len(accounts))  # 创建并查集,每个账户对应一个节点
        emailToAcc = {}  # 邮箱地址到账户编号的映射

        # 遍历所有账户的邮箱地址
        for i, a in enumerate(accounts):
            for e in a[1:]:
                if e in emailToAcc:
                    uf.union(i, emailToAcc[e])  # 将具有相同邮箱地址的账户合并
                else:
                    emailToAcc[e] = i
        
        emailGroup = defaultdict(list)  # 集合编号到邮箱地址列表的映射
        # 遍历邮箱地址,将属于同一集合的邮箱地址合并到一起
        for e, i in emailToAcc.items():
            leader = uf.find(i)
            emailGroup[leader].append(e)

        res = []
        # 遍历集合,将合并后的邮箱地址与账户名一起作为结果返回
        for i, emails in emailGroup.items():
            name = accounts[i][0]
            res.append([name]+sorted(emailGroup[i]))
        return res
```

Explore

并查集是一种特别适用于处理动态连通性问题的数据结构,能够高效地合并集合并快速确定元素的归属关系。账户合并问题本质上是一个动态连通性问题,因为我们需要将拥有共同邮箱的账户组合在一起。虽然使用哈希表或图也可以解决这个问题,但并查集在这种特定场景下更加高效与直接。使用哈希表或图通常需要额外的数据结构或算法(如DFS或BFS)来遍历和合并节点,这在实现和效率上可能不如并查集直接。并查集通过简单的路径压缩和秩合并策略,提供了更快的合并和查找操作,特别适合处理大量元素和动态连接问题。

路径压缩是并查集优化策略之一,其主要目的是加快后续查找操作的速度。在路径压缩过程中,我们将查找路径上的每个节点直接链接到根节点,这样能够减少后续操作的路径长度。路径压缩虽然改变了节点间的直接连接关系,但并不会改变集合的成员关系。即使多个邮箱共享,路径压缩只是改变了内部结构以提高效率,但集合中包含的元素和它们的归属关系保持不变。因此,路径压缩能够在不破坏集合结构的前提下,提高并查集的操作效率。

在构建emailToAcc映射时,如果遇到两个不同的账户共享同一个邮箱地址,我们使用并查集的union操作将这两个账户的节点合并。具体来说,当一个邮箱地址在映射中已存在时,我们通过并查集将当前遍历到的账户与该邮箱已映射的账户合并。这样,即使多个账户通过共享邮箱间接地连接,它们也会被正确地归入一个集合。并查集的union操作确保了所有共享同一邮箱的账户最终都属于同一个集合,从而实现正确的账户合并。

在最终输出合并账户的过程中,我们选择集合代表(即根节点)的账户名作为合并后账户的名称。这是因为在并查集中,每个集合的代表节点是稳定确定的,而我们在遍历邮箱和账户时,将每个邮箱映射到了最初遍历到的账户(即根节点的账户)。因此,当我们从并查集中取出一个集合所有的邮箱地址时,我们可以直接使用这个集合的代表节点,也就是根节点对应的账户名,作为最终合并账户的名称。这样确保了即使多个账户因为共享邮箱而合并,输出的账户名称依然是正确和一致的。