相似字符串组

标签: 深度优先搜索 广度优先搜索 并查集 数组 哈希表 字符串

难度: Hard

如果交换字符串 X 中的两个不同位置的字母,使得它和字符串 Y 相等,那么称 XY 两个字符串相似。如果这两个字符串本身是相等的,那它们也是相似的。

例如,"tars""rats" 是相似的 (交换 02 的位置); "rats""arts" 也是相似的,但是 "star" 不与 "tars""rats",或 "arts" 相似。

总之,它们通过相似性形成了两个关联组:{"tars", "rats", "arts"}{"star"}。注意,"tars""arts" 是在同一组中,即使它们并不相似。形式上,对每个组而言,要确定一个单词在组中,只需要这个词和该组中至少一个单词相似。

给定一个字符串列表 strs。列表中的每个字符串都是 strs 中其它所有字符串的一个 字母异位词 。请问 strs 中有多少个相似字符串组?

字母异位词(anagram),一种把某个字符串的字母的位置(顺序)加以改换所形成的新词。

示例 1:

输入:strs = ["tars","rats","arts","star"]
输出:2

示例 2:

输入:strs = ["omv","ovm"]
输出:1

提示:

  • 1 <= strs.length <= 300
  • 1 <= strs[i].length <= 300
  • strs[i] 只包含小写字母。
  • strs 中的所有单词都具有相同的长度,且是彼此的字母异位词。

   

注意:本题与主站 839 题相同:https://leetcode-cn.com/problems/similar-string-groups/

Submission

运行时间: 159 ms

内存: 16.5 MB

class Solution:
    def numSimilarGroups(self, strs: List[str]) -> int:

        def isSimiliar(a, b):
            if len(a) != len(b):
                return False

            i, j = 0, -1
            flag = 0
            
            while i < len(a):
                if a[i] != b[i]:
                    flag += 1
                    if j == -1:
                        j = i
                    elif a[i] != b[j] or a[j] != b[i]:
                        return False
                    elif flag > 2:
                        return False
                i += 1
            
            return True

        def find(x):
            if x == root[x]:
                return x
            else:
                root[x] = find(root[x])
                return root[x]
        
        def union(a, b):
            rootA = find(a)
            rootB = find(b)
            if rootA != rootB:
                root[rootA] = rootB

        n = len(strs)
        root = [x for x in range(n)]

        for i in range(n):
            for j in range(i + 1, n):
                if isSimiliar(strs[i], strs[j]):
                    union(i, j)

        return sum(x == root[x] for x in range(n))

Explain

该题解采用并查集的方法来寻找相似字符串组的数量。首先定义一个判断两个字符串是否相似的函数isSimilar,它通过计算两个字符串中位置不同的字符数量并验证是否可以通过一次交换使两字符串相等来判断是否相似。然后使用并查集的数据结构来处理所有字符串,通过对每一对字符串使用isSimilar函数,如果判断为相似,则将它们在并查集中合并。最后,统计并查集中根节点的数量,即为不同的相似字符串组的数量。

时间复杂度: O(n^2 * L)

空间复杂度: O(n)

class Solution:
    def numSimilarGroups(self, strs: List[str]) -> int:

        def isSimiliar(a, b):
            if len(a) != len(b):
                return False

            i, j = 0, -1
            flag = 0
            
            while i < len(a):
                if a[i] != b[i]:
                    flag += 1
                    if j == -1:
                        j = i
                    elif a[i] != b[j] or a[j] != b[i]:
                        return False
                    elif flag > 2:
                        return False
                i += 1
            
            return True

        def find(x):
            if x == root[x]:
                return x
            else:
                root[x] = find(root[x])
                return root[x]
        
        def union(a, b):
            rootA = find(a)
            rootB = find(b)
            if rootA != rootB:
                root[rootA] = rootB

        n = len(strs)
        root = [x for x in range(n)]

        for i in range(n):
            for j in range(i + 1, n):
                if isSimiliar(strs[i], strs[j]):
                    union(i, j)

        return sum(x == root[x] for x in range(n))

Explore

在函数isSimilar中,如果两个字符串在仅有一个位置的字符不同,函数会将flag增加1次,此时不会再进入后续的elif分支中进行更多判断,因此函数会返回True。然而,实际上仅有一个位置的字符不同不能通过一次交换使两字符串相等,所以这种情况下函数的判断是错误的。正确的逻辑应该是在字符串有两个位置的字符不同时,这两个位置的字符可以互相交换得到相同的字符串,才能判断为相似。

在题解中使用的并查集的union函数并没有考虑按秩合并。按秩合并是一种优化技术,通过比较两个根节点的秩(通常是树的高度或大小),并将秩较小的树合并到秩较大的树上,从而有助于减少整个并查集的最大高度,提高查找效率。题解中的并查集在合并时简单地将一个根节点指向另一个,这可能会导致不平衡的树结构,从而在最坏的情况下退化成链状结构,使得路径压缩的效果减少,影响并查集的操作效率。

在题解中,每次调用find函数时都使用了路径压缩技术,这意味着在执行find操作的过程中,会将查找路径上的所有节点直接连接到根节点,从而减少这些节点下次查找根节点时的路径长度。因此,在进行统计根节点数量的操作之前,如果所有节点都至少进行了一次find操作,那么可以保证所有节点都已经正确压缩到其根节点。在题解中,每次进行union操作前都会调用find函数来查找各自的根节点,因此可以确保在统计根节点数量时,所有节点都已经被压缩到其最终的根节点。