H 指数 II

标签: 数组 二分查找

难度: Medium

给你一个整数数组 citations ,其中 citations[i] 表示研究者的第 i 篇论文被引用的次数,citations 已经按照 升序排列 。计算并返回该研究者的 h 指数。

h 指数的定义:h 代表“高引用次数”(high citations),一名科研人员的 h 指数是指他(她)的 (n 篇论文中)至少 h 篇论文分别被引用了至少 h 次。

请你设计并实现对数时间复杂度的算法解决此问题。

示例 1:

输入:citations = [0,1,3,5,6]
输出:3
解释:给定数组表示研究者总共有 5 篇论文,每篇论文相应的被引用了 0, 1, 3, 5, 6 次。
     由于研究者有3篇论文每篇 至少 被引用了 3 次,其余两篇论文每篇被引用 不多于 3 次,所以她的 h 指数是 3

示例 2:

输入:citations = [1,2,100]
输出:2

提示:

  • n == citations.length
  • 1 <= n <= 105
  • 0 <= citations[i] <= 1000
  • citations升序排列

Submission

运行时间: 22 ms

内存: 21.2 MB

class Solution:
    def hIndex(self, citations: List[int]) -> int:
        l = 0
        r = len(citations)
        while l < r:
            mid = (l + r + 1) // 2
            if citations[-mid] >= mid:
                l = mid
            else:
                r = mid - 1
        return l

Explain

该题解使用了二分查找的方法。由于数组 citations 已经按照升序排列,我们可以二分搜索数组,寻找最大的 h 指数。我们维护左右指针 l 和 r,每次取中间位置 mid,如果 citations[-mid] >= mid,说明至少有 mid 篇论文的引用数 >= mid,满足 h 指数的定义,我们将左指针 l 更新为 mid;否则说明 mid 值偏大,将右指针 r 更新为 mid-1。最终左右指针相遇时的位置即为最大的 h 指数。

时间复杂度: O(log n)

空间复杂度: O(1)

class Solution:
    def hIndex(self, citations: List[int]) -> int:
        l = 0
        r = len(citations)
        while l < r:
            mid = (l + r + 1) // 2
            if citations[-mid] >= mid:  # 至少有 mid 篇论文引用数 >= mid
                l = mid
            else:  # mid 值偏大,调整右边界
                r = mid - 1
        return l  # 左右指针相遇,找到最大 h 指数

Explore

在这个问题中,`citations[-mid]`表示数组中从后向前数的第`mid`个元素,即从前向后的第`len(citations) - mid`个元素。因为数组是升序排列的,我们需要找到一个最大的`h`,使得至少有`h`篇论文的引用数不少于`h`。使用`citations[-mid] >= mid`作为条件,我们实际上是在确认从数组末端开始的`mid`个元素是否每个都至少有`mid`次引用。这样可以保证存在一个满足h指数定义的最大`h`。

通常,在二分查找中,当找到一个满足条件的值时,为了继续寻找可能存在的更大的值,我们会将左指针更新为`mid+1`。然而,在这个特定的算法实现中,左指针被更新为`mid`而不是`mid+1`,是因为更新的条件是`citations[-mid] >= mid`,这表明当前的`mid`可能是有效的h指数。为了不跳过这个有效的h指数,我们让左指针保持在当前的`mid`位置上,确保不错过任何可能的h指数值。

二分查找通过逐步缩小查找范围来定位最大的h指数。在每一步,根据`citations[-mid] >= mid`的判断,我们不断调整左右指针。当`citations[-mid] >= mid`为真时,左指针向右移动以探索更大的可能h值;当为假时,右指针向左移动以减少不可能的h值。最终,当左右指针相遇时,它们指向的就是满足条件的最大h指数,因为这是最后一个被认为可能是h指数的位置。

是的,即使所有引用数都为0,这种二分查找方法仍然有效。在这种情况下,`citations[-mid] >= mid`的条件从未满足,因为所有的`citations[-mid]`值都为0,不会大于任何正的`mid`值。因此,右指针会不断左移,最终与左指针在起始位置相遇,也就是0的位置,正确返回h指数为0。