奖励最顶尖的 K 名学生

标签: 数组 哈希表 字符串 排序 堆(优先队列)

难度: Medium

给你两个字符串数组 positive_feedback 和 negative_feedback ,分别包含表示正面的和负面的词汇。不会 有单词同时是正面的和负面的。

一开始,每位学生分数为 0 。每个正面的单词会给学生的分数 加 3 分,每个负面的词会给学生的分数 减  1 分。

给你 n 个学生的评语,用一个下标从 0 开始的字符串数组 report 和一个下标从 0 开始的整数数组 student_id 表示,其中 student_id[i] 表示这名学生的 ID ,这名学生的评语是 report[i] 。每名学生的 ID 互不相同

给你一个整数 k ,请你返回按照得分 从高到低 最顶尖的 k 名学生。如果有多名学生分数相同,ID 越小排名越前。

示例 1:

输入:positive_feedback = ["smart","brilliant","studious"], negative_feedback = ["not"], report = ["this student is studious","the student is smart"], student_id = [1,2], k = 2
输出:[1,2]
解释:
两名学生都有 1 个正面词汇,都得到 3 分,学生 1 的 ID 更小所以排名更前。

示例 2:

输入:positive_feedback = ["smart","brilliant","studious"], negative_feedback = ["not"], report = ["this student is not studious","the student is smart"], student_id = [1,2], k = 2
输出:[2,1]
解释:
- ID 为 1 的学生有 1 个正面词汇和 1 个负面词汇,所以得分为 3-1=2 分。
- ID 为 2 的学生有 1 个正面词汇,得分为 3 分。
学生 2 分数更高,所以返回 [2,1] 。

提示:

  • 1 <= positive_feedback.length, negative_feedback.length <= 104
  • 1 <= positive_feedback[i].length, negative_feedback[j].length <= 100
  • positive_feedback[i] 和 negative_feedback[j] 都只包含小写英文字母。
  • positive_feedback 和 negative_feedback 中不会有相同单词。
  • n == report.length == student_id.length
  • 1 <= n <= 104
  • report[i] 只包含小写英文字母和空格 ' ' 。
  • report[i] 中连续单词之间有单个空格隔开。
  • 1 <= report[i].length <= 100
  • 1 <= student_id[i] <= 109
  • student_id[i] 的值 互不相同 。
  • 1 <= k <= n

Submission

运行时间: 107 ms

内存: 23.9 MB

class Solution:
    def topStudents(self, positive_feedback: List[str], negative_feedback: List[str], report: List[str], student_id: List[int], k: int) -> List[int]:
        ps = set(positive_feedback)
        ns = set(negative_feedback)
        arr= []
        for sid,r in zip(student_id,report):
            g=0
            for w in r.split():
                if w in ps:
                    g+=3
                if w in ns:
                    g-=1
            arr.append((g,sid))
        arr.sort(key=lambda x:(-x[0],x[1]))
        return [v[1] for v in arr[:k]]

Explain

此题解采用的方法是:首先将正面反馈词汇和负面反馈词汇存入集合中,方便快速查找。对于每个学生的评语,通过分割字符串获取到评语中的每个单词,然后判断这些单词是否存在于正面或负面词汇的集合中,根据匹配结果更新学生的得分。最后,将学生根据得分从高到低排序,得分相同则按ID升序排序。最终返回得分最高的k名学生的ID。

时间复杂度: O(n*m + n log n)

空间复杂度: O(p+q+n)

# 增加了注释的题解代码

class Solution:
    def topStudents(self, positive_feedback: List[str], negative_feedback: List[str], report: List[str], student_id: List[int], k: int) -> List[int]:
        # 将正面和负面词汇转换为集合,以便快速查找
        ps = set(positive_feedback)
        ns = set(negative_feedback)
        arr= []
        # 遍历每个学生的评语
        for sid, r in zip(student_id, report):
            g=0
            # 分割评语中的单词并计算分数
            for w in r.split():
                if w in ps:
                    g+=3  # 正面词汇加3分
                if w in ns:
                    g-=1  # 负面词汇减1分
            arr.append((g, sid))
        # 根据分数降序,ID升序排序学生
        arr.sort(key=lambda x: (-x[0], x[1]))
        # 提取前k名学生的ID
        return [v[1] for v in arr[:k]]

Explore

在题解中,每次一个单词在评语中出现,无论是正面还是负面单词,都会计算其对总分的影响。如果正面单词多次出现,每次出现都会增加3分;如果负面单词多次出现,每次出现都会减少1分。这种处理方法确保了评语中每个词的影响都被准确计入最终的得分。

是的,代码中使用了排序功能,首先按照分数降序排序,如果分数相同,则按照学生ID升序排序。这是通过元组`(g, sid)`进行的排序,其中`g`是分数,`sid`是学生ID。排序键`key=lambda x: (-x[0], x[1])`确保了在分数相同的情况下,ID较小的学生排在前面。

在此题解中选择将正面和负面词汇存储为集合而不是列表,是因为集合在Python中基于哈希表实现,提供了平均时间复杂度为O(1)的查找效率。这使得每次检查一个单词是否为正面或负面词汇时更快,特别是当词汇列表较大时。相比之下,列表的查找效率为O(n)。因此,使用集合可以显著提高算法的性能。

题解代码中没有直接处理评语中可能出现的标点符号或大小写不一致的问题。这意味着如果评语中的单词由于标点符号或大小写问题而与集合中的单词不完全匹配,它们将不会被识别为正面或负面词汇。在实际应用中,可以通过预处理步骤来改进,例如使用正则表达式移除标点符号,以及将所有单词转换为小写或大写形式,以确保匹配的一致性。