PythonShowMeTheCode(0006): 统计重要词汇

1. 题目

第 0006 题:你有一个目录,放了你一个月的日记,都是 txt,为了避免分词的问题,假设内容都是英文,请统计出你认为每篇日记最重要的词。

2. 扩展

  • 利用堆来实现统计Top K的重要的词
  • 实现可扩展的堆(支持节点可以为任意类型)

3. 实现堆

class MinHeap:
    def __init__(self):
        self.heap_list = [()]
        self.size = 0

    def compare(self, item1, item2):
        if item1[1] < item2[1]:
            return 1
        elif item1[1] == item2[1]:
            return 0
        else:
            return -1

    def flow_up(self, i):
        while i // 2 > 0:
            if self.compare(self.heap_list[i], self.heap_list[i//2]) < 0:
                tmp = self.heap_list[i//2]
                self.heap_list[i//2] = self.heap_list[i]
                self.heap_list[i] = tmp
            i //= 2

    def insert(self, item):
        self.heap_list.append(item)
        self.size += 1
        self.flow_up(self.size)

    def flow_down(self, i):
        while i*2 <= self.size:
            min_child = self.get_min_child(i)
            if self.compare(self.heap_list[i], self.heap_list[min_child]) > 0:
                tmp = self.heap_list[min_child]
                self.heap_list[min_child] = self.heap_list[i]
                self.heap_list[i] = tmp
            i = min_child

    def get_min_child(self, i):
        if i*2+1 > self.size:
            return i*2
        else:
            if self.compare(self.heap_list[i*2], self.heap_list[i*2+1]) < 0:
                return i*2
            else:
                return i*2+1

    def pop_min(self):
        min_item = self.heap_list[1]
        self.heap_list[1] = self.heap_list[self.size]
        self.size -= 1
        self.heap_list.pop()
        self.flow_down(1)
        return min_item

    def build_heap(self, word_dict):
        i = len(word_dict) // 2
        self.size = len(word_dict)
        for item in word_dict.items():
            self.heap_list.append(item)
        while i > 0:
            self.flow_down(i)
            i -= 1

注意:当需要使用堆时,只需要继承这个类,重写compare()build_heap()方法即可。

4. 实现选词

# -*- coding:utf-8 -*-
import re
import os
import os.path
from min_heap import MinHeap


def get_word_dic(file_path=None):
    if file_path is None:
        print("Error")
        return
    word_dict = {}
    with open(file_path, "r", encoding="utf-8") as file:
        for line in file.readlines():
            words = re.findall(r"[a-z\'_-]+\b", line.lower())
            for word in words:
                if word not in word_dict:
                    word_dict[word] = 1
                else:
                    word_dict[word] += 1
    return word_dict


def get_top_k_words(word_dict, k):
    result = []
    dont_count = get_not_important_word_list("not-important-words.txt")
    min_heap = MinHeap()
    min_heap.build_heap(word_dict)
    while k > 0:
        item = min_heap.pop_min()
        if item[0] not in dont_count:
            result.append(item)
            k -= 1
    return result


def get_not_important_word_list(path):
    with open(path, "r", encoding="utf-8") as file:
        words = re.findall(r"[a-z\'_-]+", file.read().lower())
    return words


def get_words_important_dict(dir_path):
    if not os.path.isdir(dir_path):
        print("plz input path")
        return

    files = [os.path.join(dir_path, x) for x in os.listdir(dir_path) if os.path.splitext(x)[1] == ".txt" and x != "not-important-words.txt"]

    for file in files:
        print("File: " + file)
        word_dict = get_word_dic(file)
        print(get_top_k_words(word_dict, 10))


if __name__ == "__main__":
    get_words_important_dict(".")
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 202,607评论 5 476
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,047评论 2 379
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 149,496评论 0 335
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,405评论 1 273
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,400评论 5 364
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,479评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,883评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,535评论 0 256
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,743评论 1 295
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,544评论 2 319
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,612评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,309评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,881评论 3 306
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,891评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,136评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,783评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,316评论 2 342

推荐阅读更多精彩内容

  • 常用概念: 自然语言处理(NLP) 数据挖掘 推荐算法 用户画像 知识图谱 信息检索 文本分类 常用技术: 词级别...
    御风之星阅读 9,148评论 1 25
  • Android 自定义View的各种姿势1 Activity的显示之ViewRootImpl详解 Activity...
    passiontim阅读 171,363评论 25 707
  • 生活不能靠太多的想象
    古质阅读 178评论 0 0
  • 1.代码块: 方法一: ~~~ 代码 ~~~ 方法二: 在每行代码前面添加两个tab键 2.标题 # 一级标题...
    amazingokc阅读 225评论 0 0
  • 傍晚时分,刘草儿一行来到一个美丽的小村庄——瑶山里。 瑶山里的住户大多是雷公寨的佃农,因此,刘草儿等人一到这里,便...
    a33795b49045阅读 201评论 0 1