- 3.1 使用NLTK工具下载简·奥斯汀所著的Emma小说原文,并去掉其中的停用词。
- 3.2 使用NLTK提供的WordNet计算两个词(不是词义)的相似度,计算方法为两词各种词义之间的最大相似度。
- 3.3 使用NLTK提供的SentiWordNet工具计算一个句子的情感倾向性,计算方法为每个词所处词性下的每个词义情感倾向性之和。
- 3.4 使用真实文本对比LTP与正向最大匹配分词的结果,并人工分析哪些结果LTP正确,正向最大匹配错误;哪些结果LTP错误,正向最大匹配正确;以及哪些结果两个结果都错误。
- 3.5 分析view、reshape、transpose和permute四种调整张量形状方法各自擅长处理的问题。
- 3.6 安装PyTorch并实际对比使用和不使用GPU时,三个大张量相乘时的效率。
- 3.7 下载最新的Common Crawl数据,并实现抽取中文、去重、繁简转换、数据清洗等功能。
2022-03-03 第三章 课后习题
©著作权归作者所有,转载或内容合作请联系作者
- 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
- 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
- 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
推荐阅读更多精彩内容
- 内容来自哈工大车万翔老师团队的作品《自然语言处理:基于预训练模型的方法》。本章主要介绍了中英文常用的工具和数据集。...
- 转自 进击的Coder 公众号 原理 中文分词,即 Chinese Word Segmentation,即将一个汉...