1.1 什么是字频、词频?什么是高频字,高频词?
字频:一个汉字的相对使用频率,即一个汉字使用次数与使用材料的总字数的比例。
词频:一个词的相对使用频率。
高频字:相对使用频率高的字。
高频词:相对使用频率高的词。
1.6 中文信息处理的主要研究对象有哪些?
1. 汉字键盘输入技术
2. 汉字输出技术
3. 软件汉化技术
4. 汉字字形识别技术
5. 汉语语音识别技术
6. 激光照排技术
7. 中文平台
8. 文本分类
9. 信息检索
1.8 软件的国际化和本地化对中文信息处理有何意义?
国际化:是指一个计算机软件能够适应不同的语言、文化习俗和编码集。在系统层就提供一种躲过语言的支持机制。
意义:让我们能透明的处理中文语言的问题,使软件在架构和机制上支持中文,在不需要对应用程序做改动的前提下能够正确显示、输入、处理中文。
本地化:是把计算机系统软件或应用软件转为使用并兼容某种特定语言的过程。
意义:使得原来不支持中文的软件可以支持中文了。
2.5 字符在ISO 10646中如何编码的?ISO 10646中基本位平面的作用是什么?
字符在10646中 如何编码:
1. 避开C0和C1两个区
2. 打破每个字符码里的所有字节的bit-8必须设置为0或1的限制
3. 字符码长度被规定为定长的4个8位
10646基本位平面的作用:
当计算机只是用BMP的字符码时,可以省略组八位和面八位元,
因而将字符码由32个位缩短为16个位,称为ISO 10646字符码的基本面形式
2.11 从字符编码标准的角度谈谈计算机中文信息处理的特点。
中文信息处理的基础是有统一的字符编码标准;
在有完善的字符编码标准的情况下,中文信息处理才能进行研究成果的分享与共同进步。
3.0 汉字简繁转换的难点。
1. 简体字和繁体字不是一一对应的
2. GBK和Big5字汇不同
3.2 提出一种实现汉字繁-简转换的方法,并讨论如何采取措施提高其转换的准确率?
方法:利用Windows的API函数,用Unicode作为中间编码,实现GBK到Big-5之间的转换。
改进措施:在转换时,考虑字所在词语以及所在上下文的语境,将之作为选取对应汉字的决定因素。
3.4 UUENCODE、QP、HZ等编码主要解决什么问题?
UUENCODE:将二进制文件以文本文件方式进行编码表示;利于基于文本传输环境中传输二进制文件。
QP:帮助非ASCII编码的信件传输通过SMTP服务器。
HZ:将含有高位为1的汉字双字节字串转换成易于在网络中传输的ASCII字符串。
BASE64:为了解决ASCII和非ASCII码在只支持7位邮件网关中通行的问题。
UTF8:为了把16位或32位(UCS-2或UCS-4)转换成一种更可靠传输的编码。
3.5 讲述UTF-7和UTF-8编码的特点。
UTF-7:
是一种码长为7的字符编码标准,即用7位2进制代码表示一个16位的Unicode代码。
在UTF-7中,将字符分为直接编码集(Set D)、选择直接编码集(Set 0)以及其他字符。
在编码时,如果字符在Set D中则直接编码,如果在Set 0中也可以选择直接编码。如果不在两者中时,使用Base64进行转换,在前后分别加上“+”“-”标识这种转换。
对于空格符,制表符,回车符,换行符等可以直接用相应的ASCII表示。
UTF-8:
按8位二进制数进行编码。
根据Unicode中8位二进制数的大小,分别用1到6个字节编码。
对7位ASCII码的编码只是在最高位加上1个0,变成8位长的编码。
对大于0x7F的字符被编码成多字节序列。他保留了UCS-4字典中的字节串的排列顺序;表示非ASCII字符的开始字节总是0xC0到0xFD之间的字符,并会指出该串的长度;多字节的其他字符都是0x80到0x8f之间的字符。
4.7 如何理解汉字编码技术中的“以字为基础,以词为主导”?
字是汉字的基础,汉字编码技术就是在给一个个单独的汉字编码。
但是,中文汉字数量庞大,流行常用的编码方式,总是会有重码率高等缺点,为了解决这样的问题,就要在字的基础上加上词的作用,词可以有效区分同类汉字。
? 4.12 给出一种汉字键盘编码的码本对照表设计方案,使之能够实现“动态调频”和“高频先见”,并给出该检索引擎的检索算法和相关数据结构,评价码本对照表的结构方案对检索效率有何影响?
5.0 中文平台和中文操作系统有什么关系?
中文平台:相当于在外文操作系统上外挂中文语言包,操作系统内核是外文的。
中文操作系统:在具有西文操作系统的所有功能的基础上,同时支持中文的输入、存储、处理和输出的操作系统。操作系统的内核是中文的。
5.1 中文操作系统有哪几种设计方法?各有什么特点?
1. 专用的中文输入输出设备与西文操作系统结合。
特点:通过添加中文处理硬件来解决问题。设备成本很高,但不实用。
2. 设计一个全新的中文操作系统
特点:系统内部功能关系统一协调,可以解决中西文不兼容的问题。但是,周期长,成本高。
3. 修改原有的西文操作系统。
特点:中西文兼容;实现周期短;但,可能会影响原来操作系统的部分功能;中文信息处理的特点与效率不能很好的表现。
5.2 汉字信息处理系统中从信息的输入到信息的输出中各个模块的作用是什么?
1. 输入管理模块:主要为用户提供汉字的输入功能,可以提供语音识别、手写输入等功能。将用户的输入编码,通过检索码本或计算等方式得出汉字的内码,抛给汉字处理模块。
2. 汉字打印管理模块:将汉字处理模块传过来的汉字内码抛给字库管理模块,获取汉字的字模信息,得到汉字字形码,然后转而直接或间接控制打印机打印。
3. 汉字显示管理模块:将汉字处理模块传过来的内码抛给字库管理模块,得到字模信息,得到汉字字形码,然后,通过控制显示卡在显示器上显示。
4. 汉字字库管理模块:管理各类汉字库,根据显示或打印模块传过来的汉字内码进行映射检索找到汉字信息,返回字形码。
5. 通信管理模块:主要负责将汉纸处理模块传过来的内码变成可以与其他汉字系统交互的汉字交换码,然后输出。
6. 汉字处理模块:根据需求,主要通过各种应用程序实现功能。输入时,接受输入管理模块传入的内码;当需要与网络或其他设备传送汉字时,将汉字内码传送给通信管理模块;当需要显示汉字的时候,将内码传递给显示管理模块。
6.0 汉字输入的分类。
1. 键盘编码输入
2. 语音识别输入
3. 汉字字形识别输入-手写体识别输入:联机手写汉字字形识别输入,脱机手写汉字字形识别输入
4. 文字识别输入-印刷体识别输入
6.2 什么是键盘扫描码?它与ASCII码有什么关系?
键盘扫描码:根据按键在键盘上的位置按照从左到右,从上到下的原则从1开始给按键编的代码。
关系:键盘输入时,控制器首先得到输入的键盘扫描码,然后独照扫描码和ASCII的对照表,将扫描码转换成ASCII,一起传入计算机内存键盘缓冲区,供系统使用。
6.5 输入码对照表在汉字输入系统中的作用是什么?
他是键盘输入中的一个重要数据结构,是汉字输入码到机内码转换的核心,反映了汉字输入码和机内码之间的映射关系。
7.2 什么是横向点阵字库?什么是纵向点阵字库?他们各有什么用途?
横向点阵:每个点阵数字代码均描述汉字横向点的情况
用途:一般用于显示器
纵向点阵:每个点整数字代码均描述汉字纵向点的情况
用途:一般用于打印机
7.3 什么是点阵字库、矢量字库、曲线字库?他们各有什么特点?
点阵字库:每一个汉字都分成N*N个点,然后用每个点的虚实来表示汉字的轮廓
特点:大规模点阵需求大的存储空间;点阵字形变倍后字形质量没有保证,放大出现锯齿状;通常只用于一般质量要求的字形输出
矢量字库:以一连串有序的向量折线来取代文字笔画的轮廓曲线
特点:可以无限放大,并保持圆滑,不会出现锯齿
曲线字库:用二次曲线和三次曲线逼近字形轮廓的字形描述方法
特点:以贝塞尔曲线拟合文字形状,比较完整的保留了文字原有的字形信息
7.4 “黑白段表示法”和“线性增量表示法”各有什么特点?
黑白段表示法:考虑到汉字笔画中黑白连续变化的特点而产生的压缩方法。可以对点阵中的重复信息进行压缩。当汉字非竖线笔画较多,“毛刺”较多时,压缩效率低下。
线性增量表示法:用以处理汉字笔画中大量存在的斜线,以进一步压缩字形信息。对高分辨率字库压缩倍率大,低分辨率字库压缩倍率小。
8.0 汉字显示过程中为什么需要字形缓冲区?
在图形显示模式下,一个汉字在显存中的字形信息一般由几十个或者几百个字节构成。对字符的操作如果直接操作内存,一方面存在定位困难,另一方面,修改字符时处理字节量过大,工作效率差。为了解决这个问题,所以设立字形缓冲区。
? 8.1 什么叫显示器的显示模式?字符显示模式和图形显示模式有何不同?
也就是显示器的工作模式,一般分为字符显示模式和图形显示模式
字符显示模式:显存中存放的是汉字的机内码。
图形显示模式:显存中存放的是汉字的字形信息。设立了内码缓冲区,采用字符显示模式。
8.7 汉字显示终端和PC机上的显示器有哪些异同?
汉字终端是一个能处理汉字的固化计算机系统。他一般由主控板,显示器,键盘三大部分组成。汉字终端有简单的信息处理能力。
PC显示器是一种将一定的电子文件通过特定的传输设备显示到屏幕上再反射到人眼的显示工具。
9.2 什么叫歧义?歧义有哪几种?歧义切分是指什么?
歧义:对一个句子(或字串),若仅根据句子中的字的字面意义理解,可以有多种理解方式。
歧义分为交集型歧义和组合型歧义。
歧义切分:指文句中某个片段可能存在不止一种切分形式。
? 9.4 什么是真歧义?什么是伪歧义?
真歧义:一个句子有多种理解方式,都符合事实,语境
伪歧义:单个字词理解正确,但不符合事实,语境的理解方式
10.2 什么是结构化文档?什么是半结构化文档和非结构化文档?
结构化文档:包含了各种可以命名的部分,并按照一定的结构对内容进行组织。
半结构化文档:数据有相同的结构和语义,有大体结构。
非结构化文档:数据无法用固定的格式对他进行组织或定义。
? 10.5 什么是“倒排检索项表”?其有何特点?
11.1 什么是信息抽取?他与信息检索有何不同?
信息抽取:指从一段文本中抽取指定的事件、事实等信息,形成结构化的数据并填入一个数据库中供用户查询使用的过程。
与信息检索异同:
1. 功能不同:信息检索系统主要从大量文档集合中找到用户需求相关的文档列表;而信息抽取旨在直接获得用户感兴趣的事实信息。
2. 处理技术不同:信息检索常用统计及关键词匹配等技术,把文本看成词的集合。而信息抽取往往要借助自然语言处理技术,对文章、句子进行分析。
3. 适用领域不同:信息检索系统通常与领域无关,而信息抽取系统则是领域相关的。
11.3 信息抽取有哪些主要研究对象?其特点是什么?
主要研究对象:
1. 命名实体NE2.实体关系ER
3. 模板元素TE
4. 共指CR
5. 模板关系TR
6. 场景模板ST
特点:
1. 需要对文本进行一定程度的理解,但与真正的文本理解还是不同。
2. 处理对象一般是自然语言文本,尤其是非结构化文本。
3. 可以看做是信息检索的进一步深化
12.2 文档特征的描述有哪几种方法?
1. 特征词频-文档频率权重
2. 信息增益权重
3. x2(平方)统计权重
4. 互信息权重
12.10 文本分类的评价标准有哪些?
准确率;查全率;F1值