- 数据、信息与知识
- 数据是载荷或记录信息的按照一定规则排列组合的物理符号
- 背景是接收者针对特定数据的信息准备
- 数据+背景=信息
- 信息是数据负荷的内容
- 信息+经验=知识
- 信息管理与信息活动
- 广义:信息管理是对涉及信息的各种要素(信息、人、机器、机构)进行合理的组织和控制,以实现信息及有关资源的合理配置,从而有效地满足社会的信息需要。
- 信息活动就是对信息资源的开发利用
- 信息资源的开发利用,是由信息工作人员运用专门的信息技术手段对各种原始数据进行搜集选择。加工处理和分析研究,形成信息产品,然后传递给需要者使用的过程
- 信息生命周期管理
- 信息创建:
信息生命周期管理的初始阶段。规范的信息机构和网络用户,自由度和随意性,保持文档格式、规范以及元数据描述的一致性 - 信息采集:
信息得以开发利用的起点制定采集政策,明确内容和范围,采用相应的方法(手工收集和自动获取) - 信息组织:
提供结构形成有机化整体(筛选、分析、标引、著录、整序、优化) - 信息存储:
实现信息价值的基础。依托相关存储应用技术将信息的状态(不可得-可得-可用) - 信息利用:
信息生命周期管理的宗旨。方式:(1.建立数据库2.提供专业信息导航3.开展信息增值服务) - 信息清理:
建立科学明确的数据回收(销毁、清理、迁移)规则。信息老化失去价值。
- 网络数字信息资源管理的研究
- 网络资源:
关注:网络数字信息资源的数量、传播速度、范围及影响力
研究内容:涉及网络信息资源的组织结构、基本格式、网络资源开发与服务中的权益保障 - 图书馆:
收集组织利用中心
三个研究层次:- 技术研究(图书馆自动化和馆藏资源数字化)
- 现代图书馆建设的整体规划和基础搭建(现代图书馆的经济、法律、社会、政策的整体框架,制定信息共享格式和国家标准,网络安全性和稳定性问题)
- 结合数字图书馆的具体应用(数字资源的生产、保存、服务与管理,图书馆的联盟与合作以及具体应用的相关标准等)
- 信息网络:
对信息资源的开发利用起推动作用
学科门户、行业网站和深网的研究以及网络生态等交叉问题的探讨 - 信息检索:
信息资源应用与服务的重要环节
检索的原理、方法、语言以及检索工具、技术、系统和检索性能评估等方面的研究 - 信息组织:
是网络信息资源研究和核心
资源描述、知识重组、索引标识、信息导航、主题词表以及标准化研究 - 元数据:
信息组织的基础和网络信息资源建设的前提
元数据标准、评价元数据。语义元数据以及本体论研究 - 用户服务:
宏观层面:服务手段、服务机制、创新服务以及用户研究
微观层面:服务手段、服务特征、服务模式、信息营销、个性化服务 - 评价:
优化信息检索和用户服务提供参考依据
指标体系的建立、评价方法的不断完善和创新以及评价实证分析 - 信息资源共享:
网络信息资源得以充分利用的前提和关键所在 - 信息资源开发利用:
信息资源的管理、信息技术、网络技术在资源开发利用中的应用以及馆员在其中的职能和信息素养方面的研究 - 信息环境:
研究的出发点
传统馆藏环境、高校环境以及网络化环境、数字化环境和信息环境
-
信息交流的条件和要素
- 信息发送者:信息的初始来源(非信息机构、图书馆、文献中心等信息传递的中继站)
- 信息接收者:受信者。信息的最后接受者或利用者
- 交流通道:交流双方的感官系统。(电话、邮政、网络等仅仅是这些感官通道的扩张、延伸或变换)
- 符号体系:信息交流依附的载体(语言、文字、手势、表情、信物、烽火狼烟等)以及符号元素之间互相联系与组织的方式及规则
- 知识信息库:人脑知识信息的总称(包括发送方和接受方)。是信息交流的最根本来源和最终极的归宿
- 支持条件:信息交流得以实现的保障。自然条件:声、光、电、空气等在传导信息的作用 技术条件:各种通信技术、存储、处理技术 社会条件:法律、政策、经济条件、信息机构以及相关组织
正式交流与非正式交流
- 正式交流:通过科学文献信息系统或“第三方”的控制而进行的信息交流
优:可信度高。能获得全面详细的科学信息。不需要与信息生产者本人见面
缺:信息传递不及时。需要一定的方法和技巧 - 非正式交流:科学家、研究人员之间通过个人接触进行的信息交流
优:间隔时间短。信息选择性和针对性强。传递信息时反馈迅速。对所得到的信息易于理解并给出恰当的评价
缺:可靠性和准确性难以检验。只有少数人有机会。不能为以后得加工进行情报积累
- 信息产生与分布中的马太效应
-
表现:核心趋势和集中取向
- 核心趋势(信息生产者主动造成)
- 高产作者群体的形成
- 期刊信息密度增大
- 高频词汇的确立
- 集中取向(信息生产者处于被动状态)
- 一篇论文多次被引用
- 一个网站被众多用户点击
- 某些图书频繁被借阅
- 核心趋势(信息生产者主动造成)
出现原因:人类社会特有的选择机制支配的结果
-
影响
正面影响:
+ 实际工作:突出重点、摒弃平均,为信息源的选择、获取、评价和利用提供依旧,为降低信息管理成本,提高信息利用效益提供指导和方法
+ 理论上:帮助我们认识信息集中和分散的特征、趋势和规律,发先信息管理学的基础性规律负面影响:
+ 信息分布富集有时往往是表面的、外在的。
1. 表面:被引用次数多并不一定具有较高价值,可能是错或有争议的观点。
2. 外在:有点优势积累过程中带有突发性或受统计学因素的影响使得信息价值失真(获得诺贝尔奖的作者并非每篇论文都具有较高价值)
+ 核心信息源是马太效应优势积累的结果,而如果过分注重核心信息源就会忽略分布在其他信息院中有价值的信息
+ 核心信息源某一方面的优势过分积累,高度专门化会使得信息越来越单一,失去更多的用户
+ 马太效应青睐名人、拒绝新人的习惯实力不利于新人成长,限制了新思想、新知识和新信息的产生和传播
- 信息源的概念与二次信息
- 信息源的定义:个人为满足其信息要求而获得信息的来源
- 信息源的基本属性:
- 客观性:(1)是一种客观存在的物体 (2)是信息源中所包含的知识存在的反映
- 可传递性: 作为信息传播过程的第一要素,只有传播到达接收者并得到利用才能发挥作用
- 可激活性: 在人脑进行感知、思维、分析、综合、联想的过程中激活
- 信息源的特征表现
- 信息源的积累性:可以用物理手段进行搜集、整理、积累使得信息不断地延续、继承和发展
- 信息源的复杂性:数量巨大、内容丰富、形式多样、增长迅速
- 信息源的再生性:使用后不会消耗反而产生“增值现象”。
- 信息院的共享性:可以不同接收者同时使用
- 二次信息是对一次信息进行加工整理后产生的一类信息,如书目、题录、简介、文献等形式的检索工具。
作用:在于报道和为查找一次信息提供线索
- 信息搜集的方法与途径
- 采购:公开出版的书刊和发行的数据库(经常性、稳定地、系统的搜集和获取信息的有效方式)
形式:订购、现购、邮购、委托代购 - 调查:获得记录型信息、非记录型信息尤其零次信息(速度快、质量高、准确性好、针对性强)
形式:访谈、现场调查、访问、发放问卷、样品搜集、对实物、现场的实地考察收集 - 交换:多属于内部资料、非卖品。互相调剂互相补充,扩大信息来源,有利于信息的及时获取
- 索取:不比通过购买或交换来获得
- 检索:手工检索。计算机行检索
- 信息组织的概念
- 信息组织,亦称信息整序,是利用一定的规则、方法和技术对信息的外部特征和内容特征进行揭示和描述,并按给定的参数和序列公式排列,使信息从无序集合转换为有序集合的过程。
- 分众分类
- 一种众多用户参与的分布式的分类体系。
- 由社群参与者运用自由定义标签的方式进行协作分类
- 分类全部由用户直接提交,分类形成过程完全自发
- 分类标注方便灵活,但分类模糊、随意、不够精确
- 信息检索的步骤与信息检索的策略
- 信息检索的步骤
- 分析研究信息检索课题(确定策略的根本出发点。效率高低与成败的关键)
- 选择信息检索工具
①提示线索型信息检索工具(二次文献)书目,馆藏目录,索引,文摘,工具书指南,词典
②提供具体信息的工具书(三次文献)百科全书,传记资料,手册,机构名录,地理资料,年鉴,统计资料,政府文献 - 确定信息检索方法
顺查法,倒查法,抽查法,追溯法,循环法 - 掌握获取原始信息的线索
仔细阅读,判断是否符合检索要求,记录信息材料的有关特征(篇名、作者、工作单位、信息出处)以便查找原始信息 - 获取原始信息
+ 判断文献的出版类型 + 整理文献出处 + 根据出版类型在图书馆或信息机构查找馆藏目录或联合目录确定馆藏
- 信息检索策略
信息检索策略是针对检索提问、运用检索方法和技术而设计的信息检索方案,其目的是要打到一定的查全率和查准率- 明确信息检索课题所涉及的领域和范围
- 明确所需信息的内容及其内容特征
- 明确所需信息的类型(文献媒体、出版类型、年代范围、语种等)
- 明确信息检索课题对查新、查准和查全的指标要求
- 信息服务的含义与内容
- 信息服务就是用不同的方式向用户提供所需信息的一项活动,它是以信息为内容的服务业务
- 内容:
- 对分散在不同载体上的信息进行搜集、评价、选择、组织、存储食指有序化,成为方便利用的形式
- 对用户及信息需求进行研究,以便向他们提供有价值的信息
- 信息产品设计
信息产品内容包括以下几个层次:
- 信息符号:表现信息内容的最基本形式(文字、数字、数字符号、线条、色彩等)
- 基本语义元素:一定信息编码符号的集合,表达一定的目的和语义(一段文字,一幅图片,一段影像,一张图表)
- 逻辑信息单元:按一定目的和结构组合起来的,体现为一定载体形式的信息内容集合(文件,图书,录像)
- 信息集合:信息单元按一定目的和结构组合所组成的信息集合(网站,搜索结果列表,图书馆馆藏,数据库)
- 信息组织体系:一定应用领域根据该领域对象和概念的内在联系所形成的结构化集合(分类体系)
- 网络信息查寻行为(联系与区别)
- 信息检索:具有明确信息需求的网络用户借助专门信息检索工具和使用信息检索语言获取所需要信息的活动
- 信息浏览:缺乏明确信息需求目标或特定意图的用户,利用超文本链接方式在不同网络信息节点间的自由游移从而获得信息的行为
- 区别所在:(信息检索相比于信息浏览)
- 明确确表达信息要求
- 借助具体的网上信息检索工具
- 遵循网络信息检索语言规则
- 容易通过反馈、修改等人机互动方式来调整查寻策略
- 联系:都是个体为了满足其意识到的信息需求而采取的一系列外在的获取信息的活动
- 用户协同信息行为(CIB)
-
类型:
- 协同内容创作:协同写作、协同知识创造(wikipedia)、协同多媒体创作
- 协同信息查寻和检索:协同信息查寻,协同信息检索和协同信息导航
- 协同信息质量控制:社群共同制定相应的活动规则和流程,遵守一系列能被社群成员广泛接受的标准或准则,基于计算机支持的协同技术,共同提升用户生成内容(UGC)的信息质量(翻译:贴吧吧规)
- 计算机支持的社群信息交流:即时和延时通信、网络论坛、博客、维基、社会化标注、社交网站等
这些CIB类型之间并非界限分明和相互独立,除创作和查寻没有重合外,其余两两之间都有交叠
- TAM和TTF模型
- TAM模型:一种测评和预测用户对于信息技术和信息系统接受程度的模型、
两个决定因素:- 感知的有用性:一个人认为一个具体的系统对他工作业绩提高的程度
- 感知的易用性:一个人认为容易使用一个具体的系统的程度
- TTF模型是在TAM中加入考虑任务对使用的影响等因素而扩展形成的
TTF模型认为信息系统的使用绩效根源于任务与技术的匹配
五个关键因子:任务特征 技术特征 个体特征 任务技术的匹配程度(受前三个影响) 变量因子(绩效、利用率)
组织层面上:考虑匹配与效用或适应性的相关
个人层面上:“系统/工作匹配”可以很好预测信息系统的使用情况
- 信息素养
- 信息素养的本质是全球信息化需要人们具备的一种基本能力,包括能够判断什么时候需要信息,懂得如何去获取信息,如何去评价和有效利用所需信息。
- 公共信息资源特性
- 普遍性:免费或低廉价格提供给全体社会公众尤其弱势群体
- 基础性:关系公众工作、学习、生活质量的基本信息
- 公开性:可以向全民公开,不涉及国家、商业机密,国家安全,个人隐私
- 共享性:可以互相交换,实现资源共享
- 广泛性:在各领域广泛存在全民需要
- 国家信息政策的范围
- 确定社会的信息需求
- 设计适当的方法以使信息需求得到满足
- 促进信息资源的有效利用
- 信息专业人员的人力发展
- 确定必须的基础建设
- 确定持续的经费支持
- 信息法律的规范作用
- 指引作用:对信息主体的行为起到导向、引路的作用
- 评价作用:信息法律作为信息主体对他人行为的评价标准
- 预测作用:信息主体根据信息法律的规定预先估计人们相互间将怎样行为以及行为的后果,从而对自身的行为做出合理的安排
- 强制作用:对信息违法行为及犯罪行为的震慑、惩罚和预防
两个中文数据库(万方和cnki)
(待定)信息检索的热点和趋势
- 多媒体检索
(一)基于文本的检索:用文本信息来描述图像、声音、视频等的语义信息,将对多媒体信息的检索转化为基于文本的检索。 手工或者自动:OCR技术、语音识别技术、信息抽取技术。
(二)基于内容的检索:根据多媒体对象的内容及上下文进行语义环境进行检索,如对图像中的颜色、形状、纹理,或视频中的场景、片段进行特征提取与匹配。 eg:百度搜图(图像检索)、微信搜歌(音频检索)、CMU的infomedia数字视频图书馆系统(视频检索)。 - 跨语言信息检索
(一)定义:用户以自己熟悉的语言来构建和提交检索提问式,系统据此检索出符合用户需求的包含多个语种的相关信息。
(二)按照处理的对象分类:提问式翻译(机器翻译)、文献翻译(其他语种的文档信息翻译成源语言)、非翻译(利用关联信息) - 聚合检索
搜索时返回的结果页面中同时包含有多种媒体类型的信息(网页、视频、音频、图像、文档信息等) - 多样化检索
即使在同元信息的情况下,由于用户信息需求多样性,实际上返回信息的类型应该也是多样的。 - 情境检索
其核心是进行情境化、个性化的信息推荐,从而满足用户个性化信息需要,又符合用户当前所在社会、物理、网络环境和心里状态等。
比如当你在QQ聊天的时候,聊到一个话题,可以通过腾讯搜搜返回到这个话题的相关信息;百度糯米APP可以根据地理位置排序美食店结果。 - XML检索
(一)定义:不仅仅是支持文档级的检索,还支持元素级(文档片段)的检索。
(二)根据检索提问式的分类:关键词检索、结构化检索(对于学术文献检索,可以限制返回结果是章节、段落或摘要级别的信息) - 专家检索
(一)定义:检索返回结果是一个个专家的名字及相关信息。
(二)专家检索系统WHU-ES:利用互联网信息,当你输入专业特定术语的时候,可以返回与特定术语相关的专家。基本思想是利用实体识别技术、专业术语词和专家贡献频次之间的高低来进行专家信息检索结果的排列和呈现。 - 问答系统
当用户输入一个问题的时候,是靠计算机自动对文档进行处理,而不是人来返回相应答案。如Start,是一个专门的自然语言处理问答系统