前面两篇更新写的是笔杆网的资料库搜集详情,关于资料库的内容,很多新用户只有一个大概的印象,说到资料库的全文内容和元数据仍然没有一个完整的概念。因此决定今天专门写一篇全文内容和元数据的介绍内容,并且将此概念与笔杆网的元数据结合,分析笔杆网的元数据是否有价值?元数据的具体作用到底是什么?元数据从互联网时代开启以来一直处于被人忽视的地位,直到路透社把学术界最优质的元数据做出来,变成学术人士乃至普通大众争相追捧的国际标准。
1.相对于笔杆网数据库而言,全文数据是什么?
对于学术数据库,大家肯定很熟悉各个国内和海外的全文数据库。所谓全文数据库通俗而言就是电子版的全部出版内容。Kindle的电子书也是属于电子数据库的一种。不过默认的数据库内容会更专注于学术研究,更多是各个学科和研究领域的资讯和文章发布和出版。这些是为何这些数据库的主要购买者都是大学和学术机构。
如下图所示,是知网的一条关于妙玉的期刊全文内容:
2.元数据到底是什么?
所谓元数据其实是个很广的概念,很多人会误认为是只有从事计算机行业的人才会有接触。元数据存在于我们每天阅读内容中,只是千篇一律地被人忽视了。关于元数据的描述是 元数据是关于数据的数据。这句话虽然有点拗口,但是是最精准的表达。由于现存的数据量太大,导致很多时候找不到最需要的数据,因此才催生了元数据的雏形。用元数据来为海量的数据作出基本的描述,并且通过这种描述的条目内容建立索引标准,再通过索引来检索,来分析,来辨别此条信息是否是你要找的那条。数据的匹配基本也是依赖着元数据的初步匹配才能得出结果,笔杆网的提纲推荐功能和论文查重检测软件也是基于这个前提。
一般的元数据包含的信息有内容标题,此条内容的作者,如果是期刊就会有刊名,ISSN号也就是期刊国际出版刊号,中文数据就会有中文期号,再有年份,页码,出版日期,出版单位,如果是互联网数据或者电子版内容,就会有互联网来源。除以上的客观展示内容外,还会有数据内容的摘要,摘要是对于读者而言很重要的信息,摘要是此条内容的高度梗概内容,基本看了摘要就能快速判别出此条内容是不是读者寻找的相关内容。笔杆网的元数据内容条目如下图:
3.厚元数据和薄元数据
同时元数据又分为厚元数据和薄元数据。区分的标准很简单,就看此条元数据所包含的内容条目有多少。基本是越多越关键越准确越好,反之就是薄元数据。具体阐述就是,薄元数据只有,题名,作者,来源,出版信息等少量和内容描述无关的信息。如下图:
厚元数据则除了以上基本检索条目外还包含有主题内容,摘要,关于全文的描述内容,全文目录等。此条数据还不算一条优秀的厚元数据,如下图所示:
从我目前的检索体验来分析,笔杆网的厚元数据是占据了很大一部分的,上面的唯一一条薄元数据找了很久才找到。从元数据中的厚元数据可以看出笔杆网的其他产品功能,尤其是论文查重功能是否精准,毕竟任何一个分析功能的背后都是强大的数据库作为基础在为整个产品功能做贡献。
今天对于数据类别的解释就到这里。