开放性测试物理表
MeFi 是个论坛,里面有很多版块其中包括音乐版块, 从数据集的命名来看
导出的数据全部来源于音乐版块, 所以按照音乐版块分析:
这是音乐版块的网址
注意,所有表的主键字段都放在第一行
1. postdata_music: 发布帖子的信息
字段 | 类型 | 说明 |
---|---|---|
postid | int unsigned | 发布帖子的id |
userid | int unsigned | 用户id (表明是哪位用户发布的) |
datastamp | char(26) | 时间戳,记录发布时间,格式固定 |
category | tinyint unsigned | 主题(在音乐版块中,1表示发布的是音乐, 2表示发布的是song talk) |
comments | int unsigned | 评论数量 |
favorites | int unsigned | 点赞人数 |
deleted | char | 删除与否(0表示未删除,1是已删除) |
reason | varcahr(255) | 删除原因(如果未删除默认为NULL) |
大家建表只要定义主键就行,不用自己定义外键,外键只是起到约束作用,防止插入不合理数据,但是这种情况可以在逻辑上避免. 看表描述很容易自己找到外键 ,这个后期我再加.
2. posttitles_music: 发布帖子的标题
为什么标题不作为一个字段放在上一张表中?
因为标题是可以后期添加的,维基网站上解释标题最初不属于帖子的一部分
比如你可以在某个主题版块发布一个帖子而不用添加标题, 后期也可以添加
字段 | 类型 | 说明 |
---|---|---|
postid | int unsigned | 发布帖子的id |
title | varchar(255) | 发布帖子的标题 |
3. postlength_music: 帖子的一些长度统计信息
字段 | 类型 | 说明 |
---|---|---|
postid | int unsigned | 发布帖子的id |
title | int unsigned | 帖子标题的长度 |
above | int unsigned | 下面解释 |
below | int unsigned | 下面解释 |
url | int unsigned | 链接长度 |
urldesc | int unsigned | 链接长度 |
想象一下你在空间发一条超长的说说, 后面的内容会被隐藏,有个展开按钮. above统计的就是未被隐藏的文字长度, below 统计隐藏的内存长度.
URL理解成一个链接,网址. url, urldesc统计的都是URL长度,但是在music版块中都是0,所以不用管
4. commentdata_music: 评论的信息
字段 | 类型 | 说明 |
---|---|---|
commentid | int unsigned | 评论id |
postid | int unsigned | 帖子id(在哪条帖子下评论) |
userid | int unsigned | 用户id(发布评论的用户) |
datastamp | char(26) | 评论时间 |
faves | int unsigned | 点赞数 |
bset_answer | char | 1表示最佳答案,0表示其他 |
5. commentlength_music: 评论长度(评论中空格和html也会被计入长度)
字段 | 类型 | 说明 |
---|---|---|
commentid | int unsigned | 评论id |
length | int unsigned | 长度 |
6. tagdata_music: 标签
字段 | 类型 | 说明 |
---|---|---|
tag_id | int unsigned | 标签id |
link_id | int unsigned | 链接到的帖子id(即 标签打到哪个帖子上) |
link_date | char(26) | 打标签的时间 |
tag_name | varcahr(255) | 标签名 |
和帖子标题一样,标签也可以在帖子创建时和创建后添加,所以这有个link_data. 但是在创建帖子时创建的标签,时间是精确的,等于帖子的创建时间,在帖子创建之后创建的标签时间是个估计值,具体估计策略在维基页面中有介绍
7.usernames: 用户信息
字段 | 类型 | 说明 |
---|---|---|
userid | int unsigned | 用户id |
joindate | char(26) | 创建时间 |
name | varchar(255) | 用户名 |
该网站从 2000.1.27 才开始追踪用户的创建时间,所以在这之前创建的用户创建时间统一设置为 2000-01-27 20:16:57.367