一、发文介绍
很多人都在说现在学习seer晚了,现在seer文章很难发了,诸如此类的话。但是事实上seer数据库挖掘的文章正在逐年上升,并且发了不少高质量的文章。对此我觉得有以下原因:
数据库是客观存在于此,但是临床问题是不断变化更新的。在我们临床实践工作总是会碰到新的问题,我们的指南每年也会更新,我们对疾病的认识也在不断加深,治疗方法也在不断完善成熟。任何新的东西提出来,我们需要在大型数据中去求证。
分析手段的更新。随着AI人工智能发展,产生了很多的新的机器学习算法,当这些算法应用于临床数据中时,展现出很强的预测能力,目前的缺陷是可解释性较差,算法科学家们也在努力攻克这一难题,但是这将是一个新的趋势。按照seer database & machine learning检索出2022年发文54篇,今年已经发表10篇文章,可以说还是一个比较新颖的方向。
很多人都还在担心,花了那么多时间去学习,最后还得抠脑壳写文章,而且据说还很难发表。我只能说与其畏缩不前,不如干了再说。小编也是刚开始学习和尝试seer数据库挖掘的课题,我们有自己的临床数据,所以大概思路便是seer数据库建模,自己数据验证,但具体临床问题还没想好,还得多看文献多看指南,结合临床,提出问题。我我会向写日记般记录自己学习seer数据库挖掘的过程,一是为了和大家分享,二是可以记录历程和经验,好记性不如烂笔头,之前做生信的好多分析流程,一旦不用了很快就忘了,回头去看自己的代码,一脸懵B。
今天先完成注册和plus权限申请。
二、注册
SEER数据库网址:SEER Incidence Data Request - ODS SEER Data Access Request (cancer.gov)
1.进入网址后,在非机构账户那里输入自己的邮箱,点击注册。
2.填写信息,注意机构那里一定要选择NONE!!!
ps:国家那里输入错了,应该是China,但是已经截图了,哈哈,就这样吧。
提交之后是这样的,让你去邮箱确认激活。
3.返回邮箱确认激活
点击邮箱的网址后是这样的
提交之后是这样的:
4.进入邮箱获得用户名和临时密码
5.下载SEER*Stat Software
进入邮箱给的网址,进入stat下载界面,申请下载。
提交申请后,会收到下载软件的邮件,是这样的:
然后复制那个链接就可以下载软件了。
三、plus权限申请
网址还是最开始那个网址,选择非机构用户,输入刚刚注册的邮箱。
随后会收到邮件,点击进去进入申请界面。根据之前的经验,个人感觉研究目的多写点好像申请可以更快通过。
随后收到邮件提示申请已经收到
申请通过后会收到邮件通知:
至此SEER数据库注册及plus权限申请已完成。后面就开始安装软件,收集数据啦。
最后附上第一个条形图代码:
if(!require(ggplot2))install.packages("ggplot2")
df <- read.table(file="PubMed_Timeline_Results_by_Year.csv",
header=TRUE,
sep=",",
check.names=F,
quote="")
ggplot(df,aes(x = Year, y =Count,fill = Year)) +
theme_classic() + ###去除背景颜色
theme(panel.grid=element_blank()) +
theme(legend.position = 'none') +
geom_bar(stat="identity",width = .9) +
scale_fill_viridis_b() +
theme(axis.line.x=element_line(linetype=1,color="black",size=0.7),
axis.line.y=element_line(linetype=1,color="black",size=0.7),
axis.ticks.x=element_line(color="black",size=0.7,lineend = 3),
axis.ticks.y=element_line(color="black",size=0.7,lineend = 3)) +
scale_y_continuous(limits=c(0,1500),breaks=seq(0, 1500, 100),expand = c(0,0)) +
scale_x_continuous(limits=c(1990,2024),breaks=seq(1990, 2024, 2),expand = c(0,0)) +
labs(x = '年份',y = '发文数')+
theme(axis.text.x = element_text(size = 8,colour = 'black',hjust = 0.5),
axis.text.y = element_text(face = "italic",size = 8,colour = 'black'),
axis.title.y = element_text(size = 10,face = "bold"),
axis.title.x = element_text(size = 10,face = "bold"))