数据科学如何助力科研?

硬件平台、软件环境和算法模型的一站式支持,可以让各学科的研究都能从数据科学的发展获益。

开放

今天是北得克萨斯大学(University of North Texas, UNT)科研信息技术服务中心(Research IT Services)的开放日(Open House)。

昨天丁老师告诉了我们这个消息。于是今天上午,我们实验室的几个小伙伴,就过来参观学习了。

在工作人员的带领下,我们参观了高性能计算机房。那里面真是壮观。

磁盘阵列都在高速运转。拉开抽屉,里面整整齐齐数十个6TB的硬盘。用户的数据可以同时在上面读取。

走近机架,CPU和GPU们制造的热风铺面而来;旁边就是冷却管线。从一排排服务器中间穿梭,真有冰火两重天的感受。

因为噪声很大,讲解人员不得不提高音量。他告诉我们,因为要保证冷却、供电等设施的持续正常运转,整个建筑的结构都是独特的。单单是买来设备之后做布线,就是一个十足的技术活儿。

10点钟,我们在535房间,听了科研信息技术服务中心4名工作人员联合做的报告。报告的内容,极大地改变了我对服务中心功能的印象。

原本以为,他们不过就是网络管理员。为学校里面的师生,提供基础设施。设置用户账号,预装软件,然后解决一些需要重启电脑之类的问题而已。就像英剧《IT》里面这帮家伙一样。

然而,Richard 用一个案例,说明了他的工作,令我感觉到了震撼。

案例

案例来自于一个研究生,叫做 Sheela ,学生物的。

她自己的 LinkedIn 页面,有不少内容没有更新。当初她给自己的预计,是 2017 年底毕业。

事实上,她不仅没有按照预期时间毕业,而且差点儿就没法毕业了。

她的研究方向是生育。希望对比4种不同的治疗方法,在不同条件下对生育的促进影响。

我是外行,不知道这里面数据采集究竟需要多高的成本。但是 Richard 告诉我们,很贵。

Sheela 用了好几年的时间,终于采集到了 104 个样本,每个样本包括 29 个特征变量。

然后,她就试图采用回归和方差分析(Analysis of variance,ANOVA)的手段,来构造模型。结果发现——一点儿显著关系都没有!这几年白干了。

欲哭无泪啊。

是不是就此放弃毕业呢?

Sheela 跑来服务中心,找到 Richard 所在的数据科学与分析(Data Science and Analysis)部门求援。

Richard 发现,由于数据量小,可能的相互作用和潜在模型数量却很多,因此传统方法不适合这个研究的数据分析。

而 Richard 的爱好,恰好就是玩儿各种新鲜的统计工具。

于是,他很快帮助 Sheela 设定了新的分析思路:基于决策树的监督学习+遗传算法,然后采用 BIC 做模型选择。

Sheela 一听就懵了:这说的都是什么?……

没错,这就是具体研究领域人员面临的现实问题——追踪本领域前沿,已经让他们投入了全部精力。他们没有余力,在研究方法和工具上时刻刷新自己的知识和技能。

但是, Richard 说,数据科学与分析(Data Science and Analysis)部门就是在这种情况下,体现自身价值的。

我们参观了 Richard 的办公室。里面就如同一座小型图书馆,摆满了各种书籍和资料。他平时乐此不疲地追踪数据科学进展,因此对于他来说,新的数据分析思路,其实无非对应着 3.5 个 R 软件包(其中有一个软件包,可视化模块独立,所以他认为算半个)而已。

不过,如果你拿普通的电脑试图做这种数据分析,依然是很困难的。 Richard 的电脑是一台配置不错的 Macbook Pro ,16GB的内存,6核CPU。但是为了帮 Sheela 跑这个分析,连续运转了25个小时,依然看不见尽头。

这时候,高性能计算设备的作用就来了。 Richard 旋即把任务扔到了服务器集群上面,同时使用超过200个核心……就是这样,依然跑了10多个小时,才完成。

出来的结果,让 Sheela 欣喜不已。这是 ROC 曲线图:

那 0.5 个软件包,还顺便把决策树的可视化做了。

在这张图里面,4种不同疗法,在不同的条件下,对应的效果差别,一目了然。

Sheela 不仅顺利毕业,而且还把论文发在了一份很好的期刊上面。

这是个皆大欢喜的结局。

功能

Richard 是这样描述部门使命的:

可以看到,数据科学与分析部门,从软件、硬件、算法和模型构造,全方位为有需要的师生提供支持。

不仅帮助学生搞定毕业论文,他们还和教授们合作,共同申请科研项目经费。

他们还利用教程的方式,把数据科学的基础知识与技能分享给大家。

这种分享,是超越学校范围的,每个人都可以获取。你可以访问这个链接,看看他们精心制作的 R 语言教程。

每一段教程里面,都不仅给出了完整的代码,可以拷贝粘贴直接用,而且还有详细的注释,甚至是附带数据的下载链接。

师生们可以根据自己的需求,找到相应的教程,直接应用到自己的研究问题和数据上面。

数据科学与分析部门还会经常提供培训讲座。例如明天,就会有利用服务集群做机器学习和深度学习的教学演示。我听了很兴奋。

Richard 的同事 Jon 介绍说,他们不仅有 R 语言教程,还有 SPSS 和 SAS,甚至是 Latex 的教程。这些教程会经常更新,并且不断补充新的应用场景。

我很兴奋地询问,有没有 Python 教程?

Jon 面露难色,告诉我说“不好意思,我们属于 R 阵营”。

小结

一上午的参观学习,让我们收获良多。令我们印象最深刻的,并不只是那些硬件基础设施,而是这种数据科学对科研的真正有效推动。

数据科学是专业领域,并非每个人都需要成为数据科学家。门槛的降低,可以让更多人应用数据科学提供的便捷工具,来推进自己的科研,尤其是其中的数据分析环节。

更可宝贵的,是这种一站式咨询与合作方式,不仅可以帮助有困难的师生解决燃眉之急,更有助于形成良性互动循环,使得科研项目做大做强。就像下图中展现的一样。

喜欢请点赞和打赏。还可以微信关注和置顶我的公众号“玉树芝兰”(nkwangshuyi)

如果你对 Python 与数据科学感兴趣,不妨阅读我的系列教程索引贴《如何高效入门数据科学?》,里面还有更多的有趣问题及解法。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 204,921评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 87,635评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 151,393评论 0 338
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,836评论 1 277
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,833评论 5 368
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,685评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,043评论 3 399
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,694评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 42,671评论 1 300
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,670评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,779评论 1 332
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,424评论 4 321
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,027评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,984评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,214评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,108评论 2 351
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,517评论 2 343