tidyverse是一个连贯的数据包操作系统,用于数据操作,探索和可视化,具有共同的设计理念。这些主要是由Hadley Wickham自己开发的,但现在正由几个贡献者扩展。Tidyverse软件包旨在通过引导他们完成促进沟通的工作流程,使统计人员和数据科学家的工作效率更高,从而使统计人员和数据科学家更具生产力。从根本上说,tidyverse是关于使工作流成为可能的工具之间的联系。
整齐的情况也在进行中。 可以在tidyverse.org找到当前的开发状态。单击本网站上每个包的图标将为您提供每个包的详细文档。下图说明了规范数据科学工作流程,并显示了各个包的适用性。
如果您对R有一些经验,那么你应该能够直接进入在线文档并找到解决方法。如果你是R的新手,也可能是数据科学的新手,那么除了通过Hadley Wickham和Garrett Grolemund 撰写的R for Data Science这本书之外,你做得更好。
优点
整合的优势包括一致的功能,工作流程覆盖,数据科学教育的途径,数据科学工具开发的简约方法,以及提高生产力的可能性。
一致性
tidyverse希望在多个层面上保持一致性。“微观”级别一致性的示例包括具有变量名称滑动的约定snake_case,并且整数函数的签名遵循规则模式。(第一个形式参数始终是提供函数输入的数据框。)更高级别的一致性包括整洁数据的概念 - 每个行都是观察的数据框,每列包含单个变量的值 - 以及管道操作员的方式,%>%引导整洁的操作流程。在封面下,有更多层次的结构有助于追求一致性,包括包装组织,测试程序,编码风格等的统一标准。
范围
面显示的工作流程,包括与各个步骤相关联的tidyverse包,或更多通常使用以下标志性的tidyverse图表,在tidyverse的开发之前和推动。
它是规范数据分析工作流程的抽象,始终指导统计人员,但现在将数据科学作为一个地图,以组织,简化,自动化和优化所涉及的各种流程。tidyverse包与所有流程相关联这一事实表明它包含足够的基本构建块,以支持各种数据源和分析目标的整个端到端工作流。此外,相对最近增加的purrr一揽子计划扩展了tidyverse的范围,以支持创建新的数据科学工具。
资源
以下是您可能会发现有助于学习和掌握tidyverse的一些资源。
Hadley Wickham在rstudio :: conf 2017上发表主题演讲的视频
该滑动对应于上述视频
Hadley Wickham和Garrett Grolemund的R for Data Science