h5ad文件
h5ad文件提供了一种可扩展的方式来记录数据及其注释 (annotation)。单细胞测序的h5ad被分割成X, obs, var, uns等多个部分,分别存储不同的信息。
其中X是表达量矩阵;
obs包含细胞元数据,即从不同方向描述细胞的结果,例如细胞所属tissue;
var包含基因元数据,即从不同方向描述基因的结果,X, obs, var均以dataframe格式存储;
uns是非结构化注释,更多解释可查询h5ad(AnnData)。
h5ad文件需满足的要求
- X是矩阵数据(通常是原始或经过normalization的数据)
- 至少一种降维方式(例如 tSNE, UMAP)的结果
- 每个细胞需要一个唯一的标识符
- 每个基因需要一个唯一的标识符
数据格式
(1)这是之前的数据格式
https://scvelo.readthedocs.io/getting_started/
(2) 最新的数据格式做了扩增
https://anndata.readthedocs.io/en/latest/
数据格式说明及API: https://anndata.readthedocs.io/en/stable/generated/anndata.AnnData.html#anndata.AnnData
loom 文件
也是类似的结构
https://github.com/basilkhuder/Seurat-to-RNA-Velocity