稀疏矩阵用于python的keras和theano

稀疏矩阵

稀疏矩阵(sparse matrix)是由于矩阵中存在大量0,从而可以采用特别的存储技巧来压缩内存。
由于在工作需要将一个150666569x9860的超大矩阵作为数据,来训练NN模型,所以采用稀疏矩阵的方式,将这个超大矩阵压缩,从而使得能够放入内存中。
python的稀疏矩阵在scipy包中,而theano同时支持的是csc_matrix,和csr_matrix。

from scipy.sparse import csc_matrix,csr_matrix

这两种稀疏矩阵的选择取决于要稀疏的矩阵的情况,如果row比column多,就用csc_matrix,反之则用csr_matrix,更具体的可以看这里。我们当然就选择scs_matrix

构建稀疏矩阵

有两种方法构建矩阵,一种方法是用3个list,分别记录非0元素的行序列, 列序列,还有该元素本身。

row = np.array([0, 2, 2, 0, 1, 2])
col = np.array([0, 0, 1, 2, 2, 2])
data = np.array([1, 2, 3, 4, 5, 6])
sparse_matrix=csc_matrix((data, (row, col)), shape=(3, 3))
sparse_matrix.toarray()
output:array([[1, 0, 4], 
              [0, 0, 5], 
              [2, 3, 6]])

另一种方法也是用3个list,看例子来详解下

indptr = np.array([0, 2, 3, 6])
indices = np.array([0, 2, 2, 0, 1, 2])
data = np.array([1, 2, 3, 4, 5, 6])
csc_matrix((data, indices, indptr), shape=(3, 3)).toarray()
output:
array([[1, 0, 4], 
      [0, 0, 5],
      [2, 3, 6]])

在csc_matrix中indptr的差值代表每列有几个非0元素,比如2-0=2,代表第一列有2个非0元素,在哪里是看indices这个list,它记录了行的序列,元素本身则在data list中。
知道这个原理,我们可以自己写一个合并两个csc_matrix的函数:

def concatenate_csc_matrices_by_columns(matrix1, matrix2):
    new_data = np.concatenate((matrix1.data, matrix2.data))
    new_indices = np.concatenate((matrix1.indices, matrix2.indices))
    new_ind_ptr = matrix2.indptr + len(matrix1.data)
    new_ind_ptr = new_ind_ptr[1:]
    new_ind_ptr = np.concatenate((matrix1.indptr, new_ind_ptr))
    return csc_matrix((new_data, new_indices, new_ind_ptr))

很明显的看到,第二种存储稀疏矩阵的方式,更节省空间。但是第一种更浅显易懂。

将稀疏矩阵用于theano

以deeplearning tutorial的mlp为例,如果输入的training_x数据为稀疏矩阵,那么需要改一下几个地方:

  1. Symbolic declaration:
    将原来的x = T.matrix('x')改成:
x = theano.sparse.csc_matrix('x')
  1. 将Hiddenlayer的lin_out改成:
 lin_output = theano.sparse.dot(input, self.W) + self.b

其他只要跟原来的模型保持一致就可以了。

theano改起来还是很容易的,这主要是因为theano本身支持稀疏矩阵。

将稀疏矩阵用于keras

Keras is a minimalist, highly modular neural networks library, written in Python and capable of running on top of either TensorFlow or Theano.
keras是一个高度模块化的深度学习框架,用起来非常方便,只需要关注模型本身就行。
要使得稀疏矩阵能在keras中用,只需要对keras的training.py这个文件做些修改就行。

  1. 将所有len(ins[0])替换成ins[0].shape[0]
  2. 在用SGD的时候,将每批batch选出来的样本还原成正常的矩阵,这样的方式,使得内存不会被占用很多。要实现这个,只需要在每次调用slice_X这个函数之后,插入如下代码,将ins_batch变成正常矩阵就可以。
    代码如下:
if sps.issparse(ins_batch[0]):    
      ins_batch[0] = ins_batch[0].toarray()
if sps.issparse(ins_batch[1]):    
      ins_batch[1] = ins_batch[1].toarray()

总结

  1. keras很好用
  2. keras是用python实现的,查看源代码很方便,修改起来也很方便
  3. 这次因为这个稀疏矩阵的需求,研究了下theano和keras,收获颇丰,以后有机会还是应该多看看源代码
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 206,311评论 6 481
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 88,339评论 2 382
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 152,671评论 0 342
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 55,252评论 1 279
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 64,253评论 5 371
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,031评论 1 285
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,340评论 3 399
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,973评论 0 259
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 43,466评论 1 300
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,937评论 2 323
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,039评论 1 333
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,701评论 4 323
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,254评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,259评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,485评论 1 262
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,497评论 2 354
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,786评论 2 345

推荐阅读更多精彩内容