［转载］MATLAB中获取大型文本文件行数方法研究

在工作中会有很多特殊的需要，比如我现在就遇到一个需要将大型的文本格式数据文件（比如5G）读取到MATLAB中，同时进行一定的处理。由于XP的内存是绝对没有办法将5G的数据一次性加载到工作空间的，此时一般我们是对数据进行分段处理，为了防止长时间等待，让用户以为是死机了，这个时候我们希望添加一个进度条告诉用户处理到什么地方了。但是我们必须先统计文件的行数，才能给出进度。

另外有些用户希望获取文件的长度（字符个数），哦这个其实很简单！

fid=fopen('data.csv');

fseek(fid,0,'eof')

filelength = ftell(fid);

fclose(fid);

现在问题来了，如何获取文本文件的行数呢？？下面我们提供几种解决方案吧！本文代码中测试的data.csv数据文件总共有10万行，大概77M。

方法一

最容易想到的就是使用MATLAB的fgetl或fgets函数，对文本按行读取，然后对行数进行累加。

tic

fid=fopen('data.csv'); % 打开文件

row=0;

while ~feof(fid) % 是否读取到文件结尾
 
[~]=fgets(fid); % 或者fgetl

row=row+1; % 行数累加

end

fclose(fid); % 及时关闭文件是个好习惯

row

toc

运行结果如下，fgets大概耗时大概10s，如果fgetl速度会慢一些，大概需要13s，可能是因为fgel需要将尾部的回车去掉而增加了操作吧

row =
      100000
Elapsed time is 10.556020 seconds.

方法二

其实MATLAB处理复杂文本文件，灵活性最好和效率最高的是textscan函数。灵活性就不用说了，textscan提供很多定制功能，比如跳过的标题行数、设置空白字符等经过测试；至于效率，经过测试，textscan在处理某些数据下是效率fscanf的10倍以上，另外仔细看看dlmread函数，其实也是调用了textscan函数。

接着有人要问，textscan是用来读取数据的，怎么用来统计行数？其实我们只是占了一个便宜而已！因为textscan提供了一个忽略特定字符串的功能。

tic

fid=fopen('data.csv');

% '%*[^\n]' 这个设置估计有人看不懂，特别是后面的那个%

% ，表示读取一个字符

% %*[^\n]，*表示忽略，[^]表示不是[]字符，合起来的意思就是忽略所有不是\n（回车）的字符，更直接的意思就是忽略到行尾

data = (textscan(fid,'%*[^\n]'));

fclose(fid);

row=length(data{1})

toc

row =
      100000
Elapsed time is 12.660186 seconds.

运行时间12s，好像有点长哦，没有想象中的那么厉害。另外这个方法有两个个致命的弱点，因为程序必须每行读取一个字符
（1）假如文件很大，比如10G，那么就算每行读取一个字符，这个也超出了XP内存，因此读取失败！
（2）假如存在空行，那么会将回车读入，%*[^\n]于是就自动忽略了下一行，因此统计的行数不准确！

从上面分析textscan并不适合用于统计大型文件的行数，但是这并不能否定textscan的效率，因为textscan是千真万确一行一行的处理和读取数据文件，只是我们读取第一个字符然后忽略了剩下的所有字符而已。

方法三

其实越是底层的函数效率是越高的，只是使用不方便而已。MATLAB还有一个fread函数，不过这是默认处理的是二进制文件，不过没有关系，文本文件只是一个编码而已，我们还是可以使用fread进行读取的。

tic

fid=fopen('data.csv','rt'); % t是告诉fread是这里文本文件

row=0;

while ~feof(fid)

    % 一次性读取10000字符，计算其中的回车个数，其中10是回车的ASCII编码
    % '*char'表示每次读取一个字符，*表示输出也是字符
    % 放心fread现在已经可以自动识别中文了，万一还是识别不了，
    % 请在fopen中指定文件编码格式，比如gbk
    row=row+sum(fread(fid,10000,'*char')==char(10));
    % 下面还有一个类似的方法，但是效率低很多，大概是上面的一半
    % 'char'表示每次读取一个字符，但是默认输出double，
    % 也就是说读取char然后转换double中间有转换能快吗？
    % row=row+sum(fread(fid,10000,'char')==10);
end

fclose(fid);

row

toc

这个效率呱呱的，简直天壤之别呀，才1.7s！看来这个结果比较令我满意哦！

row =
      100000
Elapsed time is 1.721880 seconds.

方法四

上面的方法都是在循环中不停地对文件进行访问，自然效率是高不起来的。对于大型文件，还有其他什么好的解决方案呢，也许这个时候需要借组外部力量了！传说perl语言对文件操作有很多优势，同时linux提供了wc命令对文件进行行统计，不妨试试？

tic

% 判断计算机操作系统

if (isunix) 

% Linux系统提供了wc命令可以直接使用

% 使用syetem函数可以执行操作系统的函数

% 比如window中dir，linux中ls等

    [~, numstr] = system( ['wc -l ', 'data.csv'] );
    row=str2double(numstr);
elseif (ispc) 

% Windows系统可以使用perl命令

    if exist('countlines.pl','file')~=2
        % perl文件内容很简单就两行
        % while (<>) {};
        % print $.,"\n";
        fid=fopen('countlines.pl','w');
        fprintf(fid,'%s\n%s','while (<>) {};','print $.,"\n";');
        fclose(fid);
    end
    % 执行perl脚本
    row=str2double( perl('countlines.pl', 'data.csv') );
end

row

toc

楼主使用的是window系统，调用perl，果然不负众望，才0.89秒

row =
      100000
Elapsed time is 0.889994 seconds.

其实上面的方法在处理真正的大型文件时，还是可能不是很理想的，本文中测试的文件才77M算不上什么大型文件，后来对一个大约80万行，大小622M的csv文件进行测试，使用perl方法结果如下：

row =
      800001
Elapsed time is 15.859564 seconds.

文件越大，计算时间不是简单的线性增加！到了真正几十甚至几百G这样的大型数据，上面的方法几乎是不能忍受的，也许还有更好的解决方法吧！
有人问有什么好的方法生成上面的测试数据呀？我在MATLAB中是这样生成的！

data=rand(10000,100); % 随机生成1w行数据
save data.csv data -ascii % 保存为文本
for ii=1:5 % 自己复制5次，生成2^5=32万行
% 这里使用了dos命令，效率会好些
% 千万不要使用fprint，否你会残废的
   !type data.csv >> data.csv
end

最后编辑于：2018.10.24 00:40:50

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 203,547评论 6赞 477
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 85,399评论 2赞 381
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 150,428评论 0赞 337
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,599评论 1赞 274
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,612评论 5赞 365
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,577评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 37,941评论 3赞 395
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,603评论 0赞 258
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,852评论 1赞 297
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,605评论 2赞 321
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,693评论 1赞 329
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,375评论 4赞 318
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,955评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,936评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,172评论 1赞 259
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 43,970评论 2赞 349
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,414评论 2赞 342

［转载］MATLAB中获取大型文本文件行数方法研究

推荐阅读更多精彩内容