Java NIO内存映射---上G大文件处理

转至：http://blog.csdn.net/evankaka/article/details/48464013

林炳文Evankaka原创作品。转载请注明出处http://blog.csdn.net/evankaka

摘要：本文主要讲了Java中内存映射的原理及过程，与传统IO进行了对比，最后，用实例说明了结果。

内存映射文件非常特别，它允许Java程序直接从内存中读取文件内容，通过将整个或部分文件映射到内存，由操作系统来处理加载请求和写入文件，应用只需要和内存打交道，这使得IO操作非常快。加载内存映射文件所使用的内存在Java堆区之外。Java编程语言支持内存映射文件，通过java.nio包和MappedByteBuffer 可以从内存直接读写文件。

内存映射文件

内存映射文件，是由一个文件到一块内存的映射。Win32提供了允许应用程序把文件映射到一个进程的函数 (CreateFileMapping)。内存映射文件与虚拟内存有些类似，通过内存映射文件可以保留一个地址空间的区域，同时将物理存储器提交给此区域，内存文件映射的物理存储器来自一个已经存在于磁盘上的文件，而且在对该文件进行操作之前必须首先对文件进行映射。使用内存映射文件处理存储于磁盘上的文件时，将不必再对文件执行I/O操作，使得内存映射文件在处理大数据量的文件时能起到相当重要的作用。

内存映射IO

在传统的文件IO操作中，我们都是调用操作系统提供的底层标准IO系统调用函数 read()、write() ，此时调用此函数的进程（在JAVA中即java进程）由当前的用户态切换到内核态，然后OS的内核代码负责将相应的文件数据读取到内核的IO缓冲区，然后再把数据从内核IO缓冲区拷贝到进程的私有地址空间中去，这样便完成了一次IO操作。这么做是为了减少磁盘的IO操作，为了提高性能而考虑的，因为我们的程序访问一般都带有局部性，也就是所谓的局部性原理，在这里主要是指的空间局部性，即我们访问了文件的某一段数据，那么接下去很可能还会访问接下去的一段数据，由于磁盘IO操作的速度比直接访问内存慢了好几个数量级，所以OS根据局部性原理会在一次 read()系统调用过程中预读更多的文件数据缓存在内核IO缓冲区中，当继续访问的文件数据在缓冲区中时便直接拷贝数据到进程私有空间，避免了再次的低效率磁盘IO操作。其过程如下

内存映射文件和之前说的标准IO操作最大的不同之处就在于它虽然最终也是要从磁盘读取数据，但是它并不需要将数据读取到OS内核缓冲区，而是直接将进程的用户私有地址空间中的一部分区域与文件对象建立起映射关系，就好像直接从内存中读、写文件一样，速度当然快了。

内存映射的优缺点

内存映射IO最大的优点可能在于性能，这对于建立高频电子交易系统尤其重要。内存映射文件通常比标准通过正常IO访问文件要快。另一个巨大的优势是内存映射IO允许加载不能直接访问的潜在巨大文件。经验表明，内存映射IO在大文件处理方面性能更加优异。尽管它也有不足——增加了页面错误的数目。由于操作系统只将一部分文件加载到内存，如果一个请求页面没有在内存中，它将导致页面错误。同样它可以被用来在两个进程中共享数据。

支持内存映射IO的操作系统

大多数主流操作系统比如Windows平台，UNIX，Solaris和其他类UNIX操作系统都支持内存映射IO和64位架构，你几乎可以将所有文件映射到内存并通过JAVA编程语言直接访问。

Java的内存映射IO的要点

如下为一些你需要了解的java内存映射要点：

java通过java.nio包来支持内存映射IO。

内存映射文件主要用于性能敏感的应用，例如高频电子交易平台。

通过使用内存映射IO，你可以将大文件加载到内存。

内存映射文件可能导致页面请求错误，如果请求页面不在内存中的话。

映射文件区域的能力取决于于内存寻址的大小。在32位机器中，你不能访问超过4GB或2 ^ 32（以上的文件）。

内存映射IO比起Java中的IO流要快的多。

加载文件所使用的内存是Java堆区之外，并驻留共享内存，允许两个不同进程共享文件。

内存映射文件读写由操作系统完成，所以即使在将内容写入内存后java程序崩溃了，它将仍然会将它写入文件直到操作系统恢复。

出于性能考虑，推荐使用直接字节缓冲而不是非直接缓冲。

不要频繁调用MappedByteBuffer.force()方法，这个方法意味着强制操作系统将内存中的内容写入磁盘，所以如果你每次写入内存映射文件都调用force()方法，你将不会体会到使用映射字节缓冲的好处，相反，它(的性能)将类似于磁盘IO的性能。

万一发生了电源故障或主机故障，将会有很小的机率发生内存映射文件没有写入到磁盘，这意味着你可能会丢失关键数据。

二、实例代码

1、传统IO读取数据,不指定缓冲区大小

[java]view plain copy

/**

* 传统IO读取数据,不指定缓冲区大小

* @author linbingwen

* @since 2015年9月5日

* @param path

* @return

publicstaticvoidreadFile1(String path) {

longstart = System.currentTimeMillis();//开始时间

File file =newFile(path);

if(file.isFile()) {

BufferedReader bufferedReader =null;

FileReader fileReader =null;

try{

fileReader =newFileReader(file);

bufferedReader =newBufferedReader(fileReader);

String line = bufferedReader.readLine();

System.out.println("========================== 传统IO读取数据，使用虚拟机堆内存 ==========================");

while(line !=null) {//按行读数据

System.out.println(line);

line = bufferedReader.readLine();

}

}catch(FileNotFoundException e) {

e.printStackTrace();

}catch(IOException e) {

e.printStackTrace();

}finally{

//最后一定要关闭

try{

fileReader.close();

bufferedReader.close();

}catch(IOException e) {

e.printStackTrace();

}

longend = System.currentTimeMillis();//结束时间

System.out.println("传统IO读取数据，不指定缓冲区大小，总共耗时："+(end - start)+"ms");

}

2、传统IO读取数据,指定缓冲区大小

[java]view plain copy

/**

* 传统IO读取数据,指定缓冲区大小

* @author linbingwen

* @since 2015年9月5日

* @param path

* @return

* @throws FileNotFoundException

publicstaticvoidreadFile2(String path)throwsFileNotFoundException {

longstart = System.currentTimeMillis();//开始时间

intbufSize =1024*1024*5;//5M缓冲区

File fin =newFile(path);// 文件大小200M

FileChannel fcin =newRandomAccessFile(fin,"r").getChannel();

ByteBuffer rBuffer = ByteBuffer.allocate(bufSize);

String enterStr ="\n";

longlen = 0L;

try{

byte[] bs =newbyte[bufSize];

String tempString =null;

while(fcin.read(rBuffer) != -1) {//每次读5M到缓冲区

intrSize = rBuffer.position();

rBuffer.rewind();

rBuffer.get(bs);//将缓冲区数据读到数组中

rBuffer.clear();//清除缓冲

tempString =newString(bs,0, rSize);

intfromIndex =0;//缓冲区起始

intendIndex =0;//缓冲区结束

//按行读缓冲区数据

while((endIndex = tempString.indexOf(enterStr, fromIndex)) != -1) {

String line = tempString.substring(fromIndex, endIndex);//转换一行

System.out.print(line);

fromIndex = endIndex +1;

}

longend = System.currentTimeMillis();//结束时间

System.out.println("传统IO读取数据,指定缓冲区大小，总共耗时："+(end - start)+"ms");

}catch(IOException e) {

e.printStackTrace();

}

3、内存映射读文件

[java]view plain copy

/**

* NIO 内存映射读大文件

* @author linbingwen

* @since 2015年9月15日

* @param path

publicstaticvoidreadFile3(String path) {

longstart = System.currentTimeMillis();//开始时间

longfileLength =0;

finalintBUFFER_SIZE =0x300000;// 3M的缓冲

File file =newFile(path);

fileLength = file.length();

try{

MappedByteBuffer inputBuffer =newRandomAccessFile(file,"r").getChannel().map(FileChannel.MapMode.READ_ONLY,0, fileLength);// 读取大文件

byte[] dst =newbyte[BUFFER_SIZE];// 每次读出3M的内容

for(intoffset =0; offset < fileLength; offset += BUFFER_SIZE) {

if(fileLength - offset >= BUFFER_SIZE) {

for(inti =0; i < BUFFER_SIZE; i++)

dst[i] = inputBuffer.get(offset + i);

}else{

for(inti =0; i < fileLength - offset; i++)

dst[i] = inputBuffer.get(offset + i);

}

// 将得到的3M内容给Scanner，这里的XXX是指Scanner解析的分隔符

Scanner scan =newScanner(newByteArrayInputStream(dst)).useDelimiter(" ");

while(scan.hasNext()) {

// 这里为对读取文本解析的方法

System.out.print(scan.next() +" ");

}

scan.close();

}

System.out.println();

longend = System.currentTimeMillis();//结束时间

System.out.println("NIO 内存映射读大文件，总共耗时："+(end - start)+"ms");

}catch(Exception e) {

e.printStackTrace();

}

三、测试对比

1、100M文件

文件大小如下：

调用如下：

[java]view plain copy

publicstaticvoidmain(String args[]) {

String path ="D:"+ File.separator +"CES_T_MSM_LIQ-TRANS-ESP_20150702_01.DAT";

readFile1(path);

//readFile2(path);

//readFile3(path);

}

（1）传统IO读取数据，不指定缓冲区大小，总共耗时：80264ms

其内存使用如下：

（2）传统IO读取数据,指定缓冲区大小，总共耗时：80612ms

其内存使用如下：

（3）NIO 内存映射读大文件，总共耗时：90955ms

其内存使用如下：

分析发现内存映射并没有比传统IO快多少，甚至还更加慢了，有可能是因为磁盘IO操作多了，反而降低了其效率，内存映射看来还是对大文件比较有好的效果。小文件基本上是没有多大的差别的。

2、1.2G文件

传统IO读取数据，不指定缓冲区大小，总共耗时：1245111ms

NIO 内存映射读大文件，总共耗时：1223877ms（大概20分钟多点）

顶

踩

最后编辑于：2017.12.07 03:44:27

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 206,482评论 6赞 481
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 88,377评论 2赞 382
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 152,762评论 0赞 342
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 55,273评论 1赞 279
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 64,289评论 5赞 373
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 49,046评论 1赞 285
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 38,351评论 3赞 400
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,988评论 0赞 259
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 43,476评论 1赞 300
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,948评论 2赞 324
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 38,064评论 1赞 333
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,712评论 4赞 323
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 39,261评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 30,264评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,486评论 1赞 262
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 45,511评论 2赞 354
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,802评论 2赞 345

Java NIO内存映射---上G大文件处理

推荐阅读更多精彩内容