2、索引的增删改查、加权、luke（lucene笔记）

一、创建索引

这里我们先给出相关类方法（工程lucene_index）
IndexUtil.java

package cn.lucene.index;
import java.io.File;
import java.io.IOException;
import org.apache.lucene.analysis.TokenStream;
import org.apache.lucene.analysis.standard.StandardAnalyzer;
import org.apache.lucene.document.Document;
import org.apache.lucene.document.Field;
import org.apache.lucene.document.Fieldable;
import org.apache.lucene.index.CorruptIndexException;
import org.apache.lucene.index.IndexReader;
import org.apache.lucene.index.IndexWriter;
import org.apache.lucene.index.IndexWriterConfig;
import org.apache.lucene.index.FieldInfo.IndexOptions;
import org.apache.lucene.index.StaleReaderException;
import org.apache.lucene.index.Term;
import org.apache.lucene.store.Directory;
import org.apache.lucene.store.FSDirectory;
import org.apache.lucene.store.LockObtainFailedException;
import org.apache.lucene.util.Version;

public class IndexUtil {
    private String[] ids = {"1", "2", "3", "4", "5", "6"};
    //下面是邮件
    private String[] emails = {"aa@qq.com", "bb@sina.edu", "cc@yahu.org", "ss@sina.com", "dd@gmail.com", "ee@163.com"};
    //下面是邮件内容
    private String[] content = {
            "welcom to visited the space", 
            "hello boy", 
            "come on baby", 
            "first blood", 
            "I like football", 
            "my girlfriend is so beatiful"
    };
    private int[] attaches = {2,5,6,5,8,4};//附件数量
    //发件人名字
    private String[] names = {"Tom", "Jack", "goudan", "alibaba", "jerry", "kitty"};
    
    private Directory directory = null;
    
    public IndexUtil() {
        try {
            directory = FSDirectory.open(new File("E:/myeclipse/Lucene/index"));
        } catch (IOException e) {
            e.printStackTrace();
        }
    }

    //创建索引
    public void index(){
        IndexWriter writer = null;
        try {
            writer = new IndexWriter(directory, new IndexWriterConfig(Version.LUCENE_35, new StandardAnalyzer(Version.LUCENE_35)));
            //此方法可将索引全部清空
            writer.deleteAll();
            Document document = null;
            for(int i = 0; i < ids.length; i++){
                document = new Document();
                //id需要存储，不需要加权、分词，email也需要存储，但不需要分词，有时候也需要加权
                //对于内容，我们不需要存储和加权，但需要分词。而名字需要存储，不需要分词和加权
                //这里我们先不对整型数据进行索引，后面再说
                document.add(new Field("id", ids[i], Field.Store.YES, Field.Index.NOT_ANALYZED_NO_NORMS));
                document.add(new Field("email", emails[i], Field.Store.YES, Field.Index.NOT_ANALYZED));
                document.add(new Field("content", content[i], Field.Store.NO, Field.Index.ANALYZED));
                document.add(new Field("name", names[i], Field.Store.YES, Field.Index.NOT_ANALYZED_NO_NORMS));
                writer.addDocument(document);
            }
        } catch (CorruptIndexException e) {
            e.printStackTrace();
        } catch (LockObtainFailedException e) {
            e.printStackTrace();
        } catch (IOException e) {
            e.printStackTrace();
        }finally{
            if(writer != null){
                try {
                    writer.close();
                } catch (CorruptIndexException e) {
                    e.printStackTrace();
                } catch (IOException e) {
                    e.printStackTrace();
                }
            }
        }
    }
}

说明：

1.这里我们只是对id、email、内容、名字创建索引，对于整型数据的索引后面再讲。对于创建索引的过程我们可以联系数据库的创建过程。
2.使用FSDirectory.open方法创建一个索引存放的目录
3.创建一个Document对象，这个对象就像数据库中的字段一样
4.将每个要创建索引的内容（比如id、内容等）都添加到Document对象中，就像我们往数据库中的某个表中的字段添加数据一样。
5.当然我们要将相关的索引创建出来，当然需要借助IndexWriter 对象，此对象用于存储索引。注意，用完之后需要关闭此对象。
6.这里我们还可以使用方法writer.deleteAll()将相关索引全部清空。

现在我们对此方法进行测试（TestIndex.java）

@Test
public void testIndex(){
    IndexUtil util = new IndexUtil();
    util.index();
}

说明：

1.创建完之后我们发现存储目录中多出许多段。我们对段先作一个简要介绍。
2..fnm保存的是域选项的信息；.fdt和.fdx中保存的是Store.YES中的数据；.frq保存的是哪些单词出现了多少次；.nrm存储评分信息（加权信息）；.prx是偏移量；.tii和.tis存储索引中的所有内容信息。

1

二、查询索引

相关方法：

public void query(){
    try {
        IndexReader reader = IndexReader.open(directory);
        //maxDoc 和 numDocs()方法的区别：maxDoc（）返回索引中删除和未被删除的文档总数，
        //后者返回索引中未被删除的文档总数，通过reader可以有效获取文档的数量
        System.out.println("numDocs: " + reader.numDocs());
        System.out.println("maxDocs: " + reader.maxDoc());
        //查看被删除的索引
        System.out.println("deleteDocs : " + reader.numDeletedDocs());
        //记得用完之后关闭
        reader.close();
        
    } catch (CorruptIndexException e) {
        e.printStackTrace();
    } catch (IOException e) {
        e.printStackTrace();
    }
}

说明：

1.查询时使用的是IndexReader类，我们可以使用此类中的相关方法得到有关索引的信息。
2.特别注意maxDoc 和numDocs()方法的区别：maxDoc（）返回索引中删除和未被删除的文档总数，后者返回索引中未被删除的文档总数，因为我们删除一个索引之后并不是真正的删除，而是放在了回收站，当然这里的回收站只是通俗说法，在后面具体说明。通过reader可以有效获取文档的数量。

三、删除索引

相关方法：

public void delete(){
    IndexWriter writer = null;
    try {
        writer = new IndexWriter(directory, new IndexWriterConfig(Version.LUCENE_35, new StandardAnalyzer(Version.LUCENE_35)));
        
        //参数可以是一个选项，可以是一个query，也可以是一个term，term是一个精确查找的值
        //这里我们测试此方法之后再次执行搜索方法，发现文档数numDocs还有5个，比之前少了一个，但是maxDoc还是6个
        //在我们的索引目录中发现出现了一个delete的文件。这里的删除就像一个回收站一样，是可以恢复的
        writer.deleteDocuments(new Term("id", "1"));//这里表示删除索引为1的id
        
    } catch (CorruptIndexException e) {
        e.printStackTrace();
    } catch (LockObtainFailedException e) {
        e.printStackTrace();
    } catch (IOException e) {
        e.printStackTrace();
    }finally{
        if(writer != null){
            try {
                writer.close();
            } catch (CorruptIndexException e) {
                e.printStackTrace();
            } catch (IOException e) {
                e.printStackTrace();
            }
        }
    }
}

说明：这里我们是通过Term对象来精确删除某个索引，当然还有其他很多删除方法，这里不细说。我们删除之后可以再次查询，可以发现回收站中多了一个文件。

测试：

@Test
public void testDelete(){
    IndexUtil util = new IndexUtil();
    util.delete();
}

四、恢复索引

相关方法：

    public void undelete(){
        
        try {
            //使用IndexReader恢复，第二个参数表示readOnly，默认为true，这里我们设置为false
            IndexReader reader = IndexReader.open(directory, false);
            reader.undeleteAll();//这里是恢复所有
            reader.close();
        } catch (StaleReaderException e) {
            e.printStackTrace();
        } catch (CorruptIndexException e) {
            e.printStackTrace();
        } catch (LockObtainFailedException e) {
            e.printStackTrace();
        } catch (IOException e) {
            e.printStackTrace();
        }
    }

测试方法：

@Test
public void testUndelete(){
    IndexUtil util = new IndexUtil();
    util.undelete();
}

说明：上面的方法中我们已经提到过，这里的删除并不是真正的删除，而是放到了回收站，那这里的方法就是将回收站里的索引恢复。这里要注意的是需要将IndexReader.open方法的readOnly设置为false。

五、清除回收站

相关方法：

    public void forcrDelete(){
        IndexWriter writer = null;
        try {
            writer = new IndexWriter(directory, new IndexWriterConfig(Version.LUCENE_35, new StandardAnalyzer(Version.LUCENE_35)));
            
            writer.forceMergeDeletes();//强制清除回收站
            
        } catch (CorruptIndexException e) {
            e.printStackTrace();
        } catch (LockObtainFailedException e) {
            e.printStackTrace();
        } catch (IOException e) {
            e.printStackTrace();
        }finally{
            if(writer != null){
                try {
                    writer.close();
                } catch (CorruptIndexException e) {
                    e.printStackTrace();
                } catch (IOException e) {
                    e.printStackTrace();
                }
            }
        }
    }

测试：

@Test
public void testForceDelete(){
    IndexUtil util = new IndexUtil();
    util.forcrDelete();
}

说明：这里清空方法较为简单，只需要注意不要使用老版本中的方法。

六、手动合并

相关方法：

public void merge(){
    IndexWriter writer = null;
    try {
        writer = new IndexWriter(directory, new IndexWriterConfig(Version.LUCENE_35, new StandardAnalyzer(Version.LUCENE_35)));
        
        //这里我们将允许的段的数量最多只能有两个，那么多余的自然需要合并，
        //当然lucene其实默认有一个值，这里我们只是试验，强制合并的时候
        //会将回收站里的内容清空，当然这里我们设置的段的值为2，所以可能会有一个端中回收站的内容保留下来。
        //在3.5版本之后不建议使用，lucene会根据情况自行处理，如果要清空可以使用forceMergeDeletes方法
        writer.forceMerge(2);
        
    } catch (CorruptIndexException e) {
        e.printStackTrace();
    } catch (LockObtainFailedException e) {
        e.printStackTrace();
    } catch (IOException e) {
        e.printStackTrace();
    }finally{
        if(writer != null){
            try {
                writer.close();
            } catch (CorruptIndexException e) {
                e.printStackTrace();
            } catch (IOException e) {
                e.printStackTrace();
            }
        }
    }
}

测试：

@Test
public void testForceMerge(){
    IndexUtil util = new IndexUtil();
    util.merge();
}

说明：这里我们只是作为演示，其实真正使用时不需要也不建议。在lucene中会自动根据段数量的最大值帮我们进行合并。

七、更新索引

相关方法：

public void update(){
    IndexWriter writer = null;
    try {
        writer = new IndexWriter(directory, new IndexWriterConfig(Version.LUCENE_35, new StandardAnalyzer(Version.LUCENE_35)));

        /* lucene并没有提供更新，这里的更新操作其实是如下两个操作的合集
         * 先删除之后再添加，所以不是在之前的位置更新
         * 测试之后我们会发现回收站中有一个索引
         * */
        Document document = new Document();
        document.add(new Field("id", "11", Field.Store.YES, Field.Index.NOT_ANALYZED_NO_NORMS));
        document.add(new Field("email", emails[0], Field.Store.YES, Field.Index.NOT_ANALYZED));
        document.add(new Field("content", content[0], Field.Store.NO, Field.Index.ANALYZED));
        document.add(new Field("name", names[0], Field.Store.YES, Field.Index.NOT_ANALYZED_NO_NORMS));
        writer.updateDocument(new Term("id", "1"), document);
    } catch (CorruptIndexException e) {
        e.printStackTrace();
    } catch (LockObtainFailedException e) {
        e.printStackTrace();
    } catch (IOException e) {
        e.printStackTrace();
    }finally{
        if(writer != null){
            try {
                writer.close();
            } catch (CorruptIndexException e) {
                e.printStackTrace();
            } catch (IOException e) {
                e.printStackTrace();
            }
        }
    }
}

测试：

@Test
public void testUpdate(){
    IndexUtil util = new IndexUtil();
    util.update();
}

说明：这里的更新和一般意义上的更新不一样，这里的更新是先删除后添加，从测试之后回收站中产生一个文件就可以看出。

八、索引加权

这里我们拷贝上一个工程进行改进，这里是工程（lucene_index01）
给出相关代码IndexUtil.java：

package cn.lucene.index;
import java.io.File;
import java.io.IOException;
import java.util.HashMap;
import java.util.Map;
import org.apache.lucene.analysis.TokenStream;
import org.apache.lucene.analysis.standard.StandardAnalyzer;
import org.apache.lucene.document.Document;
import org.apache.lucene.document.Field;
import org.apache.lucene.document.Fieldable;
import org.apache.lucene.index.CorruptIndexException;
import org.apache.lucene.index.IndexReader;
import org.apache.lucene.index.IndexWriter;
import org.apache.lucene.index.IndexWriterConfig;
import org.apache.lucene.index.FieldInfo.IndexOptions;
import org.apache.lucene.index.StaleReaderException;
import org.apache.lucene.index.Term;
import org.apache.lucene.search.IndexSearcher;
import org.apache.lucene.search.ScoreDoc;
import org.apache.lucene.search.TermQuery;
import org.apache.lucene.search.TopDocs;
import org.apache.lucene.store.Directory;
import org.apache.lucene.store.FSDirectory;
import org.apache.lucene.store.LockObtainFailedException;
import org.apache.lucene.util.Version;

public class IndexUtil {
    private String[] ids = {"1", "2", "3", "4", "5", "6"};
    //下面是邮件
    private String[] emails = {"aa@qq.com", "bb@sina.edu", "cc@yahu.org", "ss@sina.com", "dd@gmail.com", "ee@163.com"};
    //下面是邮件内容
    private String[] content = {
            "welcom to visited the space,I like football", 
            "hello boy, i like someone", 
            "come on baby", 
            "first blood", 
            "I like football,I like football", 
            "my girlfriend is so beatiful, every body like game"
    };
    private int[] attaches = {2,5,6,5,8,4};//附件数量
    //发件人名字
    private String[] names = {"Tom", "Jack", "goudan", "alibaba", "jerry", "kitty"};
    
    private Directory directory = null;
    private Map<String, Float> scores = new HashMap<String, Float>();//新建一个Map，用来存储权值
    
    public IndexUtil() {
        try {
            scores.put("qq.com", 2.0f);//如果是"qq.com"结尾的索引则让其权值为2.0，注意：默认是1.0
            scores.put("sina.edu", 1.5f);
            directory = FSDirectory.open(new File("E:/myeclipse/Lucene/index"));
        } catch (IOException e) {
            e.printStackTrace();
        }
    }

    //创建索引
    public void index(){
        IndexWriter writer = null;
        try {
            writer = new IndexWriter(directory, new IndexWriterConfig(Version.LUCENE_35, new StandardAnalyzer(Version.LUCENE_35)));
            //此方法可将索引全部清空
            writer.deleteAll();
            Document document = null;
            for(int i = 0; i < ids.length; i++){
                document = new Document();
                //id需要存储，不需要加权、分词，email也需要存储，但不需要分词，有时候也需要加权
                //对于内容，我们不需要存储和加权，但需要分词。而名字需要存储，不需要分词和加权
                //这里我们先不对整型数据进行索引，后面再说
                document.add(new Field("id", ids[i], Field.Store.YES, Field.Index.NOT_ANALYZED_NO_NORMS));
                document.add(new Field("email", emails[i], Field.Store.YES, Field.Index.NOT_ANALYZED));
                document.add(new Field("content", content[i], Field.Store.NO, Field.Index.ANALYZED));
                document.add(new Field("name", names[i], Field.Store.YES, Field.Index.NOT_ANALYZED_NO_NORMS));
                
                String et = emails[i].substring(emails[i].lastIndexOf("@") + 1);
                System.out.println(et);
                //加入权值
                //if(scores.containsKey(et)){
                //  document.setBoost(scores.get(et));
                //}else{
                //  document.setBoost(0.5f);
                //}
                writer.addDocument(document);
            }
        } catch (CorruptIndexException e) {
            e.printStackTrace();
        } catch (LockObtainFailedException e) {
            e.printStackTrace();
        } catch (IOException e) {
            e.printStackTrace();
        }finally{
            if(writer != null){
                try {
                    writer.close();
                } catch (CorruptIndexException e) {
                    e.printStackTrace();
                } catch (IOException e) {
                    e.printStackTrace();
                }
            }
        }
    }
}

这里我们给结尾为qq.com和sina.edu的邮件加入权值，注意新建一个Map来保存。但是这里我们先将加入索引的部分代码注释掉，不加入权值，然后写一个搜索方法：
IndexUtil.java

public void search(){
    IndexReader reader;
    try {
        reader = IndexReader.open(directory);
        IndexSearcher searcher = new IndexSearcher(reader);
        TermQuery query = new TermQuery(new Term("content", "like"));//搜索内容中含有like的
        TopDocs tds = searcher.search(query, 10);
        for(ScoreDoc sd : tds.scoreDocs){
            Document doc = searcher.doc(sd.doc);
            System.out.println("(" + sd.doc + ")" + doc.get("name") + "[" + doc.get("email") + "]-->" + doc.get("id"));
        }
    } catch (CorruptIndexException e) {
        e.printStackTrace();
    } catch (IOException e) {
        e.printStackTrace();
    }
}

说明：这里我们搜索内容中含有like关键字的索引，使用测试方法为：

@Test
public void testSearch(){
    IndexUtil util = new IndexUtil();
    util.search();
}

说明：我们先重新生成索引，然后再使用search方法进行搜索，结果为：

(4)jerry[dd@gmail.com]-->5
(1)Jack[bb@sina.edu]-->2
(0)Tom[aa@qq.com]-->1
(5)kitty[ee@163.com]-->6

现在我们将生成索引方法中的加入权值部分代码注释拿掉，重新生成索引，然后再次使用搜索方法查询，结果为：

(0)Tom[aa@qq.com]-->1
(1)Jack[bb@sina.edu]-->2
(4)jerry[dd@gmail.com]-->5
(5)kitty[ee@163.com]-->6

从排序中可以看到我们加入权值的内容排在前面。

九、luke工具

这是一个可以管理lucene索引信息的一个工具，我们可以在命令行中使用命令java –jar lukeall-3.5.0.jar打开。
打开之后，点击Browse选择我们创建的索引存放目录，这里是E:\myeclipse\Lucene\index

点击OK

可以看到相关的索引信息。这里我们只是做一个介绍，后面再具体说明。

最后编辑于：2017.12.03 07:36:53

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 203,937评论 6赞 478
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 85,503评论 2赞 381
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 150,712评论 0赞 337
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,668评论 1赞 276
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,677评论 5赞 366
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,601评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 37,975评论 3赞 396
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,637评论 0赞 258
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,881评论 1赞 298
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,621评论 2赞 321
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,710评论 1赞 329
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,387评论 4赞 319
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,971评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,947评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,189评论 1赞 260
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 44,805评论 2赞 349
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,449评论 2赞 342

2、索引的增删改查、加权、luke（lucene笔记）

一、创建索引

二、查询索引

三、删除索引

四、恢复索引

五、清除回收站

六、手动合并

七、更新索引

八、索引加权

九、luke工具

推荐阅读更多精彩内容