query parameter file 中的参数写在xml格式的文本中。下面详细说明参数的使用方法。
<parameters>
<rule>method:linear,collectionLambda:0.4,documentLambda:0.0</rule>
<index>/home/Index</index>
<count>1000</count>
<query>
<number>51</number>
<text>#combine(Airbus Subsidies)</text>
<workingSetDocno>clueweb09-en0000-00-00004</workingSetDocno> #指定该参数后,query evaluation将在这些文档中进行
<workingSetDocno>clueweb09-en0000-00-00005</workingSetDocno
<workingSetDocno>clueweb09-en0000-00-00006</workingSetDocno>
</query>
<query>
<number>52</number>
<text>#combine(South African Sanctions)</text>
</query>
<fbDocs>10</fbDocs>
<fbTerms>20</fbTerms>
<fbMu>0</fbMu>
<fbOrigWeight>0.5</fbOrigWeight>
<trecFormat>true</trecFormat>
<queryOffset>1</queryOffset>
<runID>indri_query_test</runID>
</parameters>
Retrieval model
- Indri提供TF-IDF,BM25,Language Model三种检索模型。
- Language Model提供Jelinek-Mercer,Dirichlet,Two-Stage三种smoothing方法。
- Indri默认使用Language Model。
- TF-IDF,BM25通过
<baseline>
设置,Language Model通过<rule>
设置。
<rule>method:linear,collectionLambda:0.4,documentLambda:0.0</rule> #Jelinek-Mercer
<rule>method:dirichlet,mu:2500</rule> #Dirichlet
<rule>method:twostage,mu:2500,lambda:0.4</rule> #Two-Stage
<baseline>tfidf,k1:1.2,b:0.75</baseline> # TF-IDF
<baseline>okapi,k1:1.2, k3:7, b:0.75</baseline> #BM25
注意这里的值均为Indri默认值。
Feedback Model
- Indri的pseudo-relevance feedback model 是依据 (LavrenkoCroft, 2001)中的模型实现的。
- 只有TF-IDF和Language Model支持feedback,BM25不支持。
- 参数说明:
fbDocs:指定用于Feedback Model的文档数,整型。
fbTerms:指定用于Feedback Model的词数,整型。
fbMu:Feedback Model中会使用Language Model进行第一次检索,这里的mu值就是Language Model的参数,默认为0,浮点型。
fbOrigWeight:指定原查询的词与扩展的词的权重。默认为0.5,浮点型。
参考文献: