转自:http://blog.csdn.net/forfuture1978/article/details/5668956
Lucene 原理与代码分析系列文章已经基本告一段落,可能问题篇还会有新的更新。
完整版pdf可在下面的链接下载。
http://download.csdn.net/source/2452992
目录如下:
第三步:将得到的词元(Token)传给语言处理组件(Linguistic Processor)。
第四步:将得到的词(Term)传给索引组件(Indexer)。
3.合并相同的词(Term)成为文档倒排(Posting List)链表。
2.判断Term之间的关系从而得到文档相关性的过程,也即向量空间模型的算法(VSM)。
4.1.3.域(Field)的数据信息(.fdt,.fdx)
4.1.3.词向量(Term Vector)的数据信息(.tvx,.tvd,.tvf)
4.1、得到当前线程对应的文档集处理对象(DocumentsWriterThreadState)
4.2、用得到的文档集处理对象(DocumentsWriterThreadState)处理文档
4.3、用DocumentsWriter.finishDocument结束本次文档添加
5、DocumentsWriter对CharBlockPool,ByteBlockPool,IntBlockPool的缓存管理
2.1.2、通过segment_N文件中保存的各个段的信息打开各个段
2.4.1、创建Weight对象树,计算Term Weight
第八章:Lucene的查询语法,JavaCC及QueryParser
5.6、PayloadTermQuery及PayloadNearQuery
6.4、FieldCacheRangeFilter及FieldCacheTermsFilter
6.5、MultiTermQueryWrapperFilter
6、不同的Analyzer就是组合不同的Tokenizer和TokenFilter得到最后的TokenStream
7.1、StandardTokenizerImpl.jflex
问题一:为什么能搜的到“中华AND共和国”却搜不到“中华共和国”?