[Whoosh 搜索引擎之 二 ] Whoosh 简介

Whoosh 简介

关于 Whoosh

Whoosh 由 Matt Chaput 创建。 它最初是一个快速而杂乱 (dirty) 的搜索服务器,用于搜索 Houdini 3D 动画软件包的在线文档。 Side Effects Software 慷慨地允许 Matt 开源代码,以防它可能对需要非常灵活或纯 Python 搜索引擎(或两者!)的任何其他人有用。

  • Whoosh 速度很快,但只使用纯 Python,因此它可以在任何 Python 运行的地方运行,而不需要编译器。
  • 默认情况下,Whoosh 使用 Okapi BM25F 排名功能,但与大多数东西一样,排名功能可以轻松定制。
  • 与许多其他搜索库相比,Whoosh 创建的索引相当小。
  • Whoosh 中的所有索引文本都必须是 unicode。
  • Whoosh 允许您存储带有索引文档的任意 Python 对象。

Whoosh 是什么?

Whoosh 是一个快速、纯 Python 的搜索引擎库。

Whoosh 的主要设计动力是它是纯 Python。 您应该能够在任何可以使用 Python 的地方使用 Whoosh,不需要编译器或 Java。

与其祖先之一 Lucene 一样,Whoosh 并不是一个真正的搜索引擎,它是一个用于创建搜索引擎的程序员库 [1]。

实际上,Whoosh 的任何重要行为都不是硬编码的。 文本索引、每个字段中每个术语存储的信息级别、搜索查询的解析、允许的查询类型、评分算法等都是可定制的、可替换的和可扩展的。

[1] 当然可以在 Whoosh 之上构建交钥匙搜索引擎,就像 Nutch 和 Solr 使用 Lucene 一样。

Whoosh 能为您做什么?

Whoosh 让您可以索引自由格式或结构化文本,然后根据简单或复杂的搜索条件快速找到匹配的文档。

获得有关 Whoosh 的帮助

您可以在 Whoosh Bitbucket 页面上查看未解决的问题,并在 Whoosh 邮件列表上获得帮助。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容