近实时”（NRT）搜索、倒排索引

2025/7/8 16:58:39 来源：https://blog.csdn.net/hezuijiudexiaobai/article/details/144702446 浏览: 次关键词：近实时”（NRT）搜索、倒排索引

近实时（NRT）搜索是 Elasticsearch 的核心特性之一，指的是数据在被写入到系统后，可以几乎立即被搜索和查询到。虽然它不像传统数据库那样完全实时，但它的延迟通常只在几百毫秒到一秒之间。

写入数据：
- 文档写入时被存储在内存缓冲区（translog）。
刷新（Refresh）：
- Elasticsearch 定期将内存中的数据刷新（默认每秒一次），将新数据写入一个称为“段”（segment）的文件中。
- 刷新后，新数据对搜索可见。
延迟原因：
- 数据写入并非直接可搜索，而是需要等刷新完成，这导致搜索是“近实时”。

在这里插入图片描述

倒排索引是 Elasticsearch 用来实现快速全文搜索的核心数据结构。

倒排索引是一种映射结构，它记录了词项（Term）与包含这些词项的文档 ID之间的关系。
与传统的正排索引（如关系型数据库的 B-Tree）不同，倒排索引更加适合快速查找包含特定关键词的文档。

以“倒排”表示其映射方向：

示例文档集：

Doc1: Elasticsearch is a search engine.
Doc2: Elasticsearch is fast and scalable.
Doc3: Full-text search uses inverted index.

倒排索引：

分词（Tokenization）：
- 文本被分解为词项。例如 Elasticsearch is a search engine 被分成：[Elasticsearch, is, a, search, engine]。
去停用词（Stop Words）：
- 移除无意义的词汇（如 “is”, “a” 等）。
词项映射：
- 记录每个词项出现在哪些文档中。