掌握ElasticSearch（六）：分析过程

文章目录

一、什么是分析
- 1. 字符过滤 (Character Filtering)
- 2. 分词 (Breaking into Tokens)
- 3. 词条过滤 (Token Filtering)
- 4. 词条索引 (Token Indexing)
二、内置分析器分类
- 1. 标准分析器 (Standard Analyzer)
- 2. 简单分析器 (Simple Analyzer)
- 3. 语言分析器 (Language Analyzers)
- 4. 关键字分析器 (Keyword Analyzer)
- 5. 模式分析器 (Pattern Analyzer)
- 6. 音译分析器 (Phonetic Analyzer)
- 7. 自定义分析器 (Custom Analyzer)
三、如何使用分析器
- 1. 在创建索引时使用分析器
- - 示例
- 2. 在 ES 配置文件中指定全局的分析器
- - 示例
- 3. 结合以上两种方法使用
- - 示例

一、什么是分析

Elasticsearch 的分析过程是将文本数据转换成适合搜索的形式的关键步骤。这一过程主要包括四个阶段：字符过滤、分词、词条过滤和词条索引。

在这里插入图片描述

1. 字符过滤 (Character Filtering)

字符过滤是分析过程的第一步，它发生在文本被分词之前。字符过滤器的主要作用是对输入文本进行预处理，以去除或替换某些字符。这一步可以帮助改善后续分析的效果，尤其是在处理包含特殊字符或格式化内容（如 HTML 标签）的文本时尤为重要。

用途：例如，可以使用字符过滤器来删除文本中的 HTML 标签，或将某些字符转换为其他字符（比如将连字符转换为空格）。
实现：Elasticsearch 提供了一些内置的字符过滤器，如 html_strip 用于剥离 HTML 标签。此外，也可以编写自定义的字符过滤器来满足特定的需求。

2. 分词 (Breaking into Tokens)

分词是将文本切分为更小的单位，即词条（tokens）的过程。每个词条代表一个独立的搜索项。分词器的选择对最终的搜索结果影响很大。

分词器类型：
- 标准分词器：适用于多种语言，能够识别并分割大多数常见文本。
- 语言特定分词器：如中文分词器（如 IK 分词器或结巴分词器），能够更好地处理特定语言的文本。
- 模式分词器：允许使用正则表达式来自定义分词规则。
例子：假设有一个句子 “Elasticsearch is a powerful search engine”，标准分词器会将其分解为 [“Elasticsearch”, “is”, “a”, “powerful”, “search”, “engine”]。

3. 词条过滤 (Token Filtering)

分词后的词条会通过一系列的词条过滤器进行处理，以优化搜索性能和相关性。词条过滤器可以执行多种操作，包括但不限于：

小写转换：将所有词条转换为小写，以确保搜索时不区分大小写。
停用词移除：移除那些在搜索中通常不提供有用信息的常见词汇，如 “the”、“and” 等。
词干提取：将词条还原到其基本形式，例如将 “running” 转换为 “run”。
同义词扩展：将词条替换为一组相关的词条，以提高搜索的覆盖范围。
词形还原：将词条还原到其词典形式，与词干提取类似，但更精确。

4. 词条索引 (Token Indexing)

经过字符过滤、分词和词条过滤之后，最终的词条将被索引。索引过程涉及将词条及其元数据（如位置信息、频率等）存储在倒排索引中。倒排索引是一种数据结构，它允许快速查找包含特定词条的文档。

倒排索引结构：每个词条对应一个文档列表，列表中的每个元素表示该词条出现在哪个文档中以及出现的位置。
索引存储：词条和其元数据被高效地存储，以便于快速检索。

二、内置分析器分类

在这里插入图片描述

Elasticsearch 提供了多种内置的分析器，每种分析器都针对特定的使用场景进行了优化。这些内置分析器可以处理不同的语言和文本类型，帮助用户更有效地索引和搜索数据。下面详细介绍几种常用的内置分析器及其特点：

1. 标准分析器 (Standard Analyzer)

描述：这是 Elasticsearch 的默认分析器，适用于多种语言的通用文本分析。它使用标准分词器和标准词条过滤器。

分词器：

标准分词器：将文本拆分为单词，忽略标点符号和空白字符。

词条过滤器：

小写过滤器：将所有词条转换为小写。
停止词过滤器：移除常见的停用词（如 “the”、“is” 等）。

示例：

{"analyzer": {"standard": {"type": "standard"}}
}

2. 简单分析器 (Simple Analyzer)

描述：适用于简单的文本分析，主要用于英文。它使用简单分词器，将文本按非字母字符拆分，并将所有词条转换为小写。

分词器：

简单分词器：将文本按非字母字符拆分。

词条过滤器：

小写过滤器：将所有词条转换为小写。

示例：

{"analyzer": {"simple": {"type": "simple"}}
}

3. 语言分析器 (Language Analyzers)

描述：Elasticsearch 提供了多种语言特定的分析器，每种语言分析器都针对特定语言的语法和词汇进行了优化。

示例：

英语分析器 (english):
- 分词器：标准分词器
- 词条过滤器：小写过滤器、英语停用词过滤器、英语词干提取过滤器
中文分析器 (smartcn):
- 分词器：智能中文分词器
- 词条过滤器：小写过滤器

示例：

{"analyzer": {"english": {"type": "english"},"smartcn": {"type": "smartcn"}}
}

4. 关键字分析器 (Keyword Analyzer)

描述：不进行任何分析，直接将整个输入文本作为一个单一的词条。适用于不需要分词的字段，如 ID、标签等。

分词器：

关键字分词器：将整个输入文本作为一个单一的词条。

示例：

{"analyzer": {"keyword": {"type": "keyword"}}
}

5. 模式分析器 (Pattern Analyzer)

描述：使用正则表达式来分词。适用于需要自定义分词规则的场景。

分词器：

模式分词器：根据提供的正则表达式将文本拆分为词条。

示例：

{"analyzer": {"pattern_analyzer": {"type": "pattern","pattern": "\\W+","lowercase": true}}
}

6. 音译分析器 (Phonetic Analyzer)

描述：将词条转换为其音译形式，适用于模糊匹配和拼写纠正。常用算法包括 Soundex 和 Metaphone。

分词器：

标准分词器

词条过滤器：

音译过滤器：将词条转换为其音译形式。

示例：

{"analyzer": {"phonetic_analyzer": {"tokenizer": "standard","filter": ["soundex"]}}
}

7. 自定义分析器 (Custom Analyzer)

描述：用户可以根据需要组合不同的分词器、字符过滤器和词条过滤器来创建自定义分析器。

示例：

{"settings": {"analysis": {"analyzer": {"my_custom_analyzer": {"type": "custom","char_filter": ["html_strip"],"tokenizer": "standard","filter": ["lowercase", "stop", "snowball"]}}}}
}

三、如何使用分析器

我们可以在创建索引时使用分析器，也可以在ES配置文件中指定全局的analyzer；以及结合以上两种方法使用。

1. 在创建索引时使用分析器

在创建索引时，可以指定特定字段使用的分析器。这种方式提供了细粒度的控制，可以根据每个字段的具体需求选择不同的分析器。

示例

假设我们有一个博客文章的索引，其中包含标题和内容字段，我们可以分别为这两个字段指定不同的分析器。

PUT /blog
{"settings": {"analysis": {"analyzer": {"default_title_analyzer": {"type": "standard"},"default_content_analyzer": {"type": "english"}}}},"mappings": {"properties": {"title": {"type": "text","analyzer": "default_title_analyzer"},"content": {"type": "text","analyzer": "default_content_analyzer"}}}
}

在这个示例中：

default_title_analyzer 使用标准分析器。
default_content_analyzer 使用英语分析器。
title 字段使用 default_title_analyzer。
content 字段使用 default_content_analyzer。

2. 在 ES 配置文件中指定全局的分析器

在 Elasticsearch 的配置文件（通常是 elasticsearch.yml）中，可以设置全局的分析器。这种方式适用于希望在整个集群中统一使用某个分析器的情况。

示例

假设我们希望在集群中统一使用标准分析器作为默认分析器。

index.analysis.analyzer.default.type: standard

这样配置后，所有新创建的索引如果没有指定特定的分析器，都会使用标准分析器。

3. 结合以上两种方法使用

在实际应用中，可以结合以上两种方法，既在配置文件中设置全局的分析器，又在创建索引时为特定字段指定不同的分析器。这样可以灵活地满足不同场景的需求。

示例

假设我们在配置文件中设置全局的默认分析器为标准分析器，但在创建索引时为特定字段指定不同的分析器。

配置文件 elasticsearch.yml:

index.analysis.analyzer.default.type: standard

创建索引时的配置:

PUT /blog
{"settings": {"analysis": {"analyzer": {"default_content_analyzer": {"type": "english"}}}},"mappings": {"properties": {"title": {"type": "text"},"content": {"type": "text","analyzer": "default_content_analyzer"}}}
}

在这个示例中：

全局默认分析器是标准分析器。
title 字段没有指定分析器，因此会使用全局的默认分析器（标准分析器）。
content 字段指定了 default_content_analyzer，使用英语分析器。

掌握ElasticSearch（六）：分析过程

文章目录

一、什么是分析

1. 字符过滤 (Character Filtering)

2. 分词 (Breaking into Tokens)

3. 词条过滤 (Token Filtering)

4. 词条索引 (Token Indexing)

二、内置分析器分类

1. 标准分析器 (Standard Analyzer)

2. 简单分析器 (Simple Analyzer)

3. 语言分析器 (Language Analyzers)

4. 关键字分析器 (Keyword Analyzer)

5. 模式分析器 (Pattern Analyzer)

6. 音译分析器 (Phonetic Analyzer)

7. 自定义分析器 (Custom Analyzer)

三、如何使用分析器

1. 在创建索引时使用分析器

示例

2. 在 ES 配置文件中指定全局的分析器

示例

3. 结合以上两种方法使用

示例

相关资讯

热文排行

最新新闻

推荐新闻

热搜词