Elasticsearch概念及ELK安装

1、Elasticsearch是什么

它是elastic技术栈中的一部分。完整的技术栈包括：

Elasticsearch：用于数据存储、计算和搜索
Logstash/Beats：用于数据收集
Kibana：用于数据可视化

整套技术栈被称为ELK，经常用来做日志收集、系统监控和状态分析等

2、Elasticearch的安装步骤

拉取镜像命令：docker pull elasticsearch:7.12.1

创建容器命令：

docker run -d \--name es \-e "ES_JAVA_OPTS=-Xms512m -Xmx512m" \-e "discovery.type=single-node" \-v es-data:/usr/share/elasticsearch/data \-v es-plugins:/usr/share/elasticsearch/plugins \--privileged \--network hm-net \-p 9200:9200 \-p 9300:9300 \elasticsearch:7.12.1

安装完成后，访问9200端口，即可看到响应的Elasticsearch服务的基本信息：

3、Kibana的安装步骤

拉取镜像命令：docker pull kibana:7.12.1

创建容器命令：

docker run -d \
--name kibana \
-e ELASTICSEARCH_HOSTS=http://es:9200 \
--network=hm-net \
-p 5601:5601  \
kibana:7.12.1

安装完成后，直接访问5601端口，即可看到控制台页面：

4、IK分词器的安装

ik下载地址：https://release.infinilabs.com/

在下面这个目录下载与你Elasticearch版本一致的zip,解压到无中文的目录下

使用命令查看之前安装的Elasticsearch容器的plugins数据卷目录

docker volume inspect es-plugins

应该是这个目录/var/lib/docker/volumes/es-plugins/_data，将刚刚解压的ik文件夹上传到这个目录下

最后重启es容器

重启es容器：docker restart es

测试

访问kibana的dev tools进行测试

IK分词的ik_max_word：最细粒度切分

我们使用IK分词的智能语义切分

5、为什么要学习Elasticearch？

之所以学习Elasticearch是因为他有独特的搜索引擎，可以对海量数据达到最适配的内容查找

倒排索引

倒排索引中有两个非常重要的概念：

文档（Document）：用来搜索的数据，其中的每一条数据就是一个文档。例如一个网页、一个商品信息
词条（Term）：对文档数据或用户搜索数据，利用某种算法分词，得到的具备含义的词语就是词条，例如"今天天气还不错"这样一个简单的句子就可以分为今天，天气，天天，还，不错，错等等这样的词条。

每一条数据是一个文档，

创建表，每行数据包括词条、词条所在文档id、位置等信息

这些文档会有唯一标识，当使用分词器后，该文档就是这些词条的集合

6、Elasticearch的处理流程

流程描述：

1）用户输入条件"华为手机"进行搜索。

2）对用户输入条件分词，得到词条：华为、手机。

3）拿着词条在倒排索引中查找（由于词条有索引，查询效率很高），即可得到包含词条的文档id：1、2、3。

4）拿着文档id到正向索引中查找具体文档即可（由于id也有索引，查询效率也很高）。

7、Elasticearch的基础概念

文档（Document）：

在Elasticsearch中，文档是信息的基本单位，类似于关系数据库中的一行记录。每个文档由一个唯一的ID标识，并存储为JSON对象。文档可以包含多个字段，每个字段都有其数据类型和值。

例如，一个文档可能代表一个用户的个人信息，包括姓名、年龄、电子邮件地址等字段。

字段（Field）：

字段是文档中的单个数据项，类似于关系数据库中的列。每个字段都有其名称和数据类型，例如字符串、整数、日期或地理坐标等。

文本字段（Text Field）：用于全文搜索的非结构化文本数据。

关键词字段（Keyword Field）：用于结构化内容，如精确匹配的标签或标识符。

数值字段（Numeric Field）：用于存储数值数据，包括整数和浮点数。

日期字段（Date Field）：用于存储日期和时间。、

索引（Index）

索引是文档的集合，类似于关系数据库中的数据库。一个索引有一个名称，并且可以包含多个文档。索引用于组织和搜索数据

所有用户文档，就可以组织在一起，称为用户的索引；
所有商品的文档，可以组织在一起，称为商品的索引；
所有订单的文档，可以组织在一起，称为订单的索引；

因此，我们可以把索引当做是数据库中的表。

映射（Mapping）

数据库的表会有约束信息，用来定义表的结构、字段的名称、类型等信息。因此，索引库中就有映射（mapping），是索引中文档的字段约束信息，类似表的结构约束。

8、Elasticsearch与mysql的区别

mysql更适合精确查找，每条数据在数据库中都有唯一的存储位置，也就是唯一标识

Elasticearch更适合适配查找，根据内容对数据库里的数据进行匹配，查找相关的数据

最大的区别就是索引不同，所以适用场景也不相同，

8.1、索引对比

mysql使用的正向索引，Elasticearch使用的倒排索引

正向索引：

优点：可以给多个字段创建索引

根据索引字段搜索、排序速度非常快

缺点：根据非索引字段，或者索引字段中的部分词条查找时，只能全表扫描。

倒排索引：

优点：根据词条搜索、模糊搜索时，速度非常快

缺点：只能给词条创建索引，而不是字段

无法根据字段做排序

8.2、属性对比

MYSQL	Elasticearch	说明
Table	Index	索引(index)，就是文档的集合，类似数据库的表(table)
Row	Document	文档（Document），就是一条条的数据，类似数据库中的行（Row），文档都是JSON格式
Column	Field	字段（Field），就是JSON文档中的字段，类似数据库中的列（Column）
Schema	Mapping	Mapping（映射）是索引中文档的约束，例如字段类型约束。类似数据库的表结构（Schema）
SQL	DSL	DSL是elasticsearch提供的JSON风格的请求语句，用来操作elasticsearch，实现CRUD

9、Elasticearch的适用场景

全文搜索：
利用 Elasticsearch 的全文搜索能力，可以快速检索大量文本数据中的关键词或短语。这对于搜索引擎、电子商务平台的产品搜索、企业文档管理系统等应用非常适用。
日志和数据分析：
Elasticsearch 常用于处理和分析日志数据，它可以高效地存储、索引和搜索来自服务器、应用程序和网络设备的日志信息，帮助进行监控、故障排查和安全分析。
实时数据监控：
由于其快速的索引和搜索能力，Elasticsearch 适合用于实时数据监控系统，比如金融交易监控、网络安全监控等，能够快速响应并分析实时数据流。
内容推荐系统：
Elasticsearch 可以用于构建推荐系统，通过分析用户行为和偏好，提供个性化的内容推荐，这在新闻聚合平台、在线市场和社交媒体等领域非常常见。
地理信息系统（GIS）：
Elasticsearch 提供了强大的地理空间搜索功能，可以用于处理和分析地理数据，适用于需要地理空间分析的应用程序，如地图服务、交通管理、位置跟踪等。