欢迎来到尧图网

客户服务 关于我们

您的位置:首页 > 汽车 > 新车 > 【elasticsearch实现词重复,文档长度不影响匹配度】

【elasticsearch实现词重复,文档长度不影响匹配度】

2024/10/24 20:22:29 来源:https://blog.csdn.net/qq_27756989/article/details/140732649  浏览:    关键词:【elasticsearch实现词重复,文档长度不影响匹配度】

elasticsearch实现词重复,文档长度不影响匹配度

  • 前言
  • BM25(默认)
  • 索引重建

前言

搜索场景要求:

  1. 关键词重复出现不影响匹配度【默认重复匹配度会提高】
  2. 记录的文档长度不影响匹配度【默认文档越短,匹配度越高】

BM25(默认)

Elasticsearch 在 5.4 版本之后,针对文本类型的字段,默认采用的是 BM25 评分模型,而不是基于 tf-idf 的向量空间模型,它其实也是基于 tf-idf 模型进行优化出来的模型,主要增加了可以控制词频结果在词频饱和度中的上升速度的参数 k1 和 字段平均文档长度相关的控制字段长度归一值的参数 b;BM25 适合短文本的字段。

可设置的参数具体如下:

k1:控制非线性词频的归一标准化,默认为 1.2。
b:基于 tf 值针对文档长度进行归一标准化的控制参数,默认为 0.75
discount_overlaps:确定在计算归一标准化时,是否忽略重叠的 token(位置增量为 0 的 token)。默认情况下为 true,这意味着重叠 token 在计算归一标准化时,不计算在内。

相关资料: 深入理解 es 相似度算法(相关性得分计算)

所以要实现搜索场景要求,需要这样配置:

PUT test_2
{"settings": {"similarity": {"default": { "type": "BM25", "k1": 0,   # 这里设置0才能不影响匹配度而不是1"b": 0,	# 这里设置0才能不影响匹配度"discount_overlaps": false}}},"mappings": {"properties": {"name": {"type": "text","analyzer" : "ik_max_word"},"status": {"type": "short"},"update_time": {"type": "long"}}}
}

索引重建

改匹配度没办法直接修改索引,所以需要重建索引,reindex过去,reindex很快,代码如下:

POST _reindex
{"source": {"index": "test_1" # 这里是老索引},"dest": {"index": "test_2" # 这里是改匹配度后的索引 得先创建修改匹配度后的索引  再reindex}
}

版权声明:

本网仅为发布的内容提供存储空间,不对发表、转载的内容提供任何形式的保证。凡本网注明“来源:XXX网络”的作品,均转载自其它媒体,著作权归作者所有,商业转载请联系作者获得授权,非商业转载请注明出处。

我们尊重并感谢每一位作者,均已注明文章来源和作者。如因作品内容、版权或其它问题,请及时与我们联系,联系邮箱:809451989@qq.com,投稿邮箱:809451989@qq.com