【Elasticsearch】diversified sampler

作用就是聚合前的采样，主要是采样它就是用来采样的，采完样后在进行聚合操作

`random_sampler`和`diversified_sampler`是 Elasticsearch 中用于聚合查询的两种采样方法，它们的主要区别如下：

采样方式

• `random_sampler`：通过随机选择文档的方式进行采样。它会根据指定的概率（`probability`参数）从整个文档集合中随机抽取文档，而不考虑文档的其他特征。

• `diversified_sampler`：在采样的基础上增加了多样性限制。它会根据指定的字段（`field`参数）对文档进行分组，并限制每个分组中最多采样的文档数量（`max_docs_per_value`参数），从而确保采样结果中包含更多不同的字段值。

适用场景

• `random_sampler`：适用于需要快速获取近似结果的场景，尤其是在数据量非常大时，可以通过采样显著提高查询性能。例如，计算价格的百分位数时，可以使用随机采样来快速得到一个近似的结果。

• `diversified_sampler`：适用于需要消除数据偏差的场景，例如在分析用户生成的内容时，避免某些用户或来源的过度影响。例如，在分析 StackOverflow 上的标签时，可以通过限制每个作者的文档数量来避免某些作者的偏好对结果的影响。

参数设置

• `random_sampler`：

• `probability`：指定采样的概率，必须大于 0 且小于 0.5。

• `seed`：可选参数，用于指定随机采样的种子，确保多次查询的结果一致。

• `diversified_sampler`：

• `field`：指定用于去重的字段。

• `max_docs_per_value`：限制每个字段值最多采样的文档数量，默认为 1。

• `shard_size`：指定每个分片上采样的文档数量。

输出结果

• `random_sampler`：返回的文档数量是根据采样概率计算的，结果是随机的，但可以通过种子参数保持一致。

• `diversified_sampler`：返回的文档数量会受到多样性限制的影响，确保每个字段值的文档数量不超过指定的最大值。

总结来说，`random_sampler`更注重快速采样和性能优化，而`diversified_sampler`更注重采样的多样性和公平性，适用于需要消除数据偏差的场景。

在采样的基础上增加多样性限制，是指在随机抽取文档的过程中，通过一些额外的规则来确保采样结果中包含更多不同的特征或类别，而不是完全随机地抽取文档。这种多样性限制可以帮助减少数据的偏差，使采样结果更具代表性。

具体解释

假设我们有一个文档集合，每个文档都有一个或多个特征（例如，文档的作者、标签、类别等）。在没有多样性限制的情况下，随机采样可能会导致某些特征的文档被过度采样，而其他特征的文档则被忽略。例如，如果某个作者的文档数量特别多，随机采样可能会导致大部分采样结果都来自这个作者，而其他作者的文档则很少被采样到。

为了克服这种偏差，`diversified_sampler`在采样的基础上增加了多样性限制。它会根据指定的字段（例如，作者字段）对文档进行分组，并限制每个分组中最多采样的文档数量。这样可以确保每个分组（即每个作者）都有机会被采样到，从而提高采样结果的多样性。

举例说明

假设我们有一个包含以下文档的集合，每个文档都有一个`author`字段：

文档ID author 内容

1 Alice 文章A

2 Alice 文章B

3 Bob 文章C

4 Charlie 文章D

5 Bob 文章E

6 Alice 文章F

如果我们使用普通的随机采样（`random_sampler`），可能会得到以下结果（假设采样概率为 0.5）：

文档ID author 内容

1 Alice 文章A

2 Alice 文章B

5 Bob 文章E

可以看到，Alice 的文档被过度采样了，而 Charlie 的文档没有被采样到。

如果我们使用`diversified_sampler`，并设置`field=author`和`max_docs_per_value=1`，那么采样结果可能会是：

文档ID author 内容

1 Alice 文章A

3 Bob 文章C

4 Charlie 文章D

在这种情况下，每个作者的文档最多被采样一次，从而确保了采样结果中包含更多不同的作者。这就是在采样的基础上增加了多样性限制的含义。

作用

通过增加多样性限制，`diversified_sampler`可以：

1. 减少数据偏差：避免某些特征（如某个作者或某个标签）的文档被过度采样，从而提高采样结果的公平性和代表性。

2. 提高结果的多样性：确保采样结果中包含更多不同的特征或类别，这对于数据分析和机器学习等场景非常有用，因为这些场景通常需要多样化的数据来训练模型或进行分析。

总之，`diversified_sampler`在随机采样的基础上增加了多样性限制，使得采样结果更加均衡和多样化。

那diversified_sampler最终不还是随机吗？

是的，`diversified_sampler`的采样过程仍然具有随机性，但它在随机采样的基础上增加了多样性限制，以确保采样结果中包含更多不同的特征或类别。这种多样性限制可以减少某些特征（如作者或来源）的文档过度占据采样结果的可能性，从而提高结果的代表性和公平性。

随机性与多样性的结合

1. 随机性：`diversified_sampler`在选择文档时仍然会随机选择，这意味着每次运行查询时，即使设置了相同的参数，采样结果可能也会有所不同。这种随机性确保了采样过程的公平性，避免了对某些特定文档的偏袒。

2. 多样性限制：通过设置`field`和`max_docs_per_value`参数，`diversified_sampler`会限制每个分组（如每个作者或每个来源）中最多采样的文档数量。这确保了采样结果中包含更多不同的特征或类别，从而减少某些特征的文档过度占据结果的可能性。

具体实现

• 随机选择：在每个分片内，`diversified_sampler`会随机选择文档。

• 多样性限制：在随机选择的过程中，它会根据`field`参数对文档进行分组，并根据`max_docs_per_value`参数限制每个分组中最多采样的文档数量。

示例说明

假设你有一个包含以下文档的集合，每个文档都有一个`author`字段：

文档ID author 内容

1 Alice 文章A

2 Alice 文章B

3 Bob 文章C

4 Charlie 文章D

5 Bob 文章E

6 Alice 文章F

如果你使用`diversified_sampler`，并设置`field=author`和`max_docs_per_value=1`，那么采样过程如下：

1. 随机选择：在每个分片内，随机选择文档。

2. 多样性限制：对于每个作者，最多只选择一个文档。

假设随机选择的结果如下：

文档ID author 内容

1 Alice 文章A

3 Bob 文章C

4 Charlie 文章D

可以看到，虽然选择过程是随机的，但由于多样性限制，每个作者最多只有一个文档被采样，从而确保了结果的多样性。

总结

`diversified_sampler`的确是随机的，但它通过多样性限制确保了采样结果中包含更多不同的特征或类别。这种结合随机性和多样性的方法可以有效减少某些特征的文档过度占据结果的可能性，从而提高结果的代表性和公平性。

【Elasticsearch】diversified sampler

相关资讯

热文排行

最新新闻

推荐新闻

热搜词