18 聚合与分析之分析功能

在上一篇《聚合与分析之常用聚合示例》中,我们探讨了Elasticsearch中的常用聚合方法,以及如何通过聚合来总结和提炼数据。在本篇中,我们将深入分析Elasticsearch的分析功能,了解其在数据搜索和分析过程中的作用,并通过实际案例来说明如何有效地使用这些功能。

什么是分析功能?

Elasticsearch中,分析功能主要用于两个方面:

  1. 数据索引(Indexing):在数据被存储到索引之前,Elasticsearch需要对其进行分析处理,以便更好地支持搜索。分析过程包括将文本拆分成词条、去除停用词、词干提取等。

  2. 搜索查询(Search Query):在查询过程中,用户输入的搜索文本也需要经过相同的分析过程,以保证索引中的文档能够与用户的查询进行匹配。

分析功能的设计使得Elasticsearch能够以高效、灵活的方式处理文本数据。

Elasticsearch的分析流程

Elasticsearch中,分析通常分为两个阶段:

  • 索引阶段:数据被插入到索引时,通过定义好的分析器(Analyzer)对数据进行处理。
  • 查询阶段:用户发起查询时,查询的文本也会通过相应的分析器进行分析处理。

分析器的组成

Elasticsearch的分析器主要由三个部分组成:

  • 字符过滤器(Character Filter):对原始文本进行初步过滤,例如去除 HTML 标签。
  • 词条过滤器(Token Filter):对字符进行分词,以及对词条进行进一步处理,如去除停用词、词干提取等。
  • 分词器(Tokenizer):负责将文本拆分成一系列词条的基本单元。

示例:自定义分析器

假设我们有一组用户评论数据,我们希望对其中的文本进行特定的分析。我们可以自定义一个分析器来处理这些评论。

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
PUT /comments
{
"settings": {
"analysis": {
"tokenizer": {
"my_tokenizer": {
"type": "standard"
}
},
"filter": {
"my_stop_filter": {
"type": "stop",
"stopwords": ["the", "is", "at", "of", "on"]
}
},
"analyzer": {
"my_analyzer": {
"type": "custom",
"tokenizer": "my_tokenizer",
"filter": ["lowercase", "my_stop_filter"]
}
}
}
},
"mappings": {
"properties": {
"comment": {
"type": "text",
"analyzer": "my_analyzer"
}
}
}
}

在上面的代码中,我们定义了一个自定义的分析器 my_analyzer,它使用了标准分词器并去除了常见的停用词。

分析结果的查看

使用Elasticsearch_analyze API 可以帮助我们检查分析结果,以确认我们的分析器是否按照预期工作。

1
2
3
4
5
POST /comments/_analyze
{
"analyzer": "my_analyzer",
"text": "The quick brown fox jumps over the lazy dog"
}

执行上述命令后,Elasticsearch将返回经过 my_analyzer 处理后的词条,可以用来验证分析流程是否正确。

数据分析与聚合的结合

分析功能对于进行数据的聚合至关重要。通过分析后的数据,我们可以利用聚合功能进行更高层次的分析。例如,找出用户评论中主题相关的情绪或关键词。

假设我们想分析用户评论的情感分布,可以使用terms聚合对评论中的关键词进行统计:

1
2
3
4
5
6
7
8
9
10
11
12
POST /comments/_search
{
"size": 0,
"aggs": {
"top_words": {
"terms": {
"field": "comment",
"size": 10
}
}
}
}

在这个查询中,我们对用户评论的关键词进行了 terms 聚合,返回出现最频繁的词。

小结

在本篇中,我们深入讲解了Elasticsearch的分析功能,以及如何自定义分析器来优化文本数据的处理。分析功能有效地提升了我们的数据索引和搜索质量,为后续的Logstash数据导入打下了基础。在下一篇《数据导入与导出之使用Logstash导入数据》中,我们将学习如何使用Logstash将数据导入Elasticsearch,继续探索数据处理的完整流程。希望大家能够通过这些内容,更好地利用Elasticsearch进行数据分析和搜索。

18 聚合与分析之分析功能

https://zglg.work/elasticsearch-zero/18/

作者

IT教程网(郭震)

发布于

2024-08-15

更新于

2024-08-16

许可协议

分享转发

交流

更多教程加公众号

更多教程加公众号

加入星球获取PDF

加入星球获取PDF

打卡评论