
Elasticsearch 文本分析
概述
Elasticsearch 中存储的数据可以粗略分为:
- 词项数据 - 采用精确查询。比较两条词项数据是否相对,实际是比较二者的二进制数据,结果只有相等或不相等。
- 文本数据 - 采用全文搜索。比较两个文本数据是否相等,没有太大意义,一般只会比较二者是否相似。相似性比较,是通过相关性评分来评估的。而计算相关性评分,需要对全文先分词处理,然后对分词后的词项进行统计才能进行相似性评估。
Elasticsearch 文本分析是将非结构化文本转换为一组词项(term)的过程。本文将介绍 Elasticsearch 文本分析的各个关键组件,以及文本分析的处理流程。
...大约 10 分钟