分类 Elasticsearch 下的文章

ES中的倒排索引与相关性算法计算(TF-IDF/BM25)

一、倒排索引

daopai.png

上图所示左边为正常索引,右边为倒排索引。

倒排索引的核心组成

  • 单词词典(Term Dictionary),记录所有文档的单词,记录单词到到排列表的关联关系。

    • 单词词典一般比较大,可以通过B+树或者哈希拉链法实现,以满足高性能的插入与查询
  • 倒排列表(Posting List)-记录了单词对应的文档结合,由倒排索引项组成

    • 倒排索引项

      • 文档ID
      • 词频TF - 该单词在文档中出现的次数,用于相关性评分
      • 位置(Position) - 单词在文档中分词的位置。用于语句搜索(phrase query)
      • 偏移(offset) - 记录单词的开始结束位置,实现高亮显示

es倒排索引.png

​ 单词Elasticsearch的倒排索引列表

二、相关性与相关性算分

相关性-Relevance

  • 搜索的相关性算分,描述了一个文档和查询语句的匹配程度。ES会对每个匹配查询条件的结果进行算分_score
  • 打分的本质是排序,需要把最符合用户需求的文档排在前面。ES5之前,默认的相关性算分采用TF-IDF,现在采用BM25

词频TF

Term Frequency:检索此在一篇文档中出现的频率

  • 检索词出现的次数除以文档的总字数

度量一条查询和结果文档相关性的简单方法:简单将搜索中的每一个词的TF进行想加,例如:查询 区块链的应用

  • TF(区块链)+TF(的)+TF(应用)

Stop Word

  • “的”在文档中出现了很多次,但是对贡献相关度几乎没有用处,不应该考虑他们的TF

逆文档频率(IDF)

DF:检索词在所有文档中出现的频率

  • “区块链”在相对比较少的文档中出现
  • “应用”在相对比较多的文档中出现
  • “stop word”在大量文档中出现

Inverse Document Frequency:简单说=log(全部文档数/检索词出现过的文档总数)

TF-IDF本质上就是将TF求和变成了加权求和

  • TF(区块链)*IDF(区块链)+TF(的)* IDF(的)+TF(区块链)*IDF(区块链)

TF-IDF.png

TFid公式.png

BM25

TFbm25.png

定制Similarity计算公式

定制评分公式.png

查询小助手

可以通过“explain”参数查看打分状况

POST /testscore/_search
{
  //"explain": true,
  "query": {
    "match": {
      "content":"you"
      //"content": "elasticsearch"
      //"content":"the"
      //"content": "the elasticsearch"
    }
  }
}

使用boost控制相关度评分

boost.png

参考极客时间elasticsearch视频

原创,转发请声明出处啊,亲!

ELK什么

ELK 是elastic公司提供的一套完整的日志收集以及展示的解决方案,是三个产品的首字母缩写,分别是ElasticSearch、Logstash 和 Kibana。
ElasticSearch简称ES,它是一个实时的分布式搜索和分析引擎,它可以用于全文搜索,结构化搜索以及分析。它是一个建立在全文搜索引擎 Apache Lucene 基础上的搜索引擎,使用 Java 语言编写。
Logstash是一个具有实时传输能力的数据收集引擎,用来进行数据收集(如:读取文本文件)、解析,并将数据发送给ES。
Kibana为 Elasticsearch 提供了分析和可视化的 Web 平台。它可以在 Elasticsearch 的索引中查找,交互数据,并生成各种维度表格、图形。
Filebeat是用于转发和集中日志数据的轻量级传送程序。作为服务器上的代理安装,Filebeat监视您指定的日志文件或位置,收集日志事件,并将它们转发到Elasticsearch或 Logstash进行索引。
Docker 是一个开源的应用容器引擎,让开发者可以打包他们的应用以及依赖包到一个可移植的容器中,然后发布到任何流行的Linux机器上,也可以实现虚拟化,容器是完全使用沙箱机制,相互之间不会有任何接口。

整体架构

我将应用部署在了不同的docker容器中,ELK部署在了不同的宿主机上。
ELK整体架构.png

docker->宿主机

首先统一了所有应用的日志输出规范,包括日志的划分,输出格式,命名格式等等。然后将docker内部应用的日志挂载到了宿主机目录,方便filebeat的读取。挂载方式可查看文章《docker数据卷

宿主机log日志->filebeat

因为应用只部署在了一台宿主机上,所以只采用了一个filebeat进行读取,配置文件是分开划分的,整体架构如下:
filbeat读取分发.png
具体Filebeat配置讲解在接下来文章中讲述。

Filebeat->redis

Filebeat将根据设置type的不同将之转发给redis的不同库,做缓存。

Redis->Logstash

logstash开启多个pipeline通道分别读取redis库中的数据,并将之使用fileter解析,最后分发给不同的elasticsearch索引。logstash会在接下来文章中具体讲解。
注:logstash读取完redis库中的数据会将数据删除。
logstash配置.png

Logstash->Elasticseaarch

logstash将数据传输到elasticsearch中时,会在es中自动创建索引,为了使es中的新建索引符合一定格式,我使用了es新建索引模板,指定新建索引的Mapping。会在接下来的文章中具体讲解。

Elasticsearch->Kibana

Kibana通过得到的数据进行统计分析,来实时监控应用的状况。

结论

整体的配置如上述描述,建议大家没事多翻翻官方文档,文档写不清楚的地方,就要自己多配置几次多尝试,毕竟坑都是要一点一点填的。
elastic官网

注意:因为es不允许root用户启动,所以需要新建新的用户来启动es

1.环境需求

新建普通用户es,单独为普通用户配置java11环境(es7需要java11 支持),然后在~/.bash_profile文件中配置好java环境变量:

export JAVA_HOME=~/software/jdk-11.0.3(java11所在地址 ~表示用户默认目录)
export PATH=$JAVA_HOME/bin:$PATH
export CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar

注意:配置好之后别忘记source ~/.bash_profile使环境变量生效。

查看java版本

java -version

每当启动es时,找不到java黄精,或java环境不对,都可以使用“source ~/.bashrc”启动一次,因为有时候有些系统启动是不默认运行bash_profile,当然在bashrc文件下添加环境变量也是一样。

2.配置elasticsearch.yml文件

进入elasticsearch/config文件夹下

#允许任意IP访问

network.host:0.0.0.0

#开放的端口

http.port: 9200

设置节点是否为master节点(true or false)

node.master: true

设置节点存储数据(true or false)

node.data: true

#集群间通信端口(可以修改)

transport.tcp.port: 9300

#添加跨域

http.cors.enabled: true
http.cors.allow-origin: "*"

#集群名称

cluster.name: es

#节点名称(集群内部节点名称不能相同)

node.name: master

#集群所有节点配置(你主机的ip地址,以及集群中es主机的ip地址,9300为es集群之间默认通信端口,要与设置的集群通信端口一致)如果只有一台设置只设置自己主机的就可以

discovery.seed_hosts: ["xx.xx.xx.xx:9300", "10.1.8.194:9300"]

集群内部master节点配置

cluster.initial_master_nodes: ["xx.xx.xx.xx:9300","xx.xx.xx.xx:9300"]

解释:设置两个节点为master节点如果一个节点挂了,另一个节点可以补上

#解决java.lang.UnsupportedOprationException: seccomp unavailable: requires kernel 3.5+ with CONFIG_SECCOMP and CONFIG_SECCOMP_FILTER compiled

因为Centos不支持SecComp,而ES默认bootstrap.system_call_filter为true进行检测,所以导致检测失败,失败后直接导致ES不能启动

bootstrap.memory_lock: false
bootstrap.system_call_filter: false

3.系统配置问题(存在以下错误是在配置)

问题一:

max file descriptors [4096] for elasticsearch process likely too low, increase to at least [65536]

解决切换到root用户

vim /etc/security/limits.conf

添加或修改如下内容

* soft nofile 65536
* hard nofile 131072
* soft nproc 2048
* hard nproc 4096

问题二

max number of threads [1024] for user [lish] likely too low, increase to at least [2048]

解决:切换到root用户,进入limits.d目录下修改配置文件。

vi /etc/security/limits.d/90-nproc.conf

修改如下内容:

* soft nproc 1024

#修改为

* soft nproc 2048

问题三

max virtual memory areas vm.max_map_count [65530] likely too low, increase to at least [262144]

解决:切换到root用户修改配置sysctl.conf

vi /etc/sysctl.conf

添加下面配置:

vm.max_map_count=262144

并执行命令:

sysctl -p

4. 防火墙

关闭防火墙

service iptables stop

或者将9200端口开启(这个没试)