鸣灭的博客

Linux下Elasticsearch7.2 安装指南

作者: herefree
时间: 2019-09-08
分类: 大数据组件
评论

注意：因为es不允许root用户启动，所以需要新建新的用户来启动es

1.环境需求

新建普通用户es，单独为普通用户配置java11环境（es7需要java11 支持），然后在~/.bash_profile文件中配置好java环境变量：

export JAVA_HOME=~/software/jdk-11.0.3（java11所在地址 ~表示用户默认目录）
export PATH=$JAVA_HOME/bin:$PATH
export CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar

注意：配置好之后别忘记source ~/.bash_profile使环境变量生效。

查看java版本

java -version

每当启动es时，找不到java黄精，或java环境不对，都可以使用“source ~/.bashrc”启动一次，因为有时候有些系统启动是不默认运行bash_profile,当然在bashrc文件下添加环境变量也是一样。

2.配置elasticsearch.yml文件

进入elasticsearch/config文件夹下

#允许任意IP访问

network.host:0.0.0.0

#开放的端口

http.port: 9200

设置节点是否为master节点（true or false）

node.master: true

设置节点存储数据（true or false）

node.data: true

#集群间通信端口(可以修改)

transport.tcp.port: 9300

#添加跨域

http.cors.enabled: true
http.cors.allow-origin: "*"

#集群名称

cluster.name: es

#节点名称（集群内部节点名称不能相同）

node.name: master

#集群所有节点配置（你主机的ip地址,以及集群中es主机的ip地址,9300为es集群之间默认通信端口，要与设置的集群通信端口一致）如果只有一台设置只设置自己主机的就可以

discovery.seed_hosts: ["xx.xx.xx.xx:9300", "10.1.8.194:9300"]

集群内部master节点配置

cluster.initial_master_nodes: ["xx.xx.xx.xx:9300","xx.xx.xx.xx:9300"]

解释：设置两个节点为master节点如果一个节点挂了，另一个节点可以补上

#解决java.lang.UnsupportedOprationException: seccomp unavailable: requires kernel 3.5+ with CONFIG_SECCOMP and CONFIG_SECCOMP_FILTER compiled

因为Centos不支持SecComp，而ES默认bootstrap.system_call_filter为true进行检测，所以导致检测失败，失败后直接导致ES不能启动

bootstrap.memory_lock: false
bootstrap.system_call_filter: false

3.系统配置问题（存在以下错误是在配置）

问题一：

max file descriptors [4096] for elasticsearch process likely too low, increase to at least [65536]

解决切换到root用户

vim /etc/security/limits.conf

添加或修改如下内容

* soft nofile 65536
* hard nofile 131072
* soft nproc 2048
* hard nproc 4096

问题二

max number of threads [1024] for user [lish] likely too low, increase to at least [2048]

解决：切换到root用户，进入limits.d目录下修改配置文件。

vi /etc/security/limits.d/90-nproc.conf

修改如下内容：

* soft nproc 1024

#修改为

* soft nproc 2048

问题三

max virtual memory areas vm.max_map_count [65530] likely too low, increase to at least [262144]

解决：切换到root用户修改配置sysctl.conf

vi /etc/sysctl.conf

添加下面配置：

vm.max_map_count=262144

并执行命令：

sysctl -p

4. 防火墙

关闭防火墙

service iptables stop

或者将9200端口开启（这个没试）

机器学习系列四—逻辑回归

作者: herefree
时间: 2018-10-26
分类: 机器学习
781 条评论

我们在前面讲了线性回归模型，它可以对数据进行预测、拟合。假设有一个二元分类的问题，最终的结果有两类（0,1），此时我们如果使用线性回归模型，那么他的输出结果可能远大于1，或者小于0。这时候我们就需要一个算法使结果的输出一直处于（0，1）之间，这就是我们接下来要讲的逻辑回归算法。它在原有的线性回归算法外面，加上了一个sigmoid函数，使之输出一直处于0,1之间。

Sigmoid函数的公式为：

其中z为我们前面所说的线性函数：

这样最终的预测值就会处于0,1之间，我们将大于0.5的分类为1，小于0.5的分类为0。至于说为什么外面加上sigmiod函数预测值就处于0,1之间，大家可以考虑z，当z特别大时sigmiod函数就会接近1，z非常小时，sigmiod就会非常接近0。下面是sigmiod函数的图像，大家可以自己感受下

损失函数

我们在之前将线性回归的时候讲解了损失函数，但现在我们逻辑回归函数的损失函数与线性回归的损失函数是不同的，线性回归之中用到的损失函数为：

至于说为什么使用这个函数作为逻辑损失函数？大家可以考虑下：

当y=1时，损失函数

如果想损失函数L尽可能小，那么预测值就要尽可能大，因为sigmiod函数取值[0,1],因此预测值会无限接近1。

当y=0时，损失函数

如果想损失函数L尽可能小，那么预测值就要尽可能小，因为sigmiod函数取值[0,1],因此预测值会无限接近0。

参考：吴恩达深度学习视频

机器学习系列三—评估方法

作者: herefree
时间: 2018-10-26
分类: 机器学习
628 条评论

下面我们来介绍几种评估模型的几种方法。假设我们目前只有一个数据集D={(x1，y1),( x2，y2),...，( xm,ym)}既要训练，又要测试，该如何去做？

评估方法

1.留出法
将数据集D拆分成为两个互斥的集合，一个作为训练集S，另一个作为测试集D。

需要注意的是训练集与测试集的划分数据尽量保持一致性，可以选择分层抽样的方式，根据比例采样。

另外需要注意的是采用按比例分割仍有多种划分方式，单次使用留出法的得到的评估结果往往不够稳定，因此一般采用若干次随机划分、重复实验的方式取平均值后作为留出法的评估结果。

2.交叉验证法

“交叉验证法”先将数据集D划分成k个大小相似的互斥子集。每个子集 Di都尽可能保持数据分布的一致性，即从D中通过分层采样得到。然后，每次选中k-1个子集作为训练集，剩下的那个子集作为测试集，从而可进行k次训练和测试，最终返回的结果是这k次测试结果的均值。

3.自助法

在留出法与交叉验证法中，由于一部分样本用于测试，因此会造成训练集样本数目过少的情况。在这里我们采用自助法（bootstrapping）作为解决方法。在给定的数据集D中，我们对它进行采样产生数据集 D^’:每次随机从D中挑选一个样本，将拷贝入 D^’中，然后重复m次，这样D中会有一部分样本在D^’ 中多次出现，但仍有一部分样本没有在D^’中出现过。我们将D^’作为训练集，将没有出现过的样本作为测试集。

4.调参

大多数算法都有些参数需要设定，参数配置不同，学得模型的性能的性能往往有显著的差别。因此在模型评估与选择时，除了要对适用学习算法进行选择，还需对算法参数进行设定，这就是通常所说的“调参”。