1、安装JDK,至少1.8.0_73以上版本,验证:java -version。
下载和解压缩Elasticsearch安装包,检查目录结构。
https://www.elastic.co/cn/downloads/elasticsearch
bin:脚本目录包括:可执行的脚本,如启动和停止
config:配置文件目录
data:索引目录,存储索引文件的地方
logs:日志目录
modules:包括模块目录es的功能模块
plugins :插件目录,es支持插件机制
3、配置文件:
位置:
ES配置文件的地址因安装形式而异:
使用zip、tar在安装目录中安装配置文件的地址config下。
使用RPM安装,配置文件在/etc/elasticsearch下。
使用MSI在安装目录中安装配置文件的地址config并将自动将下config目录地址写入环境变量ES_PATH_CONF。
配置格式是YAML,可采用以下两种方式:
方法1:层次模式
path: data: /var/lib/elasticsearch logs: /var/log/elasticsearch
方法2:属性方法
path.data: /var/lib/elasticsearch path.logs: /var/log/elasticsearch
常用的配置如下
cluster.name: 配置elasticsearch默认为集群名称elasticsearch。建议修改为有意义的名称。 node.name: 物理服务器通常是节点,es默认情况下随机指定名称,建议指定有意义的名称,便于管理 一个或多个节点组成一个或多个节点cluster集群,集群是一个逻辑的概念,节点是物理概念,后边章节会详细介绍。 path.conf: 设置配置文件的存储路径,tar或zip默认包装安装es根目录下的config文件夹,rpm默认安装/etc/ elasticsearch path.data: 默认设置索引数据的存储路径es根目录下的data文件夹,可设置多个存储路径,用逗号隔开。 path.logs: 默认情况下,设置日志文件的存储路径es根目录下的logs文件夹 path.plugins: 设置插件的存储路径默认为es根目录下的plugins文件夹 bootstrap.memory_lock: true 设置为true可以
锁住ES避免使用内存和内存swap分区交换数据。 network.host: 设置绑定主机ip设置为0的地址.0.0.0表示任何绑定ip,建议设置允许外网访问的具体生产环境ip。 http.port: 9200 对外服务设置http默认为9200的端口。 transport.tcp.port: 9300 集群点之间的通信端口 node.master: 指定节点是否有资格被选为master结点,默认是true,如果原来的master重新选举新的master。 node.data: 默认指定该节点是否存储索引数据true。 discovery.zen.ping.unicast.hosts: ["host1:port", "host2:port", "..."] 设置集群中master节点的初始列表。 discovery.zen.ping.timeout: 3s 设置ES默认情况下,如果网络延迟较高,则可以设置较大的节点连接超时时间。 discovery.zen.minimum_master_nodes: 最结点数量的最小值 ,该值的公式为:(master_eligible_nodes / 2) 1 ,比如有三个符合要求的主结点,这里要设置为2。 node.max_local_storage_nodes: 如果单机启动多个节点,建议将单机允许的最大存储结点设置为1。
最小和最大的设置JVM堆内存大小:
在jvm.options中设置 -Xms和-Xmx:
1) 两个值设置为相等
2) 将Xmx 设置为不超过物理内存的一半。
设置日志文件,ES使用log4j,注意日志级配置。
4、启动Elasticsearch:bin\elasticsearch.bat,es特点是开箱即可,无需配置即可启动。
注意:es7 windows版本不支持机器学习,所以elasticsearch.yml添加以下参数:
node.name: node-1
cluster.initial_master_nodes: ["node-1"]
xpack.ml.enabled: false
http.cors.enabled: true
http.cors.allow-origin: /.*/
5、检查ES是否启动成功:浏览器访问http://localhost:9200/?Pretty
{
"name": "node-1",
"cluster_name": "elasticsearch",
"cluster_uuid": "HqAKQ_0tQOOm8b6qU-2Qug",
"version": {
"number": "7.3.0",
"build_flavor": "default",
"build_type": "zip",
"build_hash": "de777fa",
"build_date": "2019-07-24T18:30:11.767338Z",
"build_snapshot": false,
"lucene_version": "8.1.0",
"minimum_wire_compatibility_version": "6.8.0",
"minimum_index_compatibility_version": "6.0.0-beta1"
},
"tagline": "You Know, for Search"
}
解释:
name: node名称,取自机器的hostname
cluster_name: 集群名称(默认的集群名称就是elasticsearch)
version.number: 7.3.0,es版本号
version.lucene_version:封装的lucene版本号
6、浏览器访问 http://localhost:9200/_cluster/health 查询集群状态
{
"cluster_name": "elasticsearch",
"status": "green",
"timed_out": false,
"number_of_nodes": 1,
"number_of_data_nodes": 1,
"active_primary_shards": 0,
"active_shards": 0,
"relocating_shards": 0,
"initializing_shards": 0,
"unassigned_shards": 0,
"delayed_unassigned_shards": 0,
"number_of_pending_tasks": 0,
"number_of_in_flight_fetch": 0,
"task_max_waiting_in_queue_millis": 0,
"active_shards_percent_as_number": 100
}
解释:
Status:集群状态。Green 所有分片可用。Yellow所有主分片可用。Red主分片不可用,集群不可用。
4.2. Windows安装Kibana
1、kibana是es数据的前端展现,数据分析时,可以方便地看到数据。作为开发人员,可以方便访问es。
2、下载,解压kibana。
3、启动Kibana:bin\kibana.bat
4、浏览器访问 http://localhost:5601 进入Dev Tools界面。像plsql一样支持代码提示。
5、发送get请求,查看集群状态GET _cluster/health。相当于浏览器访问。
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-GQgjvzEF-1655285232679)(img\1568622526251.png)]
总览
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-hZO27tX5-1655285232681)(img\1568622589010.png)]
Dev Tools界面
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-WGvKFUZ4-1655285232681)(img\1568622607418.png)]
监控集群界面
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-mUAhnWCA-1655285232682)(img\1568622619503.png)]
集群状态(搜索速率、索引速率等)
4.3 Windows安装postman
是什么:postman是一个模拟http请求的工具。能够非常细致地定制化各种http请求。如get]\post\pu\delete,携带body参数等。
为什么:在没有kibana时,可以使用postman调试。
怎么用:
get http://localhost:9200/
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-NKQTs98o-1655285232682)(img\1568622671957.png)]
测试一下get方式查询集群状态http://localhost:9200/_cluster/health
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-OD3gdQZh-1655285232683)(img\1568622683707.png)]
4.4 Windows安装head插件
head插件是ES的一个可视化管理插件,用来监视ES的状态,并通过head客户端和ES服务进行交互,比如创建映射、创建索引等,head的项目地址在https://github.com/mobz/elasticsearch-head 。
从ES6.0开始,head插件支持使得node.js运行。
1安装node.js
2下载head并运行
git clone git://github.com/mobz/elasticsearch-head.git
cd elasticsearch-head
npm install
npm run start
浏览器打开 http://localhost:9100/
3运行
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-0ryugawH-1655285232684)(img/1568627572838.png)]
打开浏览器调试工具发现报错:
Origin null is not allowed by Access-Control-Allow-Origin.
原因是:head插件作为客户端要连接ES服务(localhost:9200),此时存在跨域问题,elasticsearch默认不允许跨域访问。
解决方案:
设置elasticsearch允许跨域访问。
在config/elasticsearch.yml 后面增加以下参数:
#开启cors跨域访问支持,默认为false
http.cors.enabled: true
#跨域访问允许的域名地址,(允许所有域名)以上使用正则
http.cors.allow-origin: /.*/
注意:将config/elasticsearch.yml另存为utf-8编码格式。
成功连接ES
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-ICvYizGX-1655285232684)(img/1568627617789.png)]
注意:kibana\postman\head插件选择自己喜欢的一种使用即可。
本教程使用kibana的dev tool,因为地址栏省略了http://localhost:9200。
5. es快速入门
5.1. 文档(document)的数据格式
(1)应用系统的数据结构都是面向对象的,具有复杂的数据结构
(2)对象存储到数据库,需要将关联的复杂对象属性插到另一张表,查询时再拼接起来。
(3)es面向文档,文档中存储的数据结构,与对象一致。所以一个对象可以直接存成一个文档。
(4)es的document用json数据格式来表达。
例如:班级和学生关系
public class Student {
private String id;
private String name;
private String classInfoId;
}
private class ClassInfo {
private String id;
private String className;
。。。。。
}
数据库中要设计所谓的一对多,多对一的两张表,外键等。查询出来时,还要关联,mybatis写映射文件,很繁琐。
而在es中,一个学生存成文档如下:
{
"id":"1",
"name": "张三",
"last_name": "zhang",
"classInfo": {
"id": "1",
"className": "三年二班",
}
}
5.2图书网站商品管理案例:背景介绍
有一个售卖图书的网站,需要为其基于ES构建一个后台系统,提供以下功能:
(1)对商品信息进行CRUD(增删改查)操作
(2)执行简单的结构化查询
(3)可以执行简单的全文检索,以及复杂的phrase(短语)检索
(4)对于全文检索的结果,可以进行高亮显示
(5)对数据进行简单的聚合分析
5.3. 简单的集群管理
5.3.1快速检查集群的健康状况
es提供了一套api,叫做cat api,可以查看es中各种各样的数据
GET /_cat/health?v
epoch timestamp cluster status node.total node.data shards pri relo init unassign pending_tasks max_task_wait_time active_shards_percent
1568635460 12:04:20 elasticsearch green 1 1 4 4 0 0 0 0 - 100.0%
如何快速了解集群的健康状况?green、yellow、red?
green:每个索引的primary shard和replica shard都是active状态的
yellow:每个索引的primary shard都是active状态的,但是部分replica shard不是active状态,处于不可用的状态
red:不是所有索引的primary shard都是active状态的,部分索引有数据丢失了
5.3.2 快速查看集群中有哪些索引
GET /_cat/indices?v
health status index uuid pri rep docs.count docs.deleted store.size pri.store.size
green open .kibana_task_manager JBMgpucOSzenstLcjA_G4A 1 0 2 0 45.5kb 45.5kb
green open .monitoring-kibana-7-2019.09.16 LIskf15DTcS70n4Q6t2bTA 1 0 433 0 218.2kb 218.2kb
green open .monitoring-es-7-2019.09.16 RMeUN3tQRjqM8xBgw7Zong 1 0 3470 1724 1.9mb 1.9mb
green open .kibana_1 1cRiyIdATya5xS6qK5pGJw 1 0 4 0 18.2kb 18.2kb
5.3.3 简单的索引操作
创建索引:PUT /demo_index?pretty
{
"acknowledged" : true,
"shards_acknowledged" : true,
"index" : "demo_index"
}
删除索引:DELETE /demo_index?pretty
5.4商品的CRUD操作(document CRUD操作)
5.4.1 新建图书索引
首先建立图书索引 book
语法:put /index
PUT /book
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-vWQ7rEFF-1655285250307)(img/1568632608676.png)]
5.4.2 新增图书 :新增文档
语法:PUT /index/type/id
PUT /book/_doc/1
{
"name": "Bootstrap开发",
"description": "Bootstrap是由Twitter推出的一个前台页面开发css框架,是一个非常流行的开发框架,此框架集成了多种页面效果。此开发框架包含了大量的CSS、JS程序代码,可以帮助开发者(尤其是不擅长css页面开发的程序人员)轻松的实现一个css,不受浏览器限制的精美界面css效果。",
"studymodel": "201002",
"price":38.6,
"timestamp":"2019-08-25 19:11:35",
"pic":"group1/M00/00/00/wKhlQFs6RCeAY0pHAAJx5ZjNDEM428.jpg",
"tags": [ "bootstrap", "dev"]
}
PUT /book/_doc/2
{
"name": "java编程思想",
"description": "java语言是世界第一编程语言,在软件开发领域使用人数最多。",
"studymodel": "201001",
"price":68.6,
"timestamp":"2019-08-25 19:11:35",
"pic":"group1/M00/00/00/wKhlQFs6RCeAY0pHAAJx5ZjNDEM428.jpg",
"tags": [ "java", "dev"]
}
PUT /book/_doc/3
{
"name": "spring开发基础",
"description": "spring 在java领域非常流行,java程序员都在用。",
"studymodel": "201001",
"price":88.6,
"timestamp":"2019-08-24 19:11:35",
"pic":"group1/M00/00/00/wKhlQFs6RCeAY0pHAAJx5ZjNDEM428.jpg",
"tags": [ "spring", "java"]
}
结果
{
"_index" : "book",
"_type" : "_doc",
"_id" : "1",
"_version" : 1,
"result" : "created",
"_shards" : {
"total" : 2,
"successful" : 1,
"failed" : 0
},
"_seq_no" : 0,
"_primary_term" : 1
}
5.4.3 查询图书:检索文档
语法:GET /index/type/id
查看图书:GET /book/_doc/1 就可看到json形式的文档。方便程序解析。
{
"_index" : "book",
"_type" : "_doc",
"_id" : "1",
"_version" : 4,
"_seq_no" : 5,
"_primary_term" : 1,
"found" : true,
"_source" : {
"name" : "Bootstrap开发",
"description" : "Bootstrap是由Twitter推出的一个前台页面开发css框架,是一个非常流行的开发框架,此框架集成了多种页面效果。此开发框架包含了大量的CSS、JS程序代码,可以帮助开发者(尤其是不擅长css页面开发的程序人员)轻松的实现一个css,不受浏览器限制的精美界面css效果。",
"studymodel" : "201002",
"price" : 38.6,
"timestamp" : "2019-08-25 19:11:35",
"pic" : "group1/M00/00/00/wKhlQFs6RCeAY0pHAAJx5ZjNDEM428.jpg",
"tags" : [
"bootstrap",
"开发"
]
}
}
为方便查看索引中的数据,kibana可以如下操作
Kibana-discover- Create index pattern- Index pattern填book
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-ofCWh2WK-1655285250309)(img/1568632860925.png)]
下一步,再点击discover就可看到数据。
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-aGbdDkc6-1655285250310)(img/1568632872820.png)]
点击json还可以看到原始数据
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-6YIGuTrH-1655285250310)(img/1568632881931.png)]
为方便查看索引中的数据,head可以如下操作
点击数据浏览,点击book索引。
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-krnxPk62-1655285250311)(img/1568632895254.png)]
5.4.4 修改图书:替换操作
PUT /book/_doc/1
{
"name": "Bootstrap开发教程1",
"description": "Bootstrap是由Twitter推出的一个前台页面开发css框架,是一个非常流行的开发框架,此框架集成了多种页面效果。此开发框架包含了大量的CSS、JS程序代码,可以帮助开发者(尤其是不擅长css页面开发的程序人员)轻松的实现一个css,不受浏览器限制的精美界面css效果。",
"studymodel": "201002",
"price":38.6,
"timestamp":"2019-08-25 19:11:35",
"pic":"group1/M00/00/00/wKhlQFs6RCeAY0pHAAJx5ZjNDEM428.jpg",
"tags": [ "bootstrap", "开发"]
}
替换操作是整体覆盖,要带上所有信息。
5.4.5 修改图书:更新文档
语法:POST /{index}/type /{id}/_update
或者POST /{index}/_update/{id}
POST /book/_update/1/
{
"doc": {
"name": " Bootstrap开发教程高级"
}
}
返回:
{
"_index" : "book",
"_type" : "_doc",
"_id" : "1",
"_version" : 10,
"result" : "updated",
"_shards" : {
"total" : 2,
"successful" : 1,
"failed" : 0
},
"_seq_no" : 11,
"_primary_term" : 1
}
5.4.6 删除图书:删除文档
语法:
DELETE /book/_doc/1
返回:
{
"_index" : "book",
"_type" : "_doc",
"_id" : "1",
"_version" : 11,
"result" : "deleted",
"_shards" : {
"total" : 2,
"successful" : 1,
"failed" : 0
},
"_seq_no" : 12,
"_primary_term" : 1
}
6. 文档document入门
6.1. 默认自带字段解析
{
"_index" : "book",
"_type" : "_doc",
"_id" : "1",
"_version" : 1,
"_seq_no" : 10,
"_primary_term" : 1,
"found" : true,
"_source" : {
"name" : "Bootstrap开发教程1",
"description" : "Bootstrap是由Twitter推出的一个前台页面开发css框架,是一个非常流行的开发框架,此框架集成了多种页面效果。此开发框架包含了大量的CSS、JS程序代码,可以帮助开发者(尤其是不擅长css页面开发的程序人员)轻松的实现一个css,不受浏览器限制的精美界面css效果。",
"studymodel" : "201002",
"price" : 38.6,
"timestamp" : "2019-08-25 19:11:35",
"pic" : "group1/M00/00/00/wKhlQFs6RCeAY0pHAAJx5ZjNDEM428.jpg",
"tags" : [
"bootstrap",
"开发"
]
}
}
6.1.1 _index
- 含义:此文档属于哪个索引
- 原则:类似数据放在一个索引中。数据库中表的定义规则。如图书信息放在book索引中,员工信息放在employee索引中。各个索引存储和搜索时互不影响。
- 定义规则:英文小写。尽量不要使用特殊字符。order user
6.1.2 _type
- 含义:类别。book java node
- 注意:以后的es9将彻底删除此字段,所以当前版本在不断弱化type。不需要关注。见到_type都为doc。
6.1.3 _id
含义:文档的唯一标识。就像表的id主键。结合索引可以标识和定义一个文档。
生成:手动(put /index/_doc/id)、自动
6.1.4 创建索引时,不同数据放到不同索引中
6.2. 生成文档id
6.2.1 手动生成id
场景:数据从其他系统导入时,本身有唯一主键。如数据库中的图书、员工信息等。
用法:put /index/_doc/id
PUT /test_index/_doc/1
{
"test_field": "test"
}
6.2.2 自动生成id
用法:POST /index/_doc
POST /test_index/_doc
{
"test_field": "test1"
}
返回:
{
"_index" : "test_index",
"_type" : "_doc",
"_id" : "x29LOm0BPsY0gSJFYZAl",
"_version" : 1,
"result" : "created",
"_shards" : {
"total" : 2,
"successful" : 1,
"failed" : 0
},
"_seq_no" : 0,
"_primary_term" : 1
}
自动id特点:
长度为20个字符,URL安全,base64编码,GUID,分布式生成不冲突
6.3. _source 字段
6.3.1 _source
含义:插入数据时的所有字段和值。在get获取数据时,在_source字段中原样返回。
GET /book/_doc/1
6.3.2 定制返回字段
就像sql不要select *,而要select name,price from book …一样。
GET /book/_doc/1?__source_includes=name,price
{
"_index" : "book",
"_type" : "_doc",
"_id" : "1",
"_version" : 1,
"_seq_no" : 10,
"_primary_term" : 1,
"found" : true,
"_source" : {
"price" : 38.6,
"name" : "Bootstrap开发教程1"
}
}
6.4. 文档的替换与删除
6.4.1全量替换
执行两次,返回结果中版本号(_version)在不断上升。此过程为全量替换。
PUT /test_index/_doc/1
{
"test_field": "test"
}
实质:旧文档的内容不会立即删除,只是标记为deleted。适当的时机,集群会将这些文档删除。
6.4.2 强制创建
为防止覆盖原有数据,我们在新增时,设置为强制创建,不会覆盖原有文档。
语法:PUT /index/ _doc/id/_create
PUT /test_index/_doc/1/_create
{
"test_field": "test"
}
返回
{
"error": {
"root_cause": [
{
"type": "version_conflict_engine_exception",
"reason": "[2]: version conflict, document already exists (current version [1])",
"index_uuid": "lqzVqxZLQuCnd6LYtZsMkg",
"shard": "0",
"index": "test_index"
}
],
"type": "version_conflict_engine_exception",
"reason": "[2]: version conflict, document already exists (current version [1])",
"index_uuid": "lqzVqxZLQuCnd6LYtZsMkg",
"shard": "0",
"index": "test_index"
},
"status": 409
}
6.4.3 删除
DELETE /index/_doc/id
DELETE /test_index/_doc/1/
实质:旧文档的内容不会立即删除,只是标记为deleted。适当的时机,集群会将这些文档删除。
lazy delete
6.5. 局部替换 partial update
使用 PUT /index/type/id 为文档全量替换,需要将文档所有数据提交。
partial update局部替换则只修改变动字段。
用法:
post /index/type/id/_update
{
"doc": {
"field":"value"
}
}
图解内部原理
内部与全量替换是一样的,旧文档标记为删除,新建一个文档。
优点:
- 大大减少网络传输次数和流量,提升性能
- 减少并发冲突发生的概率。
演示
插入文档
PUT /test_index/_doc/5
{
"test_field1": "itcst",
"test_field2": "itheima"
}
修改字段1
POST /test_index/_doc/5/_update
{
"doc": {
"test_field2": " itheima 2"
}
}
6.6. 使用脚本更新
es可以内置脚本执行复杂操作。例如painless脚本。
注意:groovy脚本在es6以后就不支持了。原因是耗内存,不安全远程注入漏洞。
6.6.1内置脚本
需求1:修改文档6的num字段,+1。
插入数据
PUT /test_index/_doc/6
{
"num": 0,
"tags": []
}
执行脚本操作
POST /test_index/_doc/6/_update
{
"script" : "ctx._source.num+=1"
}
查询数据
GET /test_index/_doc/6
返回
{ "_index" : "test_index", "_type" : "_doc", "_id" : "6", "_version" : 2, "_seq_no" : 23, "_primary_term" : 1, "found" : true,