文章目录

    • 数据格式
    • HTTP操作
      • 索引操作
      • 映射操作
      • 文档操作(添加数据)
      • 高级查询
        • 定义数据
        • 查询所有文档
        • 匹配查询
        • 多字段匹配查询
        • 关键字精确查询
        • 多关键字精确查询
        • 指定查询字段
        • 过滤字段
        • 组合查询
        • 范围查询
        • 模糊查询*
        • 单字段排序
        • 多字段排序
        • 高亮查询
        • 分页查询
        • 聚合查询
          • 对某个字段取最大值 max
          • 对某个字段取最小值 min
          • 对某个字段求和 sum
          • 对某个字段取平均值 avg
          • 对某个字段的值进行去重之后再取总数
          • State 聚合
        • 桶聚合查询(分组)
          • terms 聚合,分组统计
          • 在 terms 分组下再进行聚合

数据格式

Elasticsearch 是面向文档型数据库,一条数据在这里就是一个文档。采用倒排索引

注意:

ES 里的 Index 可以看做一个库,而 Types 相当于表,Documents 则相当于表的行。这里 Types 的概念已经被逐渐弱化,Elasticsearch 6.X 中,一个 index 下已经只能包含一个type,Elasticsearch 7.X 中, Type 的概念已经被删除了。

HTTP操作

索引操作

  • 创建索引

    向 ES 服务器发 PUT 请求 :http://127.0.0.1:9200/shopping

    • 响应

      { "acknowledged"【响应结果】: true, # true 操作成功 "shards_acknowledged"【分片结果】: true, # 分片操作成功 "index"【索引名称】: "shopping"}
    • 说明

      • 请求方式需要为PUT
      • 二次重复添加索引请求会报错
  • 查看单个索引

    向 ES 服务器发 GET 请求 :http://127.0.0.1:9200/shopping

    • 响应

      { "shopping"【索引名】: {"aliases"【别名】: {}, "mappings"【映射】: {}, "settings"【设置】: { "index"【设置 - 索引】: { "creation_date"【设置 - 索引 - 创建时间】: "1614265373911", "number_of_shards"【设置 - 索引 - 主分片数量】: "1", "number_of_replicas"【设置 - 索引 - 副分片数量】: "1", "uuid"【设置 - 索引 - 唯一标识】: "eI5wemRERTumxGCc1bAk2A", "version"【设置 - 索引 - 版本】: {"created": "7080099"}, "provided_name"【设置 - 索引 - 名称】: "shopping" } } }}
  • 查看所有索引

    向 ES 服务器发 GET 请求 :http://127.0.0.1:9200/_cat/indices” />

  • 说明

  • 删除索引

    向 ES 服务器发 DELETE 请求 :http://127.0.0.1:9200/shopping

    • 响应

  • 映射操作

    类似于数据库(database)中的表结构(table)。创建数据库表需要设置字段名称,类型,长度,约束等;索引库也一样,需要知道这个类型下有哪些字段,每个字段有哪些约束信息,这就叫做映射(mapping)。

    • 创建映射

      向 ES 服务器发 PUT 请求 :http://127.0.0.1:9200/student**/_mapping**

      • 请求

        {"properties": {"name": {"type": "text","index": true},"sex": {"type": "text","index": false},"age": {"type": "long","index": false}}}
      • 请求说明

        • 字段名:任意填写,例如name、sex、age

        • 数据类型(type)

          • String 类型,分两种
            • text:可分词
            • keyword:不可分词,数据会作为完整字段进行匹配,精准匹配的
          • Numerical:数值类型,分两类
            • 基本数据类型:long、integer、short、byte、double、float、half_float
            • 浮点数的高精度类型:scaled_float
          • Date:日期类型
          • Array:数组类型
          • Object:对象
        • 是否索引(index)

          默认true,即字段会被索引

          • true:字段会被索引,则可以用来进行搜索
          • false:字段不会被索引,不能用来搜索
        • 是否独立存储(store)

          默认为false

          原始的文本会存储在_source 里面,默认情况下其他提取出来的字段都不是独立存储的,是从_source 里面提取出来的。当然你也可以独立的存储某个字段,只要设置”store”: true 即可,获取独立存储的字段要比从_source 中解析快得多,但是也会占用更多的空间,所以要根据实际业务需求来设置。

        • 分词器(analyzer)

          这里的 ik_max_word 即使用 ik 分词器,后面会有专门的章节学习

      • 响应

    • 查看映射

      向 ES 服务器发 GET 请求 :http://127.0.0.1:9200/student**/_mapping**

      • 响应

    • 索引映射关联

      向 ES 服务器发 PUT 请求 :http://127.0.0.1:9200/student1

      • 请求
      {"settings": {},"mappings": {"properties": {"name": {"type": "text","index": true},"sex": {"type": "text","index": false},"age": {"type": "long","index": false}}}}
      • 响应

    文档操作(添加数据)

    • 创建文档

      向 ES 服务器发 POST 请求 :http://127.0.0.1:9200/shopping**/_doc**

      • 说明

        • shopping:上面创建好的索引

        • 多次请求,会生成不同的ID,即不是幂等性的操作,不能使用put请求。

        • http://127.0.0.1:9200/shopping/_doc/1:最后那个1,指定唯一性标识(ID),默认情况下,ES服务器会自动生成一个,在响应体里有体现。

        • 如果明确了数据主键,也即是指定了ID,请求方式也可以是PUT请求

      • 请求

        { "title":"小米手机", "category":"小米", "images":"http://www.gulixueyuan.com/xm.jpg", "price":3999.00}
      • 响应

        { "_index"【索引】: "shopping", "_type"【类型-文档】: "_doc", "_id"【唯一标识】: "Xhsa2ncBlvF_7lxyCE9G", #可以类比为 MySQL 中的主键,随机生成 "_version"【版本】: 1, "result"【结果】: "created", #这里的 create 表示创建成功 "_shards"【分片】: { "total"【分片 - 总数】: 2, "successful"【分片 - 成功】: 1, "failed"【分片 - 失败】: 0 }, "_seq_no": 0, "_primary_term": 1}
    • 查看文档

      向 ES 服务器发 GET 请求 :http://127.0.0.1:9200/shopping/_doc/2

      • 说明

        • 需要指定文档的唯一性标识(ID)
      • 查询所有

        http://127.0.0.1:9200/shopping/_search

      • 响应

        { "_index"【索引】: "shopping", "_type"【文档类型】: "_doc", "_id": "1", "_version": 2, "_seq_no": 2, "_primary_term": 2, "found"【查询结果】: true, # true 表示查找到,false 表示未查找到 "_source"【文档源信息】: { "title": "华为手机", "category": "华为", "images": "http://www.gulixueyuan.com/hw.jpg", "price": 4999.00 }}
    • 修改文档

      向 ES 服务器发 POST/PUT 请求 :http://127.0.0.1:9200/shopping**/_doc/1**

      • 请求

        { "title":"华为手机", "category":"华为", "images":"http://www.gulixueyuan.com/hw.jpg", "price":4999.00}
      • 响应

        { "_index": "shopping", "_type": "_doc", "_id": "1", "_version"【版本】: 2, "result"【结果】: "updated", # updated 表示数据被更新 "_shards": { "total": 2, "successful": 1, "failed": 0 }, "_seq_no": 2, "_primary_term": 2}
    • 局部修改文档

      向 ES 服务器发 POST 请求 :http://127.0.0.1:9200/shopping/_update/1

      • 请求

        {"doc": { "price":3000.00 } }
      • 响应

    • 删除文档

      向 ES 服务器发 DELETE 请求 :http://127.0.0.1:9200/shopping**/_doc/1**

      • 响应

        { "_index": "shopping", "_type": "_doc", "_id": "1", "_version"【版本】: 4, #对数据的操作,都会更新版本 "result"【结果】: "deleted", # deleted 表示数据被标记为删除 "_shards": { "total": 2, "successful": 1, "failed": 0 }, "_seq_no": 4, "_primary_term": 2}
    • 条件删除文档

      向 ES 服务器发 POST 请求 :http://127.0.0.1:9200/shopping**/_delete_by_query**

      • 数据库中存在的数据

        { "title":"小米手机", "category":"小米", "images":"http://www.gulixueyuan.com/xm.jpg", "price":4000.00}{ "title":"华为手机", "category":"华为", "images":"http://www.gulixueyuan.com/hw.jpg", "price":4000.00}
      • 请求

        { "query":{ "match":{ "price":4000.00 } }}
      • 响应

        { "took"【耗时】: 175, "timed_out"【是否超时】: false, "total"【总数】: 2, "deleted"【删除数量】: 2, "batches": 1, "version_conflicts": 0, "noops": 0, "retries": { "bulk": 0, "search": 0 }, "throttled_millis": 0, "requests_per_second": -1.0, "throttled_until_millis": 0, "failures": []}

    高级查询

    定义数据

    # POST /student/_doc/1001{"name":"zhangsan","nickname":"zhangsan", "sex":"男", "age":30},# POST /student/_doc/1002{"name":"lisi","nickname":"lisi", "sex":"男", "age":20 }# POST /student/_doc/1003{"name":"wangwu", "nickname":"wangwu", "sex":"女", "age":40 }# POST /student/_doc/1004{"name":"zhangsan1","nickname":"zhangsan1", "sex":"女", "age":50 }# POST /student/_doc/1005{"name":"zhangsan2","nickname":"zhangsan2", "sex":"女", "age":30 }

    查询所有文档

    向 ES 服务器发 GET 请求 :http://127.0.0.1:9200/student/_search

    • 请求

      { "query": { "match_all": {} }}
    • 请求说明

      • “query”:这里的 query 代表一个查询对象,里面可以有不同的查询属性
      • “match_all”:查询类型,例如:match_all(代表查询所有), match,term , range 等等
      • {查询条件}:查询条件会根据类型的不同,写法也有差异
    • 响应

      { "took【查询花费时间,单位毫秒】" : 1116, "timed_out【是否超时】" : false, "_shards【分片信息】" : { "total【总数】" : 1, "successful【成功】" : 1, "skipped【忽略】" : 0, "failed【失败】" : 0 }, "hits【搜索命中结果】" : { "total"【搜索条件匹配的文档总数】: { "value"【总命中计数的值】: 3, "relation"【计数规则】: "eq" # eq 表示计数准确, gte 表示计数不准确 }, "max_score【匹配度分值】" : 1.0, "hits【命中结果集合】" : [ {}... ] }}

    匹配查询

    向 ES 服务器发 GET 请求 :http://127.0.0.1:9200/student/_search

    match 匹配类型查询,会把查询条件进行分词,然后进行查询,多个词条之间是 or 的关系

    • 请求

      { "query": { "match": {"name":"zhangsan"} }}
    • 响应

    多字段匹配查询

    向 ES 服务器发 GET 请求 :http://127.0.0.1:9200/student/_search

    • 请求

      { "query": { "multi_match": { "query": "zhangsan", "fields": ["name","nickname"] } }}
    • 响应

    关键字精确查询

    向 ES 服务器发 GET 请求 :http://127.0.0.1:9200/student/_search

    • 请求

      { "query": { "term": { "name": {"value": "zhangsan"} } } }
    • 响应

    多关键字精确查询

    向 ES 服务器发 GET 请求 :http://127.0.0.1:9200/student/_search

    • 请求

      { "query": { "terms": { "name": ["zhangsan","lisi"] } }}
    • 响应

    指定查询字段

    向 ES 服务器发 GET 请求 :http://127.0.0.1:9200/student/_search

    • 默认情况下,Elasticsearch 在搜索的结果中,会把文档中保存在_source 的所有字段都返回。
    • 请求

      { "_source": ["name","nickname"],"query": { "terms": { "nickname": ["zhangsan"] } }}
    • 响应

    过滤字段

    向 ES 服务器发 GET 请求 :http://127.0.0.1:9200/student/_search

    • includes请求

      { "_source": { "includes": ["name","nickname"] },"query": { "terms": { "nickname": ["zhangsan"] } }}
    • includes响应

    • excludes请求

      { "_source": { "excludes": ["name","nickname"] },"query": { "terms": { "nickname": ["zhangsan"] } }}
    • excludes响应

    组合查询

    向 ES 服务器发 GET 请求 :http://127.0.0.1:9200/student/_search

    • must(必须 )
    • must_not(必须不)
    • should(应该)
    • 请求

      {"query": {"bool": {"must": [{"match": {"name": "zhangsan"}}],"must_not": [{"match": {"age": "40"}}],"should": [{"match": {"sex": "男"}}]}}}
    • 响应

    范围查询

    向 ES 服务器发 GET 请求 :http://127.0.0.1:9200/student/_search

    • 操作符

    • 请求

      {"query": {"range": {"age": {"gte": 30,"lte": 35}}}}
    • 响应

    模糊查询*

    向 ES 服务器发 GET 请求 :http://127.0.0.1:9200/student/_search

    • 说明

      返回包含与搜索字词相似的字词的文档。

      编辑距离是将一个术语转换为另一个术语所需的一个字符更改的次数。这些更改可以包括:

      • 更改字符(box → fox)
      • 删除字符(black → lack)
      • 插入字符(sic → sick)
      • 转置两个相邻字符(act → cat)

      为了找到相似的术语,fuzzy 查询会在指定的编辑距离内创建一组搜索词的所有可能的变体

      或扩展。然后查询返回每个扩展的完全匹配。

      通过 fuzziness 修改编辑距离。一般使用默认值 AUTO,根据术语的长度生成编辑距离。

    • 不修改编辑距离请求

      {"query": {"fuzzy": {"title": {"value": "zhangsan"}}}}
    • 不修改编辑距离响应

    • 修改编辑距离请求

      {"query": {"fuzzy": {"title": {"value": "zhangsan","fuzziness": 2}}}}
    • 修改编辑距离响应

    单字段排序

    向 ES 服务器发 GET 请求 :http://127.0.0.1:9200/student/_search

    • 说明

      sort 可以让我们按照不同的字段进行排序,并且通过 order 指定排序的方式。desc 降序,asc升序。
    • 请求

      {"query": {"match": {"name": "zhangsan"}},"sort": [{"age": {"order": "desc"}}]}
    • 响应

    多字段排序

    向 ES 服务器发 GET 请求 :http://127.0.0.1:9200/student/_search

    • 说明

      假定我们想要结合使用 age 和 _score 进行查询,并且匹配的结果首先按照年龄排序,然后

      按照相关性得分排序

    • 请求

      {"query": {"match_all": {}},"sort": [{"age": {"order": "desc"}},{"_score": {"order": "desc"}}]}
    • 响应

    高亮查询

    在进行关键字搜索时,搜索出的内容中的关键字会显示不同的颜色,称之为高亮。

    向 ES 服务器发 GET 请求 :http://127.0.0.1:9200/student/_search

    • highlight 属性

      • pre_tags:前置标签
      • post_tags:后置标签
      • fields:需要高亮的字段
      • title:这里声明 title 字段需要高亮,后面可以为这个字段设置特有配置,也可以空
    • 请求

      {"query": {"match": {"name": "zhangsan"}},"highlight": {"pre_tags": "","post_tags": "","fields": {"name": {}}}}
    • 响应

    分页查询

    向 ES 服务器发 GET 请求 :http://127.0.0.1:9200/student/_search

    • 参数控制

      • from:当前页的起始索引,默认从 0 开始。 from = (pageNum – 1) * size
      • size:每页显示多少条
    • 请求

      {"query": {"match_all": {}},"sort": [{"age": {"order": "desc"}}],"from": 0,"size": 2}
    • 响应

    聚合查询

    聚合允许使用者对 es 文档进行统计分析,类似与关系型数据库中的 group by,当然还有很多其他的聚合,例如取最大值、平均值等等。

    对某个字段取最大值 max

    在 Postman 中,向 ES 服务器发 GET 请求 :http://127.0.0.1:9200/student/_search

    • 请求

      {"aggs": {"max_age": {"max": {"field": "age"}}},"size": 0}
    • 响应

    对某个字段取最小值 min

    在 Postman 中,向 ES 服务器发 GET 请求 :http://127.0.0.1:9200/student/_search

    • 请求

      {"aggs": {"min_age": {"min": {"field": "age"}}},"size": 0}
    • 响应

    对某个字段求和 sum

    在 Postman 中,向 ES 服务器发 GET 请求 :http://127.0.0.1:9200/student/_search

    • 请求

      {"aggs": {"sum_age": {"sum": {"field": "age"}}},"size": 0}
    • 响应

    对某个字段取平均值 avg

    在 Postman 中,向 ES 服务器发 GET 请求 :http://127.0.0.1:9200/student/_search

    • 请求

      {"aggs": {"avg_age": {"avg": {"field": "age"}}},"size": 0}
    • 响应

    对某个字段的值进行去重之后再取总数

    在 Postman 中,向 ES 服务器发 GET 请求 :http://127.0.0.1:9200/student/_search

    • 请求

      {"aggs": {"distinct_age": {"cardinality": {"field": "age"}}},"size": 0}
    • 响应

    State 聚合

    stats 聚合,对某个字段一次性返回 count,max,min,avg 和 sum 五个指标

    在 Postman 中,向 ES 服务器发 GET 请求 :http://127.0.0.1:9200/student/_search

    • 请求

      {"aggs": {"stats_age": {"stats": {"field": "age"}}},"size": 0}
    • 响应

    桶聚合查询(分组)

    terms 聚合,分组统计

    向 ES 服务器发 GET 请求 :http://127.0.0.1:9200/student/_search

    • 请求

      {"aggs": {"age_groupby": {"terms": {"field": "age"}}},"size": 0}
    • 响应

    在 terms 分组下再进行聚合

    向 ES 服务器发 GET 请求 :http://127.0.0.1:9200/student/_search

    • 请求

      {"aggs": {"age_groupby": {"terms": {"field": "age"}}},"size": 0}
    • 响应