在Solr中基于空间地址查询主要围绕2个概念实现:
Cartesian Tiers 笛卡尔层
Cartesian Tiers是通过将一个平面地图的根据设定的层次数,将每层的分解成若干个网格,如下图所示:
每层以2的评方递增,所以第一层为4个网格,第二层为16 个,所以整个地图的经纬度将在每层的网格中体现:
笛卡尔层在Lucene中对空间地理位置查询最大的用处在查找周边地址的时候有效的减少查询量,即将查询量可以控制在分层后最小的网格中的若干docId。那么如何构建这样的索引结构呢,其实很简单,只需要对应笛卡尔层的层数来构建域即可。也即是tiers0->field_0,tiers1->field_1,tiers2-field_2,……,tiers19->field_19。(一般20层即可)。每个对应笛卡尔层次的域将根据当前这条记录的经纬度通过笛卡尔算法计算出归属于当前层的网格,然后将gridId(网格唯一标示)以term的方式存入索引。这样每条记录关于笛卡尔0-19的域将都会有一个gridId对应起来。但是查询的时候一般是需要查周边的地址,那么可能周边的范围超过一个网格的范围,那么实际操作过程是根据经纬度和一个距离确定出需要涉及查询的从19-0(从高往低查,留给读者思考)若干层对应的若干网格的数据(关于代码实现在后面的文章内容阐述)。那么一个经纬度周边地址的查询只需要如下图圆圈内的数据:
所以通过这样的数据过滤,将极大的减少计算量。
GeoHash算法
在Lucene索引中将经纬度的二维坐标通过geohash,变成一个一维的字符串base32的坐标,例如,经纬度对应一个base32的坐标为DRT2Y,那这个base32的字符串什么意思呢?其实编码中每个字符都是代表一个区域,并且前面的字符是后面字符的父区域,即R是D区域内的子区域,T又为D区域的子区域,大家可以从如下图片获得base32的层级关系(以下图片均来自互联网):
进入D区域,则看到又分为若干区域,而R为其子区域:
继续进入R区域,可以继续看到有子区域T区域:
而2Y也是基于以上的关系类推,所以一个base32的编码是标示一个区域,而编码过程中会根据经纬度的精度来确定这个区域大小。从上面的解释大家肯定会想到编码的前缀是表示更大的区域。例如wx4g0ec1,它的前缀wx4g0e表示包含编码wx4g0ec1在内的更大区域。所以根据这个特点,利用模糊查询是可以达到一种附近地点的查询。
Geohash算法实现其实非常简单,网上有很多例子,在这里借用下这些例子再加上比较详细的说明。基本算法流程是基于多轮的收敛,以达到满足精度要求为止。具体流程以(39.92324 纬度, 116.3906 经度)为例,首先将纬度的范围(-90, 90)平分成两个区间(-90, 0)、(0, 90),如果目标纬度位在(-90,0),则编码为0,在(0,90)则编码为1。由于上面的例子中维度39.92324是属于(0, 90),所以第一轮获得的编码位取1。接下来再将(0, 90)分成 (0, 45), (45, 90)两个区间,而39.92324位于(0, 45),所以编码为0。以此类推,直到精度符合要求为止,如下图所示:
所以通过16轮的计算后得到经度39.92324的编码为:1011 1000 1100 0111 1001
经度也用同样的算法,对(-180, 180)多轮的依次细分计算:
得到经度116.3906的编码为1101 0010 1100 0100 0100
经纬度的编码都计算完毕后,接下来就需要合并经纬度的编码,规则是以经度开始,依次每次取一位合并成5位的新编码,如上图红色字标示顺序所示:
完成合并编码后就需要将该编码和base32编码表对应起来,做法是每5位为一个十进制数,以11100为例,它的十进制数是28,所以对应的base32编码表示W,如下图所示:
其他的五位编码依次从表中找到对应位置后,(39.92324 纬度, 116.3906 经度)的base32编码为:wx4g0ec1
解码算法与编码算法相反,先进行base32解码,然后分离出经纬度,最后根据二进制编码对经纬度范围进行细分即可,这里不再赘述。不过由于geohash表示的是区间,编码越长越精确,但不可能解码出完全一致的地址
而关于Solr+Lucene使用Cartesian Tiers 笛卡尔层和GeoHash的构建索引和查询的细节介绍将在新的Blog中阐述。
相关推荐
基于solr-geo空间搜索 1、Solr的schema.xml配置 定义坐标field 2、Solr的data-config.xml配置 建立索引 3、java查询语法 坐标距离、分页、排序
1、基于SSM+mysql的分布式电商项目源码+数据库+项目说明(课程设计).zip 2、该资源包括项目的全部源码,下载可以直接使用! 3、本项目适合作为计算机、数学、电子信息等专业的课程设计、期末大作业和毕设项目,作为...
##新闻搜索引擎我们从头开始构建了一个完整的信息检索系统,其中包括解析原始数据、将数据过滤到不同类别、创建索引、执行用户查询和计算相关性分数的模块。 该项目受到 Apache Solr 架构的启发,是 UB CSE535 信息...
《ElasticSearch:可扩展的开源弹性搜索解决方案》基于ElasticSearch 的0.2 版本,覆盖了ElasticSearch 各种功能和命令的应用,全面、详细地介绍了开源、分布式、RESTful,具有全文检索功能的搜索引擎ElasticSearch...
FlyCms 是一个类似知乎以问答为基础的完全开源的JAVA语言开发的社交网络建站程序,基于 Spring Boot+Bootstrap3+MyBatis+MYSQL+Solr+Ehcache 应用架构,专注于社区内容的整理、归类和检索,它集合了问答,digg,wiki...
java多商户配送系统源码法典联盟 Codice Alliance 是一个基于 DDF 的开源模块化集成框架,增加...索引和搜索空间意识 全文检索 XPath 搜索 XML 索引 开放地理空间联盟 (OGC) KML、CSW 和 WFS 联合服务 OpenSearch 联合
基本思想是将基于 VSM(向量空间模型)的工具集放在一起,用于可以从 VSM 提供的各种事物中获得一些帮助的各种事物。 对你来说够模糊吗? 我们从搜索/标记开始,但计划考虑更多。 此外,我们从一个简单的键/值存储...
项目整理集合 :floppy_disk: :laptop: 工程项目 :pencil: 1个使用javaAPI调用cmd实现java编译器功能2个易立方商城SSM实现的购物商城,实现了主页搜索,商品管理,购物车管理,广告管理,用户管理。。。 3汤姆猫...
AutoTips基于搜索引擎Apache Lucene实现。AutoTips提供统一UI。 WAP浏览器 j2wap j2wap 是一个基于Java的WAP浏览器,目前处于BETA测试阶段。它支持WAP 1.2规范,除了WTLS 和WBMP。 Java注册表操作类 jared jared是...
2个目标文件,FTP的目标是:(1)提高文件的共享性(计算机程序和/或数据),(2)鼓励间接地(通过程序)使用远程计算机,(3)保护用户因主机之间的文件存储系统导致的变化,(4)为了可靠和高效地传输,虽然用户...
凯撒加密解密程序 1个目标文件 1、程序结构化,用函数分别实现 2、对文件的加密,解密输出到文件 利用随机函数抽取幸运数字 简单 EJB的真实世界模型(源代码) 15个目标文件 摘要:Java源码,初学实例,基于EJB的真实...
AutoTips基于搜索引擎Apache Lucene实现。AutoTips提供统一UI。 WAP浏览器 j2wap j2wap 是一个基于Java的WAP浏览器,目前处于BETA测试阶段。它支持WAP 1.2规范,除了WTLS 和WBMP。 Java注册表操作类 jared jared是...
AutoTips基于搜索引擎Apache Lucene实现。AutoTips提供统一UI。 WAP浏览器 j2wap j2wap 是一个基于Java的WAP浏览器,目前处于BETA测试阶段。它支持WAP 1.2规范,除了WTLS 和WBMP。 Java注册表操作类 jared jared是...
AutoTips基于搜索引擎Apache Lucene实现。AutoTips提供统一UI。 WAP浏览器 j2wap j2wap 是一个基于Java的WAP浏览器,目前处于BETA测试阶段。它支持WAP 1.2规范,除了WTLS 和WBMP。 Java注册表操作类 jared jared是...
AutoTips基于搜索引擎Apache Lucene实现。AutoTips提供统一UI。 WAP浏览器 j2wap j2wap 是一个基于Java的WAP浏览器,目前处于BETA测试阶段。它支持WAP 1.2规范,除了WTLS 和WBMP。 Java注册表操作类 jared jared是...
AutoTips基于搜索引擎Apache Lucene实现。AutoTips提供统一UI。 WAP浏览器 j2wap j2wap 是一个基于Java的WAP浏览器,目前处于BETA测试阶段。它支持WAP 1.2规范,除了WTLS 和WBMP。 Java注册表操作类 jared jared是...
AutoTips基于搜索引擎Apache Lucene实现。AutoTips提供统一UI。 WAP浏览器 j2wap j2wap 是一个基于Java的WAP浏览器,目前处于BETA测试阶段。它支持WAP 1.2规范,除了WTLS 和WBMP。 Java注册表操作类 jared jared是...
AutoTips基于搜索引擎Apache Lucene实现。AutoTips提供统一UI。 WAP浏览器 j2wap j2wap 是一个基于Java的WAP浏览器,目前处于BETA测试阶段。它支持WAP 1.2规范,除了WTLS 和WBMP。 Java注册表操作类 jared jared是...
AutoTips基于搜索引擎Apache Lucene实现。AutoTips提供统一UI。 WAP浏览器 j2wap j2wap 是一个基于Java的WAP浏览器,目前处于BETA测试阶段。它支持WAP 1.2规范,除了WTLS 和WBMP。 Java注册表操作类 jared jared是...