汤尼房 - 简书

发简信

汤尼房

3
关注
32
粉丝
21
文章
31052

字数
80

收获喜欢
7

总资产

IP属地：山东

汤尼房

SQL-Elasticsearch拉数据优化
引言最近几个月我们小组在做SQL拉数据相关的优化工作，主要涉及Trino、ES、Lucene三个模块的开发优化，具体优化包括列存-行转列读取、序列化协议优化、SQL字段Or...

386 0 2
汤尼房

ClickHouse数据生命周期管理
1 概述如果将ClickHouse作为Log或Metrics这种具有明显时序特征数据的存储和分析引擎，那就需要考虑这些数据的生命周期管理，即设置数据的老化机制，如是否需要根...

gaofubao
3516 0 8

汤尼房

哈哈 trie树是个好玩意

手写简版倒排索引（Inverted Index）
说明周末闲来无事花点时间，基于Lucene倒排索引的思想，使用Python简单实现了索引文档与短语搜索的小功能，目的是帮助快速理解倒排索引的写入与查询的基本思想。简单的小...

汤尼房
1245 2 7
汤尼房

手写简版倒排索引（Inverted Index）
说明周末闲来无事花点时间，基于Lucene倒排索引的思想，使用Python简单实现了索引文档与短语搜索的小功能，目的是帮助快速理解倒排索引的写入与查询的基本思想。简单的小...

1245 2 7
汤尼房

Elasticsearch Search Phase Debug 详细记录
Debug说明记录ES数据搜索的整个debug流程，具体细节没有作过多的解释说明 Debug的索引，设置2shard、0replicas，便于理解每个分片的执行主线 ES ...

952 0 4
汤尼房

ClickHouse集群部署
一环境准备下文以常见ClickHouse集群部署架构[https://www.jianshu.com/p/f1fa7e5cb67f]中方案四的部署架构为例。节点名称主机...

gaofubao
2369 0 3
汤尼房

gaofubao
写了 5042 字，被 37 人关注，获得了 35 个喜欢

不害怕，不后悔

汤尼房

@秦亚军_bf9e 一般的做法是源ip不要是127.0.0.1之类的地址；其次这一块可能要结合机器的iptables规则进行判断了。

发往Docker容器内的数据包源地址被修改的研究
引言此文档是对发往Docker容器内的数据包源地址被修改的研究做的实践记录。实践环境一路由信息：一、通过另一台主机向当前主机发送数据包1.192.168.84.75主...

汤尼房
2243 1 2
汤尼房

hello，没太明白你这里的意思哈；list insert操作是可以指定索引为0的，比如my_list = [1, 2, 3]，执行操作my_list.insert(0,5)，则此时my_list会变成[5, 1, 2, 3]，即把插入的数据放到列表的最开始位置

python list 之时间复杂度分析
引言我们在使用python开发过程中，list属于使用非常广泛的数据结构。不管是自己程序存放数据，还是处理接口返回的数据，我们都更倾向于使用list。因为list用起来不仅...

汤尼房
12717 2 14
汤尼房

Elasticsearch Dangling Indices知识梳理
背景前段时间客户根据看到的ES日志报了索引无法创建的Bug，研发工作完成差不多后，开始梳理前线客户Bug，调研后才发现原来是Dangling索引的问题；这篇文档算是对Dan...

4955 1 3
汤尼房

Elasticsearch 索引数据被删除问题的研究
背景前段时间帮着客户排查ES相关的问题，客户环境后期接入的数据量比当初规划的多了很多，依据机器资源的使用情况决定对当前ES集群进行扩容；由2data扩充为4data且专门独...

7090 0 3
汤尼房

华安火车迷
写了 44474 字，被 431 人关注，获得了 288 个喜欢

VIP唯品会 Senior Java Developer 目前从事唯品会搜索服务平台Elasticsearch相关开发工作 微信请扫

汤尼房

Elasticsearch 获取写入Doc shardID的源码分析
前言平时在研究ES的分布式Doc（文档）写入操作时，我们已经知道对将要写入的Doc，ES首先会计算其应该写入到索引的哪个分片，然后在根据集群metaData中的路由信息判断...

1539 0 4
汤尼房

Elasticsearch Write Debug 详细记录
Debug说明记录ES写入数据的整个Debug流程，具体实现细节没有做过多解释说明 Debug的索引，设置1shard、0replicas，便于理清主线先创建索引，其次再...

1063 0 4
汤尼房

老兄再请教个问题，你这里对ES平均每秒写入的次数，这个值是咋计算的呢？

PB级大规模Elasticsearch集群运维与调优实践
背景某中型互联网公司的游戏业务，使用了腾讯云的Elasticsearch产品，采用ELK架构存储业务日志。因为游戏业务本身的日志数据量非常大(写入峰值在100w qps)，...

bellengao
2014 5 17
汤尼房

PB级大规模Elasticsearch集群运维与调优实践
背景某中型互联网公司的游戏业务，使用了腾讯云的Elasticsearch产品，采用ELK架构存储业务日志。因为游戏业务本身的日志数据量非常大(写入峰值在100w qps)，...

bellengao
2014 5 17
汤尼房

@bellengao 谢老兄详细解答

PB级大规模Elasticsearch集群运维与调优实践
背景某中型互联网公司的游戏业务，使用了腾讯云的Elasticsearch产品，采用ELK架构存储业务日志。因为游戏业务本身的日志数据量非常大(写入峰值在100w qps)，...

bellengao
2014 5 17

汤尼房

“1GB堆内存支持20-30个分片为宜；另外需要控制集群整体的分片数量，集群总体的分片数量一般不要超过3w”，老兄，这些经验值是如何得出的呢？ES数据节点1GB的堆内存支持20~30个分片，可是有的索引mapping信息复杂，有些简单啊，这个应该会有差异吧？对于集群总体的分片数量一般不要超过3w的说法，主要是怕集群的master节点中需要存放的metadata信息太大吗？之前看过一个说法说master在管理cluster state这块是通过单线程的方式来做的，因此这里3w的限制与这些都有关吗？很想知道ES集群变大之后，对Master节点内存造成压力的主要包含哪几块？望老兄帮忙解答下

PB级大规模Elasticsearch集群运维与调优实践
背景某中型互联网公司的游戏业务，使用了腾讯云的Elasticsearch产品，采用ELK架构存储业务日志。因为游戏业务本身的日志数据量非常大(写入峰值在100w qps)，...

bellengao
2014 5 17
汤尼房

总结最近半年对Elasticsearch开源项目的贡献
自从2019年对Elasticsearch项目提交过一次代码之后，开始逐渐关注社区里的新动态，并且尝试去解决一些issue，通过这个过程去理解源码从而深入理解Elastics...

bellengao
2180 4 7
汤尼房

bellengao
写了 72728 字，被 300 人关注，获得了 403 个喜欢

高斌龙，Elasticsearch研发工程师，微信公众号：Elasticsearch实践与原理分析