c04317906e8f - 简书

发简信

c04317906e8f

4
关注
5
粉丝
0
文章
0

字数
0

收获喜欢
1

总资产

IP属地：河北

c04317906e8f

DeepRec
写了 8517 字，被 6 人关注，获得了 12 个喜欢

微信公众号：深度学习与推荐系统
c04317906e8f

王喆的机器学习笔记
写了 48380 字，被 374 人关注，获得了 119 个喜欢

c04317906e8f

阿里云云栖号
写了 0 字，被 643405 人关注，获得了 74530 个喜欢

阿里云官网内容平台！汇聚阿里云优质内容（入门、文档、案例、最佳实践、直播等）！如需转载或内容类合作，邮件yqgroup@service.aliyun.com 秒级回复！<br>
c04317906e8f

程序员
小彤花园编，97236 篇文章，1661039 人关注

如果你是程序员，或者有一颗喜欢写程序的心，喜欢分享技术干货、项目经验、程序员日常囧事等等，欢迎投稿《程序员》专题。专题主编：小彤花园 http://www.jianshu.com/users/4a4eb4feee62/ 【程序员】专题拒稿指北：http://www.jianshu.com/p/7c8b33b5f63b 投稿须知： 1.收录相关技术文章，但不限于技术，也可以是项目经验类的文章和程序员日常。 2.文章內不得有任何推广信息。包括但不限于公众号、微博、微信，更不得在通过投稿后再修改文章加入推广信息。你可以将这些推广以及个人信息放在个人主页介绍里。 3.字数极少，段落混乱，大段代码没有放到代码框的文章不收录 4.不相关的内容不收录，请确认文章内容和本专题相关目前针对优质作者及爱好者，开设了官方程序员微信群，希望加入请发简信给主编小彤花园索取个人微信，主编会将你加入到【程序员】微信群，分享内容，收获知识。添加微信时备注昵称。
c04317906e8f

OSC开源社区
写了 424497 字，被 123817 人关注，获得了 6661 个喜欢

开源中国社区官方账号，每天为开发者推送最新最热的技术资讯。
c04317906e8f

另外关于第三点 “增大 threadpool.index.queue_size” 应该也是没有用的
索引时的并发量是跟shard的数量对应的，但是不会超过本机的cpu 核的个数。
因为es里面不管是BULK, 还是INDEX的threadPool，线程数都是fix的，即availableProcessors（貌似可以通过配置手动修改，没设默认就是机器的cpu核数，且不超过32）
而这个threadpool.index.queue_size，只不过是线程池等待任务队列的大小。默认50，若索引时es消化不过来，这个等待任务超过了队列大小，es会直接拒绝请求，抛出EsRejectException。

如何提高ElasticSearch 索引速度
我Google了下，大致给出的答案如下：使用bulk API 初次索引的时候，把 replica 设置为 0 增大 threadpool.index.queue_size ...

祝威廉
33479 15 40 1
c04317906e8f

ElasticSearch 深入
祝威廉编，36 篇文章，841 人关注

Es 源码解析类的文章

c04317906e8f

关于version这块，一般是不会影响索引速度的吧。
一般情况下索引数据时你是不会自己提供id的，这时es会为每条数据自动生成一个base64 UUID，而且好像还是字典序上的自增，这个时候记录索引默认是create，这根本就不存在版本冲突和加锁的问题吧。
如果你是指索引的meta state的版本号。这个版本号一般只会在发生了field mapping的更新，setting的更新时版本号才会更新。当你海量数据导入的时候，数据的列总不会每条数据都不一样吧？所以这个版本号也是不会频繁更新的。
不知道我有没有理解正确你的意思？

如何提高ElasticSearch 索引速度
我Google了下，大致给出的答案如下：使用bulk API 初次索引的时候，把 replica 设置为 0 增大 threadpool.index.queue_size ...

祝威廉
33479 15 40 1
c04317906e8f