他山之石

0、Markdown编辑器语法https://segmentfault.com/markdown/https://blog.csdn.net/wiki_su/article/details/74764731

1、FlashText:关键词搜索替换算法

  • 时间复杂度:O(N),文档字符N,关键词数M。(正则的复杂度是O(M*N))
  • 只匹配完整单词、最长字符串
  • 基于 Trie 字典数据结构和 Aho Corasick 的算法。它的工作方式是,首先它将所有相关的关键字作为输入。使用这些关键字建立一个 trie 字典。start 和 eot 是两个特殊的字符,用来定义词的边界,这和我们上面提到的正则表达式(\b)是一样的。这个 trie 字典就是我们后面要用来搜索和替换的数据结构。

2、Jenkins —— 定时启动程序

3、tableau —— 可视化工具

4、数据库范式

5、 算法和数据结构

6、ElasticSearch

Python elasticsearch 官方文档(参数配置):https://elasticsearch-py.readthedocs.io/en/master/

①字符串字段类型

keyword:存储数据时候,不会分词建立索引

text:存储数据时候,会自动分词,并生成索引(这是很智能的,但在有些字段里面是没用的,所以对于有些字段使用text则浪费了空间)。

精确查找时:

如果精确查找zuName字段

{ "query": { "term": { "zuName": "墙体钢结构" } } }

会出现空数据,表示查不到数据,这是因为墙体钢结构这个值在存储的时候被分词了,倒排索引里面只有‘墙体’,'钢结构',这两个词所以会出现查找为空的记录
2018-11-8:注意!!!用term/terms查询text字段时,是将对应字段内容分词后,看与term/terms的字符串是否有匹配!!!所以如果你terms给的一些词,与text在es中的分词后不一样,就会搜索不到!!!

这种情况下的分词是存储数据时候的分词,还有一种分词是在你搜索的时候根据你的搜索参数进行分词后再进行搜索的。es提供了许多开箱即用的分析器analyzer,大家也可以去下载被人开发好的分词器然后安装在es的plugins下,然后在声明使用。在zuName这个字段我用的是ik的分词器,是一个大家基本都会用到的中文分词器,git地址为 https://github.com/medcl/elasticsearch-analysis-ik

如果精确查找zuMakert字段

{ "query": { "term": { "zuMakert": "张三李四" } } }

这时候这条记录是存在的,因为keyword字段不会进行分词。

这查询是精确查询出现的结果,如果你使用分词查询,结果就会一样,但搜索结构的权重是不一样的。

② ElasticSearch多种查询方式
https://www.cnblogs.com/sunfie/p/7019701.html

eg:
1)full-text search(全文检索)

GET /ecommerce/product/_search
  {
    "query" : {
      "match" : {
        "producer" : "yagao producer"
      }
    }
  }
2)phrase search(短语搜索)

跟全文检索相对应,相反,全文检索会将输入的搜索串拆解开来,去倒排索引里面去一一匹配,只要能匹配上任意一个拆解后的单词,就可以作为结果返回,phrase search,要求输入的搜索串,必须在指定的字段文本中,完全包含一模一样的,才可以算匹配,才能作为结果返回
{
"query": {
"match_phrase": {
"url": "https://m.weibo.cn/status/4218271161401312"
}
}
}

3)类似SQL where in 查elasticsearch的text类型字段(精确匹配) —— should是or的意思,且与filter平级,故不能在filter里面。
{
"query": {
"bool": {
"should": [
{
"match_phrase": {
"url": "https://m.weibo.cn/status/4218271161401312"
}
},
{
"match_phrase": {
"url": "https://m.weibo.cn/status/4216916723449408"
}
}
]
}
}
}

③ es查询两个字段值相等
{
"query": {
"bool": {
"must": [{
"match_all": {}
}],
"filter": [{
"script": {
"script": {
"inline": "doc['weibo_del_num'].value - doc['event_weibo_num'].value == 0",
"lang": "painless"
}
}
}],
"must_not": [],
"should": []
}
},
"from": 0,
"size": 10
}

④ 注意:查询多个range / term ,只能每个写一个,不能像下面这么写:
{
"query": {
"bool": {
"should": [],
"must": [
{
"range": {
"sensitive_word": {"gt": "''"},
"weibo_del_num": { "gte": 0}
}
}
],
"must_not": []
}
}
}
会报错:

image.png

正确的写法:
{
"query": {
"bool": {
"must": [
{
"range": {"sensitive_word": {"gt": "''"}}
}
,
{
"range": {"weibo_del_num": {"gte": "0"}}
}
],
"must_not": [ ],
"should": [ ]
}
},
"from": 0,
"size": 10,
"sort": [ ],
"aggs": { }
}

⑤ 【万能的解决方法】不知道怎么写query的时候可以用SQL!!!
1)直接网页访问拼SQL语句的链接:
http://192.168.0.135:9200/_sql?sql=select * from zk_social where url in ('https://m.weibo.cn/status/4199823517293095','https://m.weibo.cn/status/4199819234949332')

返回结果:


image.png

2)SQL语句转换为es的query语法:
http://192.168.0.135:9200/_sql/_explain?sql=select * from zk_social where url in ('https://m.weibo.cn/status/4199823517293095','https://m.weibo.cn/status/4199819234949332')

返回结果:


image.png

3)from yf.L: —— 2018/12/7 冷哥走之前对es的小tips
http://192.168.0.135:9200/_sql/?sql=select * from zk_social where gov_id = '2' and pub_time between '2018-05-21 00:00:00' and '2018-05-21 23:59:59' order by pub_time limit 100000

集群上面每一台都装了,把前面的IP换成下面的5台都可以:
192.168.0.135
192.168.0.133
192.168.0.38
192.168.0.118
192.168.0.88

如果不知道es查询语句怎么写,还可以把sql转成es的查询语句:
http://192.168.0.135:9200/_sql/_explain?sql=select * from zk_social where is_deleted is null and gov_id = '2'

⑥ ElasticSearch 评分(排序)公司:https://blog.csdn.net/flashflight/article/details/52187413?utm_source=blogxgwz0

⑦ ES - groupby "gov_id":
es_agg_query={
"size":0,
"aggregations": {
"gov_id": {
"terms": {
"field": "gov_id",
"size": 9999 # size限定groupby后输出前多少个gov_id的数据情况 #
},

"aggregations":{
"sum_count_read": {
"sum": {
"field": "count_read"
}
},
"sum_count_share": {
"sum": {
"field": "count_share"
}
},
"sum_count_comment": {
"sum": {
"field": "count_comment"
}
}
}
}
}
}

⑧ ES - 对某时段的微博信息groupby
{
"size": 0,
"aggregations": {
"gov_id": {
"terms": {"field": "gov_id", "size": 9999},
"aggregations": {
"sum_count_read": {
"sum": {
"field": "count_read"
}
},
"sum_count_share": {
"sum": {
"field": "count_share"
}
},
"sum_count_comment": {
"sum": {
"field": "count_comment"
}
}
}
}
},
"query": {
"bool": {
"filter": [
{
"range": {
"pub_time": {
"lt": "2018-12-01 00:00:00",
"gte": "2018-11-01 00:00:00"
}
}
}
]
}
}
}

示例:

query相当于where条件,aggregations相当于groupby

⑨ 2019-02-27 es集群健康值丢失数据的问题
https://blog.csdn.net/dm_vincent/article/details/41205207
https://blog.csdn.net/paul342/article/details/51699849
https://blog.csdn.net/laoyang360/article/details/81271491
https://blog.csdn.net/wyl9527/article/details/78526183

各颜色状态.png

⑩ 2019-06-12 ES翻页(深分页)查询 - scroll参数
https://blog.csdn.net/xsdxs/article/details/72876703
https://es.xiaoleilu.com/060_Distributed_Search/20_Scan_and_scroll.html

7、Google adanet —— 深度学习自动训练平台:https://baijiahao.baidu.com/s?id=1615804233431490489&wfr=spider&for=pc
更多见Github

8、Google BERT —— NLP:http://www.sohu.com/a/272639968_129720
更多见Github

9、redis

10、python :
image.png

11、Github:
https://guides.github.com/introduction/flow/
https://guides.github.com/
MINE:https://github.com/yushengliu

12、CSDN:
https://bbs.csdn.net/forums/PostgreSQL

13、rsync:https://www.cnblogs.com/george-guo/p/7718515.html

14、树莓派:http://www.ruanyifeng.com/blog/2017/06/raspberry-pi-tutorial.html

15、ftp:是文件传输协议,只提供文件上传和下载功能,不支持在线打开/修改等

16、计算机网络:


计算机网络.jpg

17、Jupyter Notebook:
http://baijiahao.baidu.com/s?id=1601883438842526311&wfr=spider&for=pc

jupyter安装:https://jupyter.readthedocs.io/en/latest/install.html#id2

18、R语言的ggplot2包——探索性数据分析
https://www.cnblogs.com/nxld/p/6059603.html

image.png

19、python VS Xmind:https://pypi.org/project/XMind/

20、谷歌镜像网站:https://gugeji.com/

21、Python可视化echarts:http://pyecharts.org

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 204,793评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 87,567评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 151,342评论 0 338
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,825评论 1 277
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,814评论 5 368
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,680评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,033评论 3 399
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,687评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 42,175评论 1 300
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,668评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,775评论 1 332
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,419评论 4 321
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,020评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,978评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,206评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,092评论 2 351
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,510评论 2 343

推荐阅读更多精彩内容