分库分表的基本思想 Sharding的基本思想就要把一个数据库切分成多个部分放到不同的数据库(server)上,从而缓解单一数据库的性能问题。不...
分库分表的基本思想 Sharding的基本思想就要把一个数据库切分成多个部分放到不同的数据库(server)上,从而缓解单一数据库的性能问题。不...
背景 随着公司业务增长,如果每天1000多万笔订单的话,3个月将有约10亿的订单量,之前数据库采用单库单表的形式已经不满足于业务需求,数据库改造...
本次分享将介绍如何在Python中使用Pandas库实现MySQL数据库的读写。首先我们需要了解点ORM方面的知识。 ORM技术 对象关...
解决方式:创建shell脚本 /opt/datax/job/xxxx.sh crontab -e0 8 * * * sh /opt/datax/...
hdfs常用命令: 第一部分:hdfs文件系统命令 第一类:文件路径增删改查系列: hdfs dfs -mkdir dir 创建文件夹 hdf...
1. 概述 在scikit-learn中,与逻辑回归有关的主要是这3个类。LogisticRegression, LogisticRegress...
Pandas官方文档 缩写和包导入 在这个速查手册中,我们使用如下缩写: df:任意的Pandas DataFrame对象s:任意的Pandas...
0.前言 二月份上旬参加了一个关于景区评分预测的竞赛,即根据游客对某景区的评论,预测该游客给该景区打几分。比赛还在继续,感兴趣的朋友点这里。 这...
在机器学习和数据挖掘的应用中,scikit-learn是一个功能强大的python包。在数据量不是过大的情况下,可以解决大部分问题。学习使用sc...
hive性能优化 一、Map阶段的优化: (控制hive任务中的map数,确定合适的map数,以及每个map处理合适的数据量)。 map个数影响...
专题公告
收录一些大数据应用、数据挖掘、机器学习与深度学习相关的知识。