jacky-wangjj

关系型数据库导出数据到非关系型数据库

sqoop定时增量导入mysql数据到hivehive表结构中的数据类型与mysql对应如下MySQL(bigint) --> Hive(bigint)MySQL(tinyint) --> Hive(tinyint)MySQL(int) --> Hive(int)MySQL(double) --> Hive(double)MySQL(bit) --> Hive(boolean)MySQL(varchar) --> Hive(string)MySQL(de...…

2019-05-17

大数据

 阅读全文 »
Hive表结构设计

Hive表结构设计原则Hive 中所有的数据都存储在 HDFS 中，没有专门的数据存储格式（可支持 Text， SequenceFile，ParquetFile，RCFILE 等），SequenceFile 是 hadoop 中的一种文件格式：文件内容是以序列化的 kv 对象来组织的。Hive 中包含以下数据模型：DB、Table，External Table，Partition，Bucket。 db：在 hdfs 中表现为${hive.metastore.warehouse.dir}...…

2019-05-17

大数据

 阅读全文 »
HBase表结构设计

HBase基本介绍只创建一次HTable实例，一般在应用程序开始时创建；使用多个HTable实例时，考虑使用HTablePool类；所有的修改操作只保证行级别的原子性。数据库基本操作CRUD(Create, Read, Update, Delete)具体指增、查、改、删。 HBase使用行键、列族、列限定符、时间戳指向一个单元格的值。数据的版本化 hbase能为一个单元格（一个特定列的值）存储多个版本的数据，每个版本使用一个时间戳，时间戳是一个长整型值，以毫秒为单位。 ...…

2019-05-16

大数据

 阅读全文 »
Scrapy爬虫整合Kafka和MongoDB

Scrapy安装$ pip install ScrapyScrapy项目创建新的scrapy项目$ scrapy startproject {ProjectName}生成示例spider$ cd {ProjectName}$ scrapy genspider example example.com测试$ cd {ProjectName}$ scrapy crawl {SpiderName}保存爬取的信息到json文件$ scrapy crawl {SpiderName} -o items....…

2019-05-10

python爬虫

 阅读全文 »
Maven可执行程序打包及包冲突解决

Spring Boot添加本地jar包打包./lib/llw-base-rpc.jar到jar包中。<dependencies> <dependency> <groupId>llw-base-rpc</groupId> <artifactId>llw-base-rpc</artifactId> <version>1.0</version> ...…

2019-05-07

maven

阅读全文 »
Hive表支持中文设置

Hive表支持中文设置修改hive的元数据库相关表的属性，元数据库一般是存储在mysql中的，执行如下SQL语句，然后可以在hive中创建带中文的表。alter table TBLS modify column TBL_NAME varchar(1000) character set utf8;alter table COLUMNS_V2 modify column COMMENT varchar(256) character set utf8;alter table TABLE_P...…

2019-05-07

大数据

 阅读全文 »
Spark Streaming详解

Spark Streaming简介Spark Streaming是Spark为需要即时处理收到的数据的应用而设计的模型。Spark Streaming使用离散化流（discretized stream）作为抽象表示，即DStream。DStream是随时间推移而收到的数据的序列。在内部，每个时间区间收到的数据都作为RDD存在，而DStream是由这些RDD所组成的序列。DStream可以从各种输入源创建，比如Flume、Kafka或者HDFS。创建出来的DStream支持两种操作，一种是转...…

2019-04-23

大数据

 阅读全文 »
Spark SQL详解

Spark SQL简介Spark SQL是Spark用来操作结构化和半结构化数据的接口。Spark SQL会使得针对这些数据的读取和查询变得更加简单高效。具体来说，Spark SQL提供了以下三大功能。 Spark SQL可以从各种结构化数据源（如JSON、Hive、Parquet等）中读取数据。 Spark SQL不仅支持在Spark程序内使用SQL语句进行数据查询，也支持外部工具通过标准数据库连接器（JDBC/ODBC）连接Spark SQL进行查询。当在Spark程序内使用S...…

2019-04-23

大数据

 阅读全文 »
机器学习之pipeline

pipeline简介一个典型的机器学习过程通常会包含：源数据ETL，数据预处理，特征提取，模型训练与交叉验证，新数据预测等。我们可以将这个包含多个步骤的流水线式工作结合在一起构成一条管道，称为pipeline。数据沿pipeline“流动”，从原始格式，最终得到有用的信息。pipeline中每一步的输入的数据，都是经过前一步处理过的，也就是某一数据处理单元的输出，是下一步的输入。pipeline中所有步骤除了最后一步（estimators），都要有fit和transform方法，数据呈...…

2019-04-22

机器学习

 阅读全文 »
scikit-learn之模型存储与上线

模型存储 pickle保存模型到本地，不能跨平台使用 >>> from sklearn import svm>>> from sklearn import datasets>>> clf = svm.SVC()>>> iris = datasets.load_iris()>>> X, y = iris.data, iris.target>>> clf.fit(X, y) S...…

2019-04-21

机器学习

 阅读全文 »
Centos7安装SQLServer详解

SQLServer简介官方文档安装指导快速入门：安装 SQL Server 和 Red Hat 上创建数据库…

2019-04-16

环境

 阅读全文 »
Centos6安装Oracle详解

环境准备 Centos6.6 linux.x64_11gR2_database_1of2.zip linux.x64_11gR2_database_2of2.zip安装指导CentOS6.7安装Oracle 11g2R傻瓜图文教程oracle设置/etc/sysctl.conf参数详解安装完成后可以通过浏览器访问http://10.110.181.99:5500/emOracle常用操作 SQLPlus 在连接时通常有四种方式 sqlplus / as sysdb...…

2019-04-16

环境

 阅读全文 »
Python之Requests模块使用详解

Requests模块简介Requests模块是在Python内置模块的基础上进行了高度的封装，主要用来发送HTTP网络请求，可以轻而易举的完成浏览器的任何操作。Requests模块比urllib2模块更简洁。官方文档中文文档Requests模块源码Requests模块功能特性 Keep-Alive & 连接池国际化域名和 URL 带持久 Cookie 的会话浏览器式的 SSL 认证自动内容解码基本/摘要式的身份认证优雅的 key/value Cookie ...…

2019-04-13

python

阅读全文 »
Splinter自动化web应用测试工具详解

Splinter简介Splinter是一个开源的工具用来通过python自动化测试web应用，可以使用python启动浏览器并自动操作网页，模拟用户点击、输入。官方文档中文文档python安装Splinter模块：pip install splinterSplinter基于selenium，所以需要有浏览器驱动：Firefox驱动或Chrome驱动，也可以去selenium官网下载。python程序中指定使用的浏览器以及浏览器驱动的路径，执行Browser(driver_name=driv...…

2019-04-12

python

阅读全文 »
个人网站添加谷歌广告

工具能翻墙上Google的网络网站源码添加步骤详解注册谷歌账号Gmail；注册谷歌搜索Google search console 关联网站URL，将代码添加到<head>标签中  <meta name="google-site-verification" content="mQhRK1NyQjtVsm41qLVxKym8EQOK9xG__uEJhCILEKA" /> 注册谷...…

2019-04-10

环境

 阅读全文 »
GitHub+Jekyll搭建个人博客详解

工具 github jekyll 百度统计来比力评论系统不蒜子浏览量统计搭建过程网站托管直接使用GitHub提供的GitHub Pages功能，展示博客的页面。首先需要到GitHub上注册账号，例如我注册的是jacky-wangjj；点击New repository -> 输入仓库名称（格式为.github.io，如jacky-wangjj.github.io）-> 点击Create repository；Jekyll安装这里讲解的是Windows下的安装...…

2019-04-09

环境

 阅读全文 »