自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

ChengYanan的博客

大数据技术学习园地

  • 博客(520)
  • 资源 (13)
  • 论坛 (1)
  • 收藏
  • 关注

原创 CSDN 插件官方下载地址

CSDN 插件下载地址https://plugin.csdn.net/

2021-04-08 16:57:02 5

原创 hive 视图中出现中文乱码

create view view_test1 asselect case sex when 0 then '女' when 1 then '男' else '' end as sex ,case level when 1 then '一级' when 2 then '二级' else '' end as `level`from tablename1查询结果:解决方式:ALTER TABLE `TBLS` MODIFY COLUMN VIEW_EXPANDED_TEXT mediumtext

2021-04-07 21:05:18 4

原创 pandas 处理 Excel 文件并将结果写入数据库中

需要注意的是pandas处理数据,数字格式的null 会被显示为nan,所以需要简单的处理一下:str_obj.replace("nan", "null")完整代码如下:# -*- coding: utf-8 -*-import pandas as pdfrom datetime import datetimefrom impala.dbapi import connectfrom impala.util import as_pandasimport osfile = r'E:\\日

2021-04-07 13:31:41 11

原创 Impala插入kudu主键冲突了不会报错只会警告

问题描述解决办法想要的结果是 直接抛出异常,但是并没有抛异常用Impala JDBC插入 也是不报错,还以为是插入成功了暂未找到如何设置,才能使主键冲突 直接抛出异常,而不是警告

2021-04-07 11:19:47 7

原创 不能在impala中使用having,发生错误:could not resolve column/field reference

Impala 版本 :3.2.0+cdh6.3.2在impala sql中使用 “having “时,出现了 “could not resolve column/field reference “的错误。select count(dst_ip) as times, dst_ip from test_mode group by dst_ip having times > 1我不知道为什么,impala文档支持有https://impala.apache.org/docs/build/htm

2021-04-06 17:54:06 8

转载 Python处理excel合并单元格

读取可以使用 xlrd,也可以使用 openpyxl,但是 openpyxl 读取不了. xls 格式的 Excel,需要转成 xlsx,有点麻烦,所以使用了 xlrd。打开文件xlrd 也遇到了一点问题,文件如果是 xls 文件直接打开,在提取合并单元格的时候会拿不到数据,需要加上 formatting_info=True,formatting_info=True 的时候打开. xlsx 文件会报错 NotImplementedError: formatting_info=True not ye

2021-03-31 20:56:48 26

原创 pyflink sql demo

from pyflink.table import EnvironmentSettings, StreamTableEnvironmentenv_settings = EnvironmentSettings.new_instance().in_streaming_mode().use_blink_planner().build()table_env = StreamTableEnvironment.create(environment_settings=env_settings)table = t

2021-03-31 20:50:23 19

转载 Pandas 数据结构

数据结构维数名称描述1Series带标签的一维同构数组2DataFrame带标签的,大小可变的,二维异构表格为什么有多个数据结构?Pandas 数据结构就像是低维数据的容器。比如,DataFrame 是 Series 的容器,Series 则是标量的容器。使用这种方式,可以在容器中以字典的形式插入或删除对象。此外,通用 API 函数的默认操作要顾及时间序列与截面数据集的方向。多维数组存储二维或三维数据时,编写函数要注意数据集的方向,这对用户来说是一种负担;如果不考虑 C 或 Fortran 中连续性

2021-03-31 19:34:49 5

原创 python 利用pandas将Excel转换为csv文件(自定义分隔符)

import pandas as pddf = pd.read_excel('E:\\xxx-3.20.xlsx', sheet_name='Sheet', header=None)# 使用pandas模块读取数据print(df.cov())print('开始写入txt文件...')# 自定义分隔符为$df.to_csv('file2.txt', header=None, sep='$', index=False)print('文件写入成功!')...

2021-03-29 19:30:26 14

原创 java8解析带有 AM/PM 的12小时制 时间字符串

今天遇到了这样的一件事,时间字段是12小时制的,而且是带有AM/PM 的字符串,怎么解析成标准化的时间格式呢?时间数据样本:12/25/2020 11:27:49 AM经过一番探索后发现代码可以这样写:DateTimeFormatter df = DateTimeFormatter.ofPattern("MM/dd/yyyy h:mm:ss a",Locale.ENGLISH);LocalDateTime dateTime = LocalDateTime.parse(str, df);Syst

2021-03-26 16:28:51 16

原创 Linux shell 字符串替换

方法一# [cdh01 root 09:57:39] [Thu Mar 25] $ str="hello world"# [cdh01 root 09:58:09] [Thu Mar 25] $ echo $strhello world# [cdh01 root 09:58:14] [Thu Mar 25] $ echo ${str/o/P}hellP world但是这种方法不能全局替换:# [cdh01 root 09:58:45] [Thu Mar 25] $ ech

2021-03-25 10:04:10 9

原创 HDFS上小文件合并

hdfs dfs -cat /user/hive/warehouse/test.db/tmpdata/* | hdfs dfs -put - /user/hive/warehouse/test.db/tmpfile

2021-03-23 17:59:46 19

原创 如何关掉pycharm中的python console(图解)

安装好jupyter notebook后,在pycharm中无论运行什么样的python脚本,都会默认使用python的console运行,这种console非常恶心,前几行全是费话。而且运行完后,不会自动关闭,这样console越积越多,就像上图一样开了十几个。这严重影响了我们读代码。如何关闭烦人的console?总结以上所述是小编给大家介绍的如何关掉pycharm中的python console(图解),希望对大家有所帮助,如果大家有任何疑问请给我留言,小编会及时回复大家的。在此也非常感谢大家

2021-03-22 15:25:12 31

原创 python 爬虫抓取某电商页面的商品价格

业务需求最近想通过爬虫抓取某电商商品页的价格。页面如下:实践然后就兴冲冲的写了段代码来爬取网页数据。# 厨房卫浴href = 'http://search.gome.com.cn/search?question=%E5%8E%A8%E6%88%BF%E5%8D%AB%E6%B5%B4'res = requests.get(href)# print(res.text)soup = BeautifulSoup(res.text, 'html.parser')# product_list

2021-03-18 21:14:43 141

原创 Impala查询报错Memory limit exceeded: Error occurred on backend cdh01:22000 by fragment 【未解决】

Query 2b4c5263b1fdbd24:61ae4f9500000000: 0% Complete (0 out of 2)Query 2b4c5263b1fdbd24:61ae4f9500000000: 50% Complete (1 out of 2)WARNING: The following tables are missing relevant table and/or column statistics.ods.a,ods.bMemory limit exceeded: Error

2021-03-18 16:55:02 50

原创 mysql 给用户撤销权限

首先看用户有哪些权限mysql> SHOW GRANTS FOR 'gmdata'@'%' -> ;+----------------------------------------------------+| Grants for gmdata@% |+----------------------------------------------------+| GRANT ALL PRIVILEGES ON *..

2021-03-18 14:11:20 40

转载 HUE loadbalancer启动失败解决方法

HUE loadbalancer启动失败,报错信息如下:cloudera-scm-agent/process/169-hue-HUE_LOAD_BALANCER/httpd.conf: Cannot load /usr/lib64/httpd/modules/mod_ssl.so into server: /usr/lib64/httpd/modules/mod_ssl.so: cannot open shared object file: No such file or directory日志

2021-03-18 11:40:15 22

原创 hue安装报错【已解决】

今天在CDH平台上安装Hue,突然间报了这样一个错:[17/Mar/2021 16:53:33 +0000] settings DEBUG DESKTOP_DB_TEST_NAME SET: /opt/cloudera/parcels/CDH-6.3.2-1.cdh6.3.2.p0.1605554/lib/hue/desktop/desktop-test.db[17/Mar/2021 16:53:33 +0000] settings DEBUG DESKTOP_DB_TEST

2021-03-17 17:29:34 16

原创 Permission denied (publickey,gssapi-keyex,gssapi-with-mic)

买的新的腾讯云服务器报错:Permission denied (publickey,gssapi-keyex,gssapi-with-mic)详细如下:# [cdh02 root 19:44:00] [Tue Mar 16] /data/software$ ssh cdh01The authenticity of host 'cdh01 (172.21.64.11)' can't be established.ECDSA key fingerprint is SHA256:d6/hLeY+Xe

2021-03-16 19:50:49 42

原创 新建的hive建表报错Could not create “increment“/“table“ value-generation container `SEQUENCE_TABLE` since

hive (default)> create table page_view > ( > page_id bigint comment '页面ID', > page_name string comment '页面名称', > page_url string comment '页面URL' > )

2021-03-10 20:46:52 26

转载 3种方法更改Linux系统的主机名(hostname)

本文由 简悦 SimpRead 转码, 原文地址 www.linuxdashen.com这篇文章介绍更改 Linux 系统主机名 (hostname) 的 3 种方法。查看当前的主机名首先我们使用 hostname 命令来查看当前的主机名。hostname也可以使用 hostnamctl 命令hostnamectl更改主机名的第一种方法主机名保存在 /etc/hostname 文件里,所以我们可以打开这个文件,手动编辑主机名。sudo nano /etc/hostname将当.

2021-03-10 15:13:16 59

原创 hive 去掉字符串以数字开头的部分

-- 去掉数字开头select regexp_replace('09部门22','^[0-9]+','');结果是:"部门22"-- 去掉数字select regexp_replace('09部门22','[0-9]','');结果是:"部门"

2021-03-10 13:08:39 89

原创 Impala 自动刷新 hive 元数据原理

描述:目前,在lmpala中,有多种方法可以使存储在catalog中的表元数据失效或刷新。Catalog中的对象可以根据基于使用的方法(invalidate_tables_timeout_s)或在存在GC压力(invalidate_tables_on_memory_pressure)时失效(IMPALA-7448)。然而,大多数用户在想要同步到HDFS或HMS的最新信息时都会使用invalidate 命令。然而,当数据被修改或在Impala(如Hive)或不同的Impala集群之外添加新的数据时,用户.

2021-03-10 11:33:14 71

原创 关于Impala 读 Kudu 的数据一致性问题

适用版本:Impala 3.1 及以上版本KUDU_READ_MODE 参数可以设置扫描Kudu表的一致性级别参数类型: String默认值: “DEFAULT”添加版本: Impala 3.1查询选项支持以下值:DEFAULT:‑‑kudu_read_mode 该参数代表启用该功能。READ_LATEST:通常称为Read Committed隔离模式,在该模式下,Kudu不为该模式提供一致性保证,除非所有返回的行都是在某个时间点提交的。READ_AT_SNAPSHOT:.

2021-03-10 10:52:08 36

原创 flink报错ByteArraySerializer is not an instance of org.apache.kafka.common.serialization.Serializer

文章目录问题描述报错信息问题解决方式一:方式二:问题描述代码如下:public class Sink_KafkaSink_1{ public static void main(String[] args) throws Exception { final ParameterTool params =ParameterTool.fromPropertiesFile(Sink_KafkaSink_1.class.getResourceAsStream("/pro.properti

2021-03-09 18:59:56 57

原创 Flink checkpoint恢复疑问【未解决】

问题描述请问下,如果我代码逻辑有变动了,可以从历史的checkpoint恢复吗?我试了下,从历史的checkpoints恢复的话,并没有执行我的修改后的逻辑,例如原来逻辑是where flag=1 改为:where flag>1 ,从9点30的checkpoint :chk100 恢复,是不是 where flag>1的逻辑只会对9点30后的数据生效呢?问题解答...

2021-03-08 15:01:23 19

原创 flink版本:1.11.2, 从kafka读取数据写到hdfs,运行一段时间报错【未解决】

问题描述flink版本:1.11.2, 从kafka读取数据写到hdfs,运行一段时间报错代码CREATE TABLE T_ED_CELL_NUM_INFO_SRC( bigBox STRING, edCode STRING, mBoxAmount INT, mFaultBoxAmount INT, mFaultReserveBoxAmount INT, mReserveBoxAmount INT, mUseReserveBox INT,

2021-03-08 14:42:41 64

原创 Flink Sql demo

CREATE TABLE t_stock_match_p_1( id VARCHAR, stkcode INT, volume INT, matchtime TIMESTAMP, WATERMARK FOR matchtime as matchtime) WITH ( 'connector' = 'kafka-0.10', 'topic' = 'xxx', 'scan.startup.mode' = 'latest-offset', 'properties.group

2021-03-08 14:02:11 35

原创 python 脚本批量修改文件名

以下例子就是将文件名中的abc全部删除掉。比如将文件名abc123.jpg 改为 123.jpgimport os# path = input("请输入文件路径:")ch_path = 'E:\xxx'# 获取该目录下所有文件,存入列表中fileList = os.listdir(ch_path)os.chdir(ch_path)for i in fileList: new_name = i.replace('abc', '') print(new_name)

2021-03-05 21:05:57 31

原创 大数据项目之用户行为分析实战【转载】

大数据架构介绍一般企业大数据架构图LAMBDA架构介绍(了解)大概思路:将大数据系统构建为多个层次,三层架构:批处理层、实时处理层、服务层https://blog.csdn.net/u013368491/article/details/71271864大数据团队组织结构数据平台负责人数据平台架构师大数据开发(ETL开发、数仓开发)深度学习/AI工程师BI思考题、从零开始组建公司的大数据集群如何确认集群规模?假设每台服务器8T硬盘使用Apache/CDH/HDP版本?服务器

2021-03-05 20:26:03 183

原创 关于flinksql 与维表mysql的关联问题记录

此问题摘录自Flink中文社区邮件,仅仅作为记录用。Q:我有个问题想请教下,关于flinksql与mysql维表关联 关于mysql更新的问题 有没有好的方法?我现在使用的广播mysql但是有个问题,广播mysql时我的流数据已经到了但是mysql的数据还没有到导致我现在数据会再启动的时候丢失一部分数据。A:如果是想达到延迟JOIN的目的,可以考虑利用WaterMark的maxoutoforderness。job取消时做savepoint重启时应该不会有这个问题A:您的意思是open 全量预加

2021-03-05 18:48:08 56

原创 Materialized views (Hive 物化视图 官方文档摘抄)

本文由 简悦 SimpRead 转码, 原文地址 cwiki.apache.org本文是直接从hive官方文档上摘抄。Version informationMaterialized views support is introduced in Hive 3.0.0.IntroductionThis page documents the work done for the supporting materialized views in Apache Hive.ObjectivesTradi.

2021-03-04 16:08:25 90

原创 flink-mysql-cdc

mysql-cdc 表1:CREATE TABLE products (id INT,name STRING,description STRING) WITH ('connector' = 'mysql-cdc','hostname' = '10.60.11.21','port' = '3306','username' = 'root','password' = 'root','database-name' = 'mydb','table-name' = 'products');

2021-03-02 19:37:32 117

原创 Flink实时读取Mongodb

说明:目前社区并没有开源的MongoDBSource但是Debezium 支持 MongoDB CDC[1],可以了解下:https://debezium.io/documentation/reference/connectors/mongodb.htmlhttps://debezium.io/documentation/reference/connectors/mongodb.html#mongodb-streaming-changes所以可以借助debezium的MongoDB

2021-03-02 16:04:27 207

原创 一个可以免费去除图片背景的网站

https://www.remove.bg/zh/upload:

2021-03-01 13:23:56 96

原创 MongoDB安装记录

从官网下载MongoDB最新版wget https://fastdl.mongodb.org/linux/mongodb-linux-x86_64-rhel70-4.4.4.tgz如果是选择其他版本,则在如下页面选择对应版本然后复制连接即可:https://www.mongodb.com/try/download/community上面的这个copy link 有时候不会显示出来,多刷新几次就好了tar zxvf mongodb-linux-x86_64-rhel70-4.4.4.tgz -C

2021-02-24 18:50:52 23

原创 Flink 报错 Hadoop is not in the classpath/dependencies.

D:\bigData\jdk\jdk1.8.0_271\bin\java.exe "-javaagent:D:\bigData\idea\2018.3\IntelliJ IDEA 2018.3.6\lib\idea_rt.jar=2566:D:\bigData\idea\2018.3\IntelliJ IDEA 2018.3.6\bin" -Dfile.encoding=UTF-8 -classpath D:\bigData\jdk\jdk1.8.0_271\jre\lib\charsets.jar;D:\

2021-02-24 11:19:36 45

转载 Flink 使用 broadcast 实现维表或配置的实时更新

问题导读1. 本文介绍了几种维表方案?2. 各个方案有什么优缺点?3. broadcast 如何实现实时更新维表案例?通过本文你能 get 到以下知识:Flink 常见的一些维表关联的案例常见的维表方案及每种方案适用场景,优缺点案例:broadcast 实现维表或配置的实时更新一、案例分析维表服务在 Flink 中是一个经常遇到的业务场景,例如:客户端上报的用户行为日志只包含了城市 Id,可是下游处理数据需要城市名字商品的交易日志中只有商品 Id,下游分析数据需要用到商品所属的类

2021-02-23 17:21:18 90

原创 clickhouse 安装过程中出现的问题

ch安装安装步骤:sudo yum install yum-utilssudo rpm --import https://repo.clickhouse.tech/CLICKHOUSE-KEY.GPGsudo yum-config-manager --add-repo https://repo.clickhouse.tech/rpm/clickhouse.reposudo yum install clickhouse-server clickhouse-clientsudo /etc/init

2021-02-22 20:13:58 243

原创 idea内置的database工具查mysql 时间类型差8个小时

问题描述:如下图,idea自带的database工具查询数据库中的时间类型时,总是少8个小时,这是因为idea工具是按照UTC时区自动给我们转换了。解决办法:在idea中增加如下配置即可:或者:

2021-02-21 21:06:26 33

十大数据分析模型详解_白皮书.pdf

基于多维事件模型,会形成一些常见的数据分析方法,在用户行为分析领域,对这些数分析方法的科学婴童进行理论指导,能够相对的完整的解释用户行为的内在规律,基于此帮助企业实现多维的交叉分析,让企业建立快速反应,适应变化的敏捷商业智能决策。

2020-06-24

基于Flink SQL构建实时数仓.pdf

OPPO 作为手机厂商,基于 Android 定制了自己的 ColorOS 系统,当前日活跃用户超过 2 亿。围绕 ColorOS,OPPO 构建了很多互联网应用,比如应用商店、浏览器、信息流等。在运营这些互联网应用的过程中,OPPO 积累了大量的数据,上图右边是整体数据规模的演进:从 2012 年开始每年都是 2~3 倍的增长速度,截至目前总数据量已经超过 100PB,日增数据量超过 200TB。 要支撑这么大的一个数据量,OPPO 研发出一整套的数据系统与服务,并逐渐形成了自己的数据中台体系。

2019-05-16

pentaho-aggdesigner-algorithm-5.1.5-jhyde.jar

pentaho-aggdesigner-algorithm-5.1.5-jhyde.jar jar包,官网下载的 手动编译Atlas的时候用到的

2020-08-19

Apache Flink结合Apache Kafka实现端到端的一致性语义.pdf

流计算中的一致性语义定义,以及通常系统怎么支持一致性语义,Flink+Fafka如何实现端到端的一致性语义。Flink会定期地产生checkpoint并且把这些checkpoint写入到一个持久化存储上,比如S3或HDFS。这个写入过程是异步的,这就意味着Flink即使在checkpointing过程中也是不断处理输入数据的。

2019-05-16

hadoop-2.7.2.zip

http://archive.apache.org/dist/hadoop/core/hadoop-2.7.2/ 从官网上直接下载的,下载比较慢。所以这里分享一下 所需积分我设置的是0,如果CSDN官方不修改我设置的积分,也就是说免费下载的

2020-09-16

sqoop-1.4.6.2.3.99.0-195.jar..zip

编译Atlas用 sqoop-1.4.6.2.3.99.0-195.jar 内含安装jar包以及maven手动安装命令 详情可参考我的博客: https://blog.csdn.net/qq_26502245/article/details/108008070

2020-08-14

javax.jms-1.1.jar.7z

内含javax.jms-1.1.jar 安装包下载以及Maven手动安装命令 Maven官方仓库下载不下来资源,只能手动安装 <!-- https://mvnrepository.com/artifact/javax.jms/jms --> <dependency> <groupId>javax.jms</groupId> <artifactId>jms</artifactId> <version>1.1</version> </dependency>

2020-08-14

Hadoop权威指南(中文版)

Hadoop编程书籍,由浅入深,介绍Hadoop编程,特别适合初学者以及企业开发人员以及大学生以及其他深造学习者

2019-03-02

HDFS智能异构存储方案.pdf

HDFS异构存储,该方案能够智能的区分冷热数据,并按照配置的磁盘模式自动转移数据,做到冷热数据异构智能存储

2019-05-16

数据仓库数据分层结构

数据仓库是决策支持系统(dss)和联机分析应用数据源的结构化数据环境。数据仓库研究和解决从数据库中获取信息的问题。数据仓库的特征在于面向主题、集成性、稳定性和时变性。 数据仓库 ,由数据仓库之父比尔·恩门(Bill Inmon)于1990年提出,主要功能仍是将组织透过资讯系统之联机事务处理(OLTP)经年累月所累积的大量资料,透过数据仓库理论所特有的资料储存架构,作一有系统的分析整理,以利各种分析方法如联机分析处理(OLAP)、数据挖掘(Data Mining)之进行,并进而支持如决策支持系统(DSS)、主管资讯系统(EIS)之创建,帮助决策者能快速有效的自大量资料中,分析出有价值的资讯,以利决策拟定及快速回应外在环境变动,帮助建构商业智能(BI)。 数据仓库之父比尔·恩门(Bill Inmon)在1991年出版的“Building the Data Warehouse”(《建立数据仓库》)一书中所提出的定义被广泛接受——数据仓库(Data Warehouse)是一个面向主题的(Subject Oriented)、集成的(Integrated)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,用于支持管理决策(Decision Making Support)。

2019-03-02

mongodb-win32-x86_64-enterprise-windows-64-4.2.1-signed.msi

mongodb-win32-x86_64-enterprise-windows-64-4.2.1-signed.msi mongodb windows 版本,官网下载的

2020-06-05

Scala编程核心教程(电子版)

学习Scala的全部资料,从最基本的数据结构,到最后高阶函数

2019-03-09

HBase权威指南

HBase还可以利用Zookeeper确保只有一个主服务在运行(HBaseMaster),存储用于发现region的引导位置,作为一个region服务器的注册表,以及实现其他目的。Zookeeper是一个关键组成部分,没有它HBase就无法运作。Zookeeper使用分布式的一系列服务器和Zap协议(确保其状态保存一致)减轻了应用上的负担。         master服务器负责跨region服务器的全局region的负载均衡,将繁忙的服务器中的region移动到负载较轻的服务器中。主服务器(HBaseMaster)不是实际数据存储或者检索路径的组成部分,它仅提供了负载均衡和集群管理,不为region服务器或者客户端提供任何的数据服务,因此是轻量级服务器。此外,主服务器还提供了元数据的管理操作,例如,建表和创建列族(column family)。         region服务器负责为它们的服务的region提供读和写请求,也提供了拆分超过配置大小的region的接口。客户端则直接与region服务器通信,处理所有数据相关的操作。   "数十亿行 X 数百万列 X 数千个版本 = TB级 或 PB级的存储"

2019-03-02

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人 TA的粉丝

提示
确定要删除当前文章?
取消 删除