- 博客(520)
- 资源 (13)
- 论坛 (1)
- 收藏
- 关注
原创 hive 视图中出现中文乱码
create view view_test1 asselect case sex when 0 then '女' when 1 then '男' else '' end as sex ,case level when 1 then '一级' when 2 then '二级' else '' end as `level`from tablename1查询结果:解决方式:ALTER TABLE `TBLS` MODIFY COLUMN VIEW_EXPANDED_TEXT mediumtext
2021-04-07 21:05:18
4
原创 pandas 处理 Excel 文件并将结果写入数据库中
需要注意的是pandas处理数据,数字格式的null 会被显示为nan,所以需要简单的处理一下:str_obj.replace("nan", "null")完整代码如下:# -*- coding: utf-8 -*-import pandas as pdfrom datetime import datetimefrom impala.dbapi import connectfrom impala.util import as_pandasimport osfile = r'E:\\日
2021-04-07 13:31:41
11
原创 Impala插入kudu主键冲突了不会报错只会警告
问题描述解决办法想要的结果是 直接抛出异常,但是并没有抛异常用Impala JDBC插入 也是不报错,还以为是插入成功了暂未找到如何设置,才能使主键冲突 直接抛出异常,而不是警告
2021-04-07 11:19:47
7
原创 不能在impala中使用having,发生错误:could not resolve column/field reference
Impala 版本 :3.2.0+cdh6.3.2在impala sql中使用 “having “时,出现了 “could not resolve column/field reference “的错误。select count(dst_ip) as times, dst_ip from test_mode group by dst_ip having times > 1我不知道为什么,impala文档支持有https://impala.apache.org/docs/build/htm
2021-04-06 17:54:06
8
转载 Python处理excel合并单元格
读取可以使用 xlrd,也可以使用 openpyxl,但是 openpyxl 读取不了. xls 格式的 Excel,需要转成 xlsx,有点麻烦,所以使用了 xlrd。打开文件xlrd 也遇到了一点问题,文件如果是 xls 文件直接打开,在提取合并单元格的时候会拿不到数据,需要加上 formatting_info=True,formatting_info=True 的时候打开. xlsx 文件会报错 NotImplementedError: formatting_info=True not ye
2021-03-31 20:56:48
26
原创 pyflink sql demo
from pyflink.table import EnvironmentSettings, StreamTableEnvironmentenv_settings = EnvironmentSettings.new_instance().in_streaming_mode().use_blink_planner().build()table_env = StreamTableEnvironment.create(environment_settings=env_settings)table = t
2021-03-31 20:50:23
19
转载 Pandas 数据结构
数据结构维数名称描述1Series带标签的一维同构数组2DataFrame带标签的,大小可变的,二维异构表格为什么有多个数据结构?Pandas 数据结构就像是低维数据的容器。比如,DataFrame 是 Series 的容器,Series 则是标量的容器。使用这种方式,可以在容器中以字典的形式插入或删除对象。此外,通用 API 函数的默认操作要顾及时间序列与截面数据集的方向。多维数组存储二维或三维数据时,编写函数要注意数据集的方向,这对用户来说是一种负担;如果不考虑 C 或 Fortran 中连续性
2021-03-31 19:34:49
5
原创 python 利用pandas将Excel转换为csv文件(自定义分隔符)
import pandas as pddf = pd.read_excel('E:\\xxx-3.20.xlsx', sheet_name='Sheet', header=None)# 使用pandas模块读取数据print(df.cov())print('开始写入txt文件...')# 自定义分隔符为$df.to_csv('file2.txt', header=None, sep='$', index=False)print('文件写入成功!')...
2021-03-29 19:30:26
14
原创 java8解析带有 AM/PM 的12小时制 时间字符串
今天遇到了这样的一件事,时间字段是12小时制的,而且是带有AM/PM 的字符串,怎么解析成标准化的时间格式呢?时间数据样本:12/25/2020 11:27:49 AM经过一番探索后发现代码可以这样写:DateTimeFormatter df = DateTimeFormatter.ofPattern("MM/dd/yyyy h:mm:ss a",Locale.ENGLISH);LocalDateTime dateTime = LocalDateTime.parse(str, df);Syst
2021-03-26 16:28:51
16
原创 Linux shell 字符串替换
方法一# [cdh01 root 09:57:39] [Thu Mar 25] $ str="hello world"# [cdh01 root 09:58:09] [Thu Mar 25] $ echo $strhello world# [cdh01 root 09:58:14] [Thu Mar 25] $ echo ${str/o/P}hellP world但是这种方法不能全局替换:# [cdh01 root 09:58:45] [Thu Mar 25] $ ech
2021-03-25 10:04:10
9
原创 HDFS上小文件合并
hdfs dfs -cat /user/hive/warehouse/test.db/tmpdata/* | hdfs dfs -put - /user/hive/warehouse/test.db/tmpfile
2021-03-23 17:59:46
19
原创 如何关掉pycharm中的python console(图解)
安装好jupyter notebook后,在pycharm中无论运行什么样的python脚本,都会默认使用python的console运行,这种console非常恶心,前几行全是费话。而且运行完后,不会自动关闭,这样console越积越多,就像上图一样开了十几个。这严重影响了我们读代码。如何关闭烦人的console?总结以上所述是小编给大家介绍的如何关掉pycharm中的python console(图解),希望对大家有所帮助,如果大家有任何疑问请给我留言,小编会及时回复大家的。在此也非常感谢大家
2021-03-22 15:25:12
31
原创 python 爬虫抓取某电商页面的商品价格
业务需求最近想通过爬虫抓取某电商商品页的价格。页面如下:实践然后就兴冲冲的写了段代码来爬取网页数据。# 厨房卫浴href = 'http://search.gome.com.cn/search?question=%E5%8E%A8%E6%88%BF%E5%8D%AB%E6%B5%B4'res = requests.get(href)# print(res.text)soup = BeautifulSoup(res.text, 'html.parser')# product_list
2021-03-18 21:14:43
141
原创 Impala查询报错Memory limit exceeded: Error occurred on backend cdh01:22000 by fragment 【未解决】
Query 2b4c5263b1fdbd24:61ae4f9500000000: 0% Complete (0 out of 2)Query 2b4c5263b1fdbd24:61ae4f9500000000: 50% Complete (1 out of 2)WARNING: The following tables are missing relevant table and/or column statistics.ods.a,ods.bMemory limit exceeded: Error
2021-03-18 16:55:02
50
原创 mysql 给用户撤销权限
首先看用户有哪些权限mysql> SHOW GRANTS FOR 'gmdata'@'%' -> ;+----------------------------------------------------+| Grants for gmdata@% |+----------------------------------------------------+| GRANT ALL PRIVILEGES ON *..
2021-03-18 14:11:20
40
转载 HUE loadbalancer启动失败解决方法
HUE loadbalancer启动失败,报错信息如下:cloudera-scm-agent/process/169-hue-HUE_LOAD_BALANCER/httpd.conf: Cannot load /usr/lib64/httpd/modules/mod_ssl.so into server: /usr/lib64/httpd/modules/mod_ssl.so: cannot open shared object file: No such file or directory日志
2021-03-18 11:40:15
22
原创 hue安装报错【已解决】
今天在CDH平台上安装Hue,突然间报了这样一个错:[17/Mar/2021 16:53:33 +0000] settings DEBUG DESKTOP_DB_TEST_NAME SET: /opt/cloudera/parcels/CDH-6.3.2-1.cdh6.3.2.p0.1605554/lib/hue/desktop/desktop-test.db[17/Mar/2021 16:53:33 +0000] settings DEBUG DESKTOP_DB_TEST
2021-03-17 17:29:34
16
原创 Permission denied (publickey,gssapi-keyex,gssapi-with-mic)
买的新的腾讯云服务器报错:Permission denied (publickey,gssapi-keyex,gssapi-with-mic)详细如下:# [cdh02 root 19:44:00] [Tue Mar 16] /data/software$ ssh cdh01The authenticity of host 'cdh01 (172.21.64.11)' can't be established.ECDSA key fingerprint is SHA256:d6/hLeY+Xe
2021-03-16 19:50:49
42
原创 新建的hive建表报错Could not create “increment“/“table“ value-generation container `SEQUENCE_TABLE` since
hive (default)> create table page_view > ( > page_id bigint comment '页面ID', > page_name string comment '页面名称', > page_url string comment '页面URL' > )
2021-03-10 20:46:52
26
转载 3种方法更改Linux系统的主机名(hostname)
本文由 简悦 SimpRead 转码, 原文地址 www.linuxdashen.com这篇文章介绍更改 Linux 系统主机名 (hostname) 的 3 种方法。查看当前的主机名首先我们使用 hostname 命令来查看当前的主机名。hostname也可以使用 hostnamctl 命令hostnamectl更改主机名的第一种方法主机名保存在 /etc/hostname 文件里,所以我们可以打开这个文件,手动编辑主机名。sudo nano /etc/hostname将当.
2021-03-10 15:13:16
59
原创 hive 去掉字符串以数字开头的部分
-- 去掉数字开头select regexp_replace('09部门22','^[0-9]+','');结果是:"部门22"-- 去掉数字select regexp_replace('09部门22','[0-9]','');结果是:"部门"
2021-03-10 13:08:39
89
原创 Impala 自动刷新 hive 元数据原理
描述:目前,在lmpala中,有多种方法可以使存储在catalog中的表元数据失效或刷新。Catalog中的对象可以根据基于使用的方法(invalidate_tables_timeout_s)或在存在GC压力(invalidate_tables_on_memory_pressure)时失效(IMPALA-7448)。然而,大多数用户在想要同步到HDFS或HMS的最新信息时都会使用invalidate 命令。然而,当数据被修改或在Impala(如Hive)或不同的Impala集群之外添加新的数据时,用户.
2021-03-10 11:33:14
71
原创 关于Impala 读 Kudu 的数据一致性问题
适用版本:Impala 3.1 及以上版本KUDU_READ_MODE 参数可以设置扫描Kudu表的一致性级别参数类型: String默认值: “DEFAULT”添加版本: Impala 3.1查询选项支持以下值:DEFAULT:‑‑kudu_read_mode 该参数代表启用该功能。READ_LATEST:通常称为Read Committed隔离模式,在该模式下,Kudu不为该模式提供一致性保证,除非所有返回的行都是在某个时间点提交的。READ_AT_SNAPSHOT:.
2021-03-10 10:52:08
36
原创 flink报错ByteArraySerializer is not an instance of org.apache.kafka.common.serialization.Serializer
文章目录问题描述报错信息问题解决方式一:方式二:问题描述代码如下:public class Sink_KafkaSink_1{ public static void main(String[] args) throws Exception { final ParameterTool params =ParameterTool.fromPropertiesFile(Sink_KafkaSink_1.class.getResourceAsStream("/pro.properti
2021-03-09 18:59:56
57
原创 Flink checkpoint恢复疑问【未解决】
问题描述请问下,如果我代码逻辑有变动了,可以从历史的checkpoint恢复吗?我试了下,从历史的checkpoints恢复的话,并没有执行我的修改后的逻辑,例如原来逻辑是where flag=1 改为:where flag>1 ,从9点30的checkpoint :chk100 恢复,是不是 where flag>1的逻辑只会对9点30后的数据生效呢?问题解答...
2021-03-08 15:01:23
19
原创 flink版本:1.11.2, 从kafka读取数据写到hdfs,运行一段时间报错【未解决】
问题描述flink版本:1.11.2, 从kafka读取数据写到hdfs,运行一段时间报错代码CREATE TABLE T_ED_CELL_NUM_INFO_SRC( bigBox STRING, edCode STRING, mBoxAmount INT, mFaultBoxAmount INT, mFaultReserveBoxAmount INT, mReserveBoxAmount INT, mUseReserveBox INT,
2021-03-08 14:42:41
64
原创 Flink Sql demo
CREATE TABLE t_stock_match_p_1( id VARCHAR, stkcode INT, volume INT, matchtime TIMESTAMP, WATERMARK FOR matchtime as matchtime) WITH ( 'connector' = 'kafka-0.10', 'topic' = 'xxx', 'scan.startup.mode' = 'latest-offset', 'properties.group
2021-03-08 14:02:11
35
原创 python 脚本批量修改文件名
以下例子就是将文件名中的abc全部删除掉。比如将文件名abc123.jpg 改为 123.jpgimport os# path = input("请输入文件路径:")ch_path = 'E:\xxx'# 获取该目录下所有文件,存入列表中fileList = os.listdir(ch_path)os.chdir(ch_path)for i in fileList: new_name = i.replace('abc', '') print(new_name)
2021-03-05 21:05:57
31
原创 大数据项目之用户行为分析实战【转载】
大数据架构介绍一般企业大数据架构图LAMBDA架构介绍(了解)大概思路:将大数据系统构建为多个层次,三层架构:批处理层、实时处理层、服务层https://blog.csdn.net/u013368491/article/details/71271864大数据团队组织结构数据平台负责人数据平台架构师大数据开发(ETL开发、数仓开发)深度学习/AI工程师BI思考题、从零开始组建公司的大数据集群如何确认集群规模?假设每台服务器8T硬盘使用Apache/CDH/HDP版本?服务器
2021-03-05 20:26:03
183
原创 关于flinksql 与维表mysql的关联问题记录
此问题摘录自Flink中文社区邮件,仅仅作为记录用。Q:我有个问题想请教下,关于flinksql与mysql维表关联 关于mysql更新的问题 有没有好的方法?我现在使用的广播mysql但是有个问题,广播mysql时我的流数据已经到了但是mysql的数据还没有到导致我现在数据会再启动的时候丢失一部分数据。A:如果是想达到延迟JOIN的目的,可以考虑利用WaterMark的maxoutoforderness。job取消时做savepoint重启时应该不会有这个问题A:您的意思是open 全量预加
2021-03-05 18:48:08
56
原创 Materialized views (Hive 物化视图 官方文档摘抄)
本文由 简悦 SimpRead 转码, 原文地址 cwiki.apache.org本文是直接从hive官方文档上摘抄。Version informationMaterialized views support is introduced in Hive 3.0.0.IntroductionThis page documents the work done for the supporting materialized views in Apache Hive.ObjectivesTradi.
2021-03-04 16:08:25
90
原创 flink-mysql-cdc
mysql-cdc 表1:CREATE TABLE products (id INT,name STRING,description STRING) WITH ('connector' = 'mysql-cdc','hostname' = '10.60.11.21','port' = '3306','username' = 'root','password' = 'root','database-name' = 'mydb','table-name' = 'products');
2021-03-02 19:37:32
117
原创 Flink实时读取Mongodb
说明:目前社区并没有开源的MongoDBSource但是Debezium 支持 MongoDB CDC[1],可以了解下:https://debezium.io/documentation/reference/connectors/mongodb.htmlhttps://debezium.io/documentation/reference/connectors/mongodb.html#mongodb-streaming-changes所以可以借助debezium的MongoDB
2021-03-02 16:04:27
207
原创 MongoDB安装记录
从官网下载MongoDB最新版wget https://fastdl.mongodb.org/linux/mongodb-linux-x86_64-rhel70-4.4.4.tgz如果是选择其他版本,则在如下页面选择对应版本然后复制连接即可:https://www.mongodb.com/try/download/community上面的这个copy link 有时候不会显示出来,多刷新几次就好了tar zxvf mongodb-linux-x86_64-rhel70-4.4.4.tgz -C
2021-02-24 18:50:52
23
原创 Flink 报错 Hadoop is not in the classpath/dependencies.
D:\bigData\jdk\jdk1.8.0_271\bin\java.exe "-javaagent:D:\bigData\idea\2018.3\IntelliJ IDEA 2018.3.6\lib\idea_rt.jar=2566:D:\bigData\idea\2018.3\IntelliJ IDEA 2018.3.6\bin" -Dfile.encoding=UTF-8 -classpath D:\bigData\jdk\jdk1.8.0_271\jre\lib\charsets.jar;D:\
2021-02-24 11:19:36
45
转载 Flink 使用 broadcast 实现维表或配置的实时更新
问题导读1. 本文介绍了几种维表方案?2. 各个方案有什么优缺点?3. broadcast 如何实现实时更新维表案例?通过本文你能 get 到以下知识:Flink 常见的一些维表关联的案例常见的维表方案及每种方案适用场景,优缺点案例:broadcast 实现维表或配置的实时更新一、案例分析维表服务在 Flink 中是一个经常遇到的业务场景,例如:客户端上报的用户行为日志只包含了城市 Id,可是下游处理数据需要城市名字商品的交易日志中只有商品 Id,下游分析数据需要用到商品所属的类
2021-02-23 17:21:18
90
原创 clickhouse 安装过程中出现的问题
ch安装安装步骤:sudo yum install yum-utilssudo rpm --import https://repo.clickhouse.tech/CLICKHOUSE-KEY.GPGsudo yum-config-manager --add-repo https://repo.clickhouse.tech/rpm/clickhouse.reposudo yum install clickhouse-server clickhouse-clientsudo /etc/init
2021-02-22 20:13:58
243
原创 idea内置的database工具查mysql 时间类型差8个小时
问题描述:如下图,idea自带的database工具查询数据库中的时间类型时,总是少8个小时,这是因为idea工具是按照UTC时区自动给我们转换了。解决办法:在idea中增加如下配置即可:或者:
2021-02-21 21:06:26
33
十大数据分析模型详解_白皮书.pdf
2020-06-24
基于Flink SQL构建实时数仓.pdf
2019-05-16
pentaho-aggdesigner-algorithm-5.1.5-jhyde.jar
2020-08-19
Apache Flink结合Apache Kafka实现端到端的一致性语义.pdf
2019-05-16
hadoop-2.7.2.zip
2020-09-16
sqoop-1.4.6.2.3.99.0-195.jar..zip
2020-08-14
javax.jms-1.1.jar.7z
2020-08-14
数据仓库数据分层结构
2019-03-02
mongodb-win32-x86_64-enterprise-windows-64-4.2.1-signed.msi
2020-06-05
HBase权威指南
2019-03-02
求助 xshell能连上集群里的其他虚拟机,就连不上同一号段103的虚拟机
发表于 2019-02-21 最后回复 2019-09-16
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人 TA的粉丝