大数据第2页

踩坑实录Hive中select * 没有数据，而select count(*)有数据

发布于 2023-04-11

目录背景问题定位原因1.压缩导致解决方案原因2.分区文件location不一致导致解决方案原因3.元数据未更新解决方案背景 hdfs文件有数据，Hive中select * 没有数据，而select count(*)有数据问题定位原因1.压缩导致表结构未压缩...

阅读(1634)赞 (0)标签：Hive / 大数据 / 文件存储

云计算

StarRocks学习-进阶

发布于 2023-04-11

目录一、数据导入名词解释基本原理导入方式 1.Broker Load 2.Spark Load 3.Stream Load 4.Routine Load 5.Insert Into 同步和异步同步导入异步导入通用系统配置 FE 配置 BE 配置注意事项二、数据...

阅读(3086)赞 (0)标签：spark / SQL / 大数据 / 数据库 / 编程算法

云计算

【面试】数据仓库面试经验总结

发布于 2023-04-11

目录第一部分，自我介绍第二部分，专业知识细问第三部分，数据治理第四部分，开发/代码能力第五部分，个人性格测试第一部分，自我介绍通常面试官会让进行自我介绍，加项目经历介绍（大多数会按简历上的内容逐条细问）回答的时候尽量根据STAR法则回答，Situation: 事情...

阅读(1283)赞 (0)标签：大数据 / 腾讯云测试服务

云计算

CDP-客户数据平台

发布于 2023-04-11

目录一、什么是CDP？二、发展过程三、CDP的分类四、CDP的三大特征五、为什么需要CDP? 六、流程七、功能八、应用场景客户数据平台（Customer Data Platform）是面向业务增长的已消费者为核心的客户全域数据赋能中台。通过汇聚多个触电的数据...

阅读(363)赞 (0)标签：大数据

云计算

hive索引

发布于 2023-04-11

目录一、什么是索引二、原理三、详细内容四、完整流程示例 1.创建索引语法 2.生成索引 3.查看索引 4.更新索引属性 5.删除索引二、原理 Hive可以在指定列上建立索引，会产生一张索引表（Hive的一张物理表），里面的字段包括，索引列的值、该值对应的HDFS文件路径...

阅读(864)赞 (0)标签：Apache / Hive / JavaScript / 大数据

云计算

纯钧（ChunJun，原名FlinkX）框架学习

发布于 2023-04-11

目录一、背景二、概念三、特性四、工作原理五、快速开始 1.数据同步任务模版 kafka to kudu mysql to hive 2.数据同步执行命令 flinkx老版本命令参数： flinkx老版本执行命令： chunjun新版本执行命令：（明显看出命令还是减少...

阅读(636)赞 (0)标签：Flink / https / 分布式 / 大数据 / 网络安全

云计算

flink sql实战案例

发布于 2023-04-11

目录一、背景二、流程三、案例 1.flink sql读取 Kafka 并写入 MySQL source sink insert 2.flinksql读kafka写入kudu source sink insert 四、注意点 1.断点续传 2.实时采集 3.回溯问题 2.实时...

阅读(1032)赞 (0)标签：Flink / Kafka / SQL / 大数据 / 对象存储

云计算

【踩坑实录】-bucketId out of range: -1 (state=,code=0)

发布于 2023-04-11

目录目录一、背景二、代码 1.hive 建表语句 2.datax自定义json 3.查询语句三、定位问题四、解决方案 1.load data 2.设置参数 3.文件格式一、背景 datax同步postgre库表数据到hive表，同步完成后select报错 java.i...

阅读(1317)赞 (0)标签：Hive / Java / JSON / 大数据

云计算

谈到App加固，裕信银行选择顶象

发布于 2023-04-10

移动互联网时代，App已经成为了商业银行触达和经营客户的主要阵地。尤其，在疫情爆发之后，银行App作为重要的「无接触」门户，开始扮演越来越重要角色。此外，随着新一代人工智能的蓬勃发展，智慧金融新模式、新业态不断涌现，有力促进了金融业的转型升级。诸如通过银行与第三方机构的数据共享...

阅读(690)赞 (0)标签：app安全 / 大数据 / 安全 / 应用安全 / 移动应用安全

云计算

数据仓库ods层_app数据仓库搭建

发布于 2023-04-10

大家好，又见面了，我是你们的朋友全栈君。数据仓库之ODS层搭建我们本项目中对数据仓库每层的搭建主要分为两部分，第一部分是确定都有哪些表，第二部分是确定数据装载的方式。我们在进行ODS层搭建时，需要明确以下几点： 1）ODS层的表结构设计依托于从业务系统同步过来的数据结构。 ...

阅读(2701)赞 (0)标签：Bash / JSON / 大数据 / 日志数据 / 编程算法

云计算

万字长文：安全知识图谱技术概述

发布于 2023-04-10

知识图谱是下一代可信人工智能领域的关键技术组成之一。围绕知识的归纳抽取、演绎推理等处理与分析过程，诸多关键问题逐步被攻克，大幅推动了机器认知技术的发展。在网络空间安全领域，防御技术的智能化升级也亟需成熟、有效的网络空间安全领域知识图谱（以下简称为安全知识图谱）技术体系，为应对强对...

阅读(338)赞 (0)标签：大数据 / 数据库 / 数据挖掘 / 数据湖 / 知识图谱

云计算

Hbase 整理

发布于 2023-04-04

Hbase简介 HBase是一个开源的非关系型分布式数据库（ NoSQL），它参考了谷歌的BigTable建模，实现的编程语言为 Java。 HBase是一个分布式存储系统，具有高可靠性、高性能、面向列、可伸缩（增加或减少硬件的数量）的特点。高可靠：1.底层文件存储采用的是HD...

阅读(2254)赞 (0)标签：HBase / TDSQL MySQL 版 / Unix / 分布式 / 大数据

云计算

Flink sql 窗口函数

发布于 2023-04-04

概述 Flink窗口函数是flink的重要特性，而Flink SQL API是Flink批流一体的封装，学习明白本节课，是对Flink学习的很大收益！窗口函数窗口函数Flink SQL支持基于无限大窗口的聚合（无需在SQL Query中，显式定义任何窗口）以及对一个特定的窗口...

阅读(1955)赞 (0)标签：Flink / Processing / SQL / 云计算 / 大数据

云计算

Flink kafka sink to RDBS 测试Demo

发布于 2023-04-04

flink sql 模式代码demo （Java）（使用flink sql 进行流式处理注意字段的映射）官方文档类型映射 import com.alibaba.fastjson.JSON; import org.apache.flink.streaming.api.datas...

阅读(917)赞 (0)标签：ES / Flink / Kafka / SQL / 大数据

云计算

Flink 源码走读(一)

发布于 2023-04-04

实例以yarn-per-job为例。 flink提交作业是通过flink run进行提交的，可以从提交脚本中看到启动类即程序的入口是： org.apache.flink.client.cli.CliFrontend 定位到源码中main函数，查看执行逻辑 /** Submits ...

阅读(1793)赞 (0)标签：Flink / 大数据

云计算

JuiceFS 专为云上大数据打造的存储方案

发布于 2023-04-04

简介 JuiceFS 是一款面向云原生设计的高性能共享文件系统，在 Apache 2.0 开源协议下发布。提供完备的 POSIX 兼容性，可将几乎所有对象存储接入本地作为海量本地磁盘使用，亦可同时在跨平台、跨地区的不同主机上挂载读写。 JuiceFS 采用「数据」与「元数据」分离...

阅读(479)赞 (0)标签：SQL / 大数据 / 存储 / 对象存储 / 数据库

云计算

20张图搞懂从0到1搭建企业级数据治理体系

发布于 2023-04-04

今天分享一篇干货，看完我也获益颇多！正文数据治理是企业数据建设必不可少的一个环节。好的数据治理体系可以盘活整条数据链路，最大化保障企业数据的采集、存储、计算和使用过程的可控和可追溯。如何构建企业数据治理体系？企业数据治理过程需要注意哪些问题？总体而言，不能一口一个胖子，路...

阅读(2219)赞 (0)标签：企业 / 大数据 / 数据安全

云计算

用户画像技术及方法论

发布于 2023-04-04

大家好，我是才哥。用户画像是根据用户社会属性、生活习惯和消费行为等信息而抽象出的一个标签化的用户模型。构建用户画像的核心工作即是给用户贴“标签”，而标签是通过对用户信息分析而来的高度精炼的特征标识。既然用户体验非常重要，那如何去「度量」和「优化整个流程」呢，那就是站在「用户角...

阅读(1367)赞 (0)标签：大数据

云计算

他山之石 | 百度知识图谱与多模内容创作实践

发布于 2023-04-04

作者 | 卞东海 @百度由于大数据时代的发展，知识呈指数级增长，而知识图谱技术又在近年来逐步火热，因此诞生了利用知识图谱技术进行智能创作的新想法。本文将分享基于知识图谱的多模内容创作技术及应用。主要包括以下四大部分：百度知识图谱概览百度智能创作全景多模内容创作技术落地产...

阅读(413)赞 (0)标签：大数据 / 智能创作 / 知识图谱 / 腾讯云开发者社区

云计算

收藏！搜推广场景下的特征工程

发布于 2023-04-04

作者 | 杨旭东整理 | DataFunTalk 大家好，这里是NewBeeNLP。深度学习时代，某些领域，如计算机视觉、自然语言处理等，因为模型具有很强的特征表达能力，特征工程显得不那么重要了。但在搜推广领域，特征工程仍然对业务效果具有很大的影响，并且占据了算法工程师很多精...

阅读(467)赞 (0)标签：AI 人工智能 / 大数据 / 机器学习 / 特征工程 / 神经网络

大数据第2页

踩坑实录Hive中select * 没有数据，而select count(*)有数据

StarRocks学习-进阶

【面试】数据仓库面试经验总结

CDP-客户数据平台

hive索引

纯钧（ChunJun，原名FlinkX）框架学习

flink sql实战案例

【踩坑实录】-bucketId out of range: -1 (state=,code=0)

谈到App加固，裕信银行选择顶象

数据仓库ods层_app数据仓库搭建

万字长文：安全知识图谱技术概述

Hbase 整理

Flink sql 窗口函数

Flink kafka sink to RDBS 测试Demo

Flink 源码走读(一)

JuiceFS 专为云上大数据打造的存储方案

20张图搞懂从0到1搭建企业级数据治理体系

用户画像技术及方法论

他山之石 | 百度知识图谱与多模内容创作实践

收藏！搜推广场景下的特征工程

DMIT 美国/香港/日本 CN2 GIA

搬瓦工限量版CN2 GIA整理

随便看看

热门标签

大数据 第2页

DMIT 美国/香港/日本 CN2 GIA

搬瓦工限量版CN2 GIA整理

随便看看

热门标签

大数据第2页