spark

云计算

Flink SQL操作Hudi并同步Hive使用总结

3

发布于 2023-04-20

前些天发现了一个巨牛的人工智能学习网站,通俗易懂,风趣幽默,忍不住给大家分享一下。点击跳转到网站:https://www.captainai.net/dongkelun 前言 记录总结自己第一次如何使用Flink SQL读写Hudi并同步Hive,以及遇到的问题及解决过程。 关于...

阅读(2090)赞 (0)

云计算

跨内外网远程操作Spark

发布于 2023-04-17

问题 我们知道通过反向ssh可以借助有固定IP的外网服务器登陆没有外网IP的内网主机,但是我们在真正使用的时候可能不仅仅需要远程登陆,可能还会需要内网机器中其他端口提供的服务。比如现在我需要在远处利用Spark程序去操作内网机器里的分布式系统进行工作,这就至少需要调用内网机器的7...

阅读(1066)赞 (0)

云计算

spark RDD

5

发布于 2023-04-04

RDD简介 RDD,全称为Resilient Distributed Datasets(弹性分布式数据集),是一个容错的、并行的数据结构,可以让用户显式地将数据存储到磁盘和内存中,并能控制数据的分区。同时,RDD还提供了一组丰富的操作来操作这些数据。在这些操作中,诸如map、fl...

阅读(1186)赞 (0)

云计算

spark SQL 内核分析(一)

1

发布于 2023-04-04

本文章简要概述了spark sql 的执行流程以及基本原理。 spark sql 本质是将sql 语句解析为对应的RDD模型来进行执行spark 相关的计算操作。 在spark 中,RDD中的窄依赖是类似于pipeline 来进行执行操作的,宽依赖是需要在不同的节点进行shuff...

阅读(2963)赞 (0)

云计算

Spark SQL源码研读系列

发布于 2022-11-29

概述 Spark SQL作为大数据开发中非常重要的工具,如果能对其内部原理有进一步的了解,那么能更好的使用它。 计划花半年时间,把Spark SQL源码看一遍,算完整的总结一下。 内容大纲 ParseTree UnResolved Logical Plan Resolved Lo...

阅读(2480)赞 (0)

云计算

转行大数据 1 个月,我麻了。。。

1

发布于 2022-11-28

大家好,我是鱼皮。因为种种原因,最近我接手了组内部分大数据开发工作,对我来说是一个几乎完全陌生的领域;大学虽然也自学过,但也都是浅尝辄止,面对企业项目还是有点虚的,所以最近抽了很多时间在自学大数据,很少写文章了。 现在算下来做大数据工作也一个多月了,今天给大家分享一下我从后台开发...

阅读(2610)赞 (0)

云计算

spark 入门_新手入门

52

发布于 2022-11-10

大家好,又见面了,我是你们的朋友全栈君。 一 Spark概述 1 11 什么是Spark 2 Spark特点 3 Spark的用户和用途 二 Spark集群安装 1 集群角色 2 机器准备 3 下载Spark安装包 4 配置SparkStandalone 5 配置Job Hist...

阅读(931)赞 (0)