TechBlog
首页分类标签搜索关于
← 返回标签列表
加载中...

© 2025 TechBlog. All rights reserved.

#标签

共 155 篇文章
Hadoop如何用Flink支持实时数据分析需求

Hadoop如何用Flink支持实时数据分析需求

摘要:ClouderaCDP7.3通过集成Kafka、Flink、Kudu等组件构建批流融合架构,支持毫秒级实时数据分析。其核心方案包括Kafka作为消息总线、Flink/SparkStreaming流处理、Kudu+Impala实时存储查询组合,适用于金融风控、实时监控等场景。该平台通过资源隔离、Checkpoint优化等手段提升性能,并支持ML模型实时推理。尽管在ARM架构下存在组件兼容性问题,但整体提供了企业级可治理的实时分析解决方案,尤其适合强监管行业的低延迟需求。

时间:12/22/2025

Flutter-本地存储方案SharedPreferencesSQFlite-与-Hive

Flutter-本地存储方案SharedPreferencesSQFlite-与-Hive

SharedPreferences、SQFlite、Hive三种本地存储方案无绝对优劣,核心差异在于适配场景:SharedPreferences胜在“简单、轻量”,适合少量配置;SQFlite胜在“结构化、强查询”,适合大量复杂数据;Hive胜在“高性能、跨平台、支持复杂对象”,兼顾易用性与扩展性。开发者在选型时,应跳出“技术优劣”的误区,聚焦业务需求:明确数据规模、数据类型、查询复杂度,结合团队技术栈选择最能降低开发成本、提升应用性能的方案。

时间:12/16/2025

Sqoop数据迁移简介

Sqoop数据迁移简介

Sqoop是Hadoop生态系统中用于结构化数据批量迁移的工具,实现了关系型数据库与Hadoop之间的高效数据传输。

时间:12/05/2025

Apache-Hadoop生态组件部署分享-Ranger

Apache-Hadoop生态组件部署分享-Ranger

ranger-security.xml、ranger-hdfs-audit.xml、ranger-hdfs-security.xml、ranger-policymgr-ssl.xml、hiveserver2-site.xml以及hdfs-site.xml中新增了。路径为:/opt/apache_v00/ranger-2.5.0/ranger-2.5.0-admin/conf/ranger-admin-site.xml。会创建/var/log/ranger/、/etc/ranger/以及软连接等操作。

时间:12/05/2025

Apache-Hadoop生态组件部署分享-Kafka

Apache-Hadoop生态组件部署分享-Kafka

说明:kafaka4.1.0已经脱离了zk的依赖,因此你可以把它当成独立的组件去使用.(这里需要提高java版本,在启动脚本加上。A.apache230.hadoop.com配置内容。B.apache231.hadoop.com配置内容。C.apache232.hadoop.com配置内容。3、生成UUI并格式化kafka。即可,这样也不会影响其他组件)5、kafka相关操作验证。1、上传并解压并分发。

时间:12/05/2025

Apache-Hadoop生态组件部署分享-Sqoop

Apache-Hadoop生态组件部署分享-Sqoop

2、将mysql驱动包放置在其lib下。当前遇到问题,后续再看,版本兼容问题。6、导出数据到mysql。3、配置SQOOP环境。1、上传压缩包并解压。直接抽取到HDFS上。直接抽取到HIVE中。

时间:12/05/2025

Hadoop-全维度技术深度解析

Hadoop-全维度技术深度解析

拓展对非结构化数据(如图片、视频、音频)的处理能力,集成深度学习框架(如TensorFlow、PyTorch),实现大数据与人工智能的融合,支持图像识别、语音分析等场景。未来Hadoop将全面拥抱云原生技术,支持在Kubernetes上实现一键部署与弹性伸缩,同时深化与云存储的集成,实现计算与存储的分离,降低集群的运维成本。弱化传统批处理框架,强化与Flink的集成,实现批流一体的数据处理,同时提升实时计算的低延迟与高吞吐能力,满足金融、电商等行业的实时业务需求。

时间:12/05/2025

Apache-Hadoop生态组件部署分享-Spark

Apache-Hadoop生态组件部署分享-Spark

说明:这个时候就可以看到driver在231节点了,之前客户端部署模式是在哪个客户端执行,driver就在哪个机器上面。注:此时部署模式是在客户端上所以日志在客户端显示。3、配置spark-defaults.conf。A.客户端部署模式验证计算pi。4、启动sparkhistory服务。B.集群部署模式验证计算pi。2、配置spark-env.sh。6、spark-shell验证。5、验证spark-yarn。1、下载spark并解压。

时间:12/05/2025

Gemini永久会员-Hadoop分布式计算框架MapReduce

Gemini永久会员-Hadoop分布式计算框架MapReduce

MapReduce的核心思想是“分而治之”,即把一个复杂的问题按照一定的规则分解为若干个没有依赖关系的简单问题,然后逐个解决这些简单的问题,最后将若干简单问题的结果组合成整个复杂问题的最终结果。在MapReduce框架中,这一思想通过Map(映射)和Reduce(归约)两个阶段来实现。

时间:12/04/2025

Hadoop完全分布式安装

Hadoop完全分布式安装

Linux发行版有很多这里作者使用ubuntu来搭建。

时间:12/03/2025

hive中with-as用法及注意事项

hive中with-as用法及注意事项

witht1as(select*fromtable1)--该语句执行会报错--正确写法:(没有使用t1没关系,其后有select就行)

时间:12/03/2025

WPF-Binding-Source

WPF-Binding-Source

方式指定方式适用场景是否需要命名是否支持跨控件是否继承DataContextSource显式对象(资源、静态等)绑定全局/静态数据❌✅(只要对象可访问)❌通过x:Name引用控件间简单联动✅❌(限同作用域)❌相对位置(自身/祖先/模板父级)模板、样式、自引用❌✅(通过祖先查找)❌(默认)隐式使用当前元素的DataContextMVVM主流绑定方式❌✅(通过继承)✅(自动继承)是MVVM的基石,适合大多数业务数据绑定;简单直接,适合UI控件间交互;

时间:12/02/2025

hive案例

hive案例

substring_index(floor_level,'(',1)asfloor_level,substring_index(substring_index(floor_level,'共',-1),'层',1)astotal_floor,

时间:12/02/2025

深入解析HDFS定义架构原理应用场景及常用命令

深入解析HDFS定义架构原理应用场景及常用命令

HDFS是Hadoop生态系统中的一个分布式文件系统,旨在在集群的廉价硬件上可靠地存储大数据集。HDFS设计为高容错,并为高吞吐量数据访问而优化,适用于在商用硬件上运行的大数据应用。

时间:12/01/2025

分布式Hadoop完全分布式的搭建零基础

分布式Hadoop完全分布式的搭建零基础

将接下来预计要进行连接的虚拟机ip都入加入到hosts文件,根据自己需要搭建的集群数量决定,本文的Master01用于伪分布式搭建,node1,node2及node3用于完全分布式的搭建,要记录对应的ip地址,以便进行后续操作。打开准备好的远程连接软件,我们后续将都在此进行操作,因为可直接粘贴复制和传送文件(用xshell也可),此处可用root登录也可用普通用户,后续因为yarn的使用,需要用普通用户连接。修改相应的IP地址,默认网关,和刚才虚拟机中的保持统一字段,在本文中统一为10.

时间:12/01/2025

hive-广电大数据分析

hive-广电大数据分析

1.创建存储格式为TextFile的观看历史表text_see和用户信息表text_user(用于存储原始数据)。并创建存储格式为ORC的表orc_see和orc_user。12.对orc_see表按照用户GroupBy聚合,然后统计组内的时长即可。3.用户信息文件userevents.txt存储在本地系统/opt/datas目录下,将其导入表text_user中。5.将表text_user中数据加载到表orc_user中。4.将表text_see中数据加载到表orc_see中。

时间:11/26/2025

从零到精通-Hadoop-的系统学习文档

从零到精通-Hadoop-的系统学习文档

本文系统介绍了Hadoop生态系统的学习路径与核心技术,包含三个阶段:从伪分布式环境搭建到集群管理与性能优化。重点讲解了HDFS、YARN、MapReduce三大核心组件的工作原理与配置方法,详细说明了Hive数据仓库的使用技巧,包括表类型、分区策略和复杂数据类型操作。最后通过社交平台消息分析的实战案例,展示了从数据清洗到多维统计分析的完整流程,涵盖ETL处理、指标计算和可视化报表生成。文章提供了大量实操命令和配置示例,为大数据开发人员构建了从入门到精通的完整知识体系。

时间:11/22/2025

PythonGraphQL案例

PythonGraphQL案例

但在我们这种前后端分离的中大型项目中,特别是移动端和Web端需求差异大的情况下,GraphQL确实能显著提升开发效率。说干就干,花了两天时间撸了个Demo,没想到效果出奇的好。返回的数据结构完全按照请求的字段来,不多不少。代码已经传到GitHub了,需要参考的朋友可以搜一下“fastapi-graphql-demo”,这里就不贴地址了。字段命名最好统一风格,GraphQL默认驼峰,但数据库字段可能是下划线,需要做转换。注意这里的resolve方法,它们定义了如何获取非直接映射的字段数据。

时间:11/21/2025

开题答辩全过程以-基于Hadoop的豆瓣电影数据分析系统设计与实现为例,包含答辩的问题和答案

开题答辩全过程以-基于Hadoop的豆瓣电影数据分析系统设计与实现为例,包含答辩的问题和答案

《基于Hadoop的豆瓣电影数据分析系统开题答辩记录》本文记录了一位软件工程专业学生的毕业设计开题答辩过程。该生选题为《基于Hadoop的豆瓣电影数据分析系统》,计划采用Hadoop生态技术处理豆瓣电影数据,包含数据采集、存储清洗、分析及可视化展示等功能模块。答辩中,评委就技术选型必要性(Django表述错误)、数据规模论证、爬虫合规性、系统创新性等关键问题提出质询。学生承认报告存在概念混淆、创新不足等问题,承诺将补充数据量预估、增加预测功能等改进方案。最终评委建议通过开题,但需完善报告并重点关注系统核心

时间:11/19/2025

分离Hadoop客户端单独使用

分离Hadoop客户端单独使用

客户端拿出来之后,一定要注意一个相当关键的问题,不要让执行客户端的服务器持有集群的ssh公钥串,正常执行hadoopfs等命令时,不涉及节点直接的交互,但如果你没有其他反制措施,比如改了客户端的源码加校验这种,则一旦对方持有了ssh串就会通过Linux的身份校验,说白了别人从官网下载一个完整包,在持有一个同名用户,拿着你的ssh串,替换你的配置文件就能操作你的集群了,很危险的事情这是。如果确实需要,则在谨慎保护公钥串的前提下,关闭集群管理用户的ssh登录以及密码登录,改成强制使用认证登录。

时间:11/14/2025

Doris在CMP7类Cloudera-CDP-7-404版华为Kunpeng启用-Kerberos部署Doris

Doris在CMP7类Cloudera-CDP-7-404版华为Kunpeng启用-Kerberos部署Doris

注意:BE节点也需要对应主机名的主体(或使用通配符doris/_HOST@REALM,需KDC支持)。(包括Kerberos配置、SparkConnector示例、HiveCatalog配置等)。Doris在CMP7(类ClouderaCDP7404版)启用Kerberos部署Doris。:Spark作业本身已通过CMP的YARN/Kerberos认证,#生成keytab(在DorisFE节点执行),无法在托管集群内直接部署Doris。

时间:11/05/2025

Macos系统上搭建Hadoop详细过程

Macos系统上搭建Hadoop详细过程

jps#应看到NameNode/DataNode/ResourceManager/NodeManager。

时间:11/05/2025

计算机毕业设计-基于Python的电商用户行为分析系统-Django-大数据毕业设计-Hadoop毕业设计选题附源码文档报告安装调试

计算机毕业设计-基于Python的电商用户行为分析系统-Django-大数据毕业设计-Hadoop毕业设计选题附源码文档报告安装调试

本项目旨在开发一个基于Python的电商用户行为分析系统,该系统采用Django框架构建后端服务,结合Hadoop进行大数据处理,以及MySQL数据库来存储结构化数据。前端界面则使用Vue.js和Vue2框架来实现动态的用户交互,并通过Echarts进行数据的可视化展示。系统功能模块包括用户行为数据的实时采集、存储、分析以及通过直观的可视化界面展示分析结果,旨在帮助电商企业深入了解用户行为模式,优化营销策略,提升用户体验,从而增强用户留存率和购买转化率。

时间:10/31/2025

大数据框架选型指南Hadoop-与-Spark-的性能成本与扩展性对比

大数据框架选型指南Hadoop-与-Spark-的性能成本与扩展性对比

$T_{\text{总成本}}=C_{\text{硬件}}\timesN_{\text{节点}}+K_{\text{运维}}\timesT_{\text{开发}}$$$$\text{Spark耗时}\approx\frac{1}{10}\times\text{Hadoop耗时}+C_{\text{序列化}}$$单一集群规模超500节点时,建议分离计算/存储层。$$M_{\text{driver}}\geqO(\logN_{\text{分区}})$$

时间:10/26/2025

上一页
1234567
下一页第 1 / 7 页