TechBlog
首页分类标签搜索关于
← 返回标签列表
加载中...

© 2025 TechBlog. All rights reserved.

#标签

共 155 篇文章
基于随机森林算法的Boss直聘数据分析及可视化-hadoopdjangospider

基于随机森林算法的Boss直聘数据分析及可视化-hadoopdjangospider

摘要:本项目采用Python 3.8和Django框架开发,使用MySQL 5.7数据库和Navicat 12工具,构建了一个招聘信息管理系统。系统包含用户注册/登录、招聘信息展示、个人中心、管理员后台等功能模块。通过Scrapy爬取Boss直聘数据,运用机器学习(随机森林算法)实现薪资预测功能,并采用数据可视化技术展示分析结果。系统采用B/S架构,实现了用户管理、招聘信息管理、薪资预测模型优化等核心功能,为求职者和企业提供数据支持。测试验证了系统各模块功能的完整性和可靠性。

时间:10/24/2025

python股票交易数据管理系统-金融数据-分析可视化-Django框架-爬虫技术-大数据技术-Hadoop-spark源码

python股票交易数据管理系统-金融数据-分析可视化-Django框架-爬虫技术-大数据技术-Hadoop-spark源码

python股票交易数据管理系统 金融数据 分析可视化 Django框架 爬虫技术 大数据技术 Hadoop spark(源码)✅

时间:10/21/2025

Ubuntu安装hadoop

Ubuntu安装hadoop

本文详细介绍了在Ubuntu 24.04虚拟机上安装Hadoop的完整过程。首先创建专属hadoop用户并配置权限,然后安装配置Hadoop 3.4.0,设置环境变量和Java路径。内容包括单节点独立运行测试和伪分布式模式配置,涉及SSH免密登录、NameNode格式化、HDFS服务启动等关键步骤。最后通过浏览器访问NameNode的Web界面(http://localhost:19870)验证安装成功。文中提供了详细的命令操作和截图说明,适合初学者参考学习Hadoop环境搭建。

时间:10/13/2025

基于Python的交通数据分析应用-hadoopdjango

基于Python的交通数据分析应用-hadoopdjango

摘要:本系统采用Python 3.8和Django框架开发,基于B/S架构,结合MySQL 5.7数据库和Navicat 12管理工具,构建了一个智能交通数据管理与预测平台。系统实现了管理员登录、交通数据处理、预测分析等功能模块,通过可视化图表展示城市客流量、高峰时段分布等关键指标。技术栈包含Django的MVT模式、Vue前端框架及Hadoop大数据处理,支持数据上传、存储、分析和预测。系统测试验证了其可靠性,为交通管理提供了智能化解决方案,有效提升决策效率和市民出行体验。

时间:10/11/2025

计算机毕业设计-基于Python的音乐推荐系统-Python-大数据毕业设计-Hadoop毕业设计选题附源码文档报告安装调试

计算机毕业设计-基于Python的音乐推荐系统-Python-大数据毕业设计-Hadoop毕业设计选题附源码文档报告安装调试

本项目“基于深度学习的音乐推荐系统”面向“管理员-用户”双角色,集成 Django+Vue+MySQL+Hadoop 技术栈,通过 LSTM 完成播放数预测,结合协同过滤算法实现个性化推荐;管理员在驾驶舱统一完成内容审核、冷启动投放与算法效果监控,用户于首页、音乐/歌曲/歌单板块畅享千人千面推荐、实时收藏点赞及留言互动。

时间:09/23/2025

HaddopHive的离线分析与Sqoop的数据集成

HaddopHive的离线分析与Sqoop的数据集成

本文介绍了大数据生态中两大核心工具:Hive是基于Hadoop的数据仓库,通过类SQL语法(HQL)简化海量数据的离线批处理与ETL流程,降低使用门槛但实时性较弱;Sqoop则专精于关系数据库与Hadoop间的批量数据迁移,利用MapReduce实现高效并行传输。二者形成互补,Hive负责数据分析,Sqoop负责数据同步,共同构成企业级离线数据处理的基础解决方案,为传统业务提供完整的大数据集成与分析能力。

时间:09/19/2025

HDFS-伪分布模式搭建详解附-Shell-操作与-WordCount-测试

HDFS-伪分布模式搭建详解附-Shell-操作与-WordCount-测试

本文详细介绍了HDFS伪分布模式的搭建流程,适合初学者在单台服务器上体验HDFS分布式特性。主要内容包括:1)伪分布模式概念解析;2)环境准备的6个关键步骤;3)4个核心配置文件的修改方法;4)NameNode格式化与集群启动验证;5)WordCount案例测试;6)与本地模式的差异对比。文章特别强调了常见问题和注意事项,如仅能执行一次的格式化操作、防火墙关闭等配置要点,帮助开发者避坑。通过伪分布模式,开发者可以在单机环境下完整模拟HDFS的分布式功能,为学习和测试提供便利。

时间:09/15/2025

mac-安装hive

mac-安装hive

在mac中安装hive

时间:09/15/2025

Linux上安装MySQL8详细教程

Linux上安装MySQL8详细教程

本文介绍了在Linux系统上安装MySQL 8.0的完整步骤:首先卸载系统自带的mariadb,创建mysql用户组和系统用户;然后上传并解压MySQL安装包,配置相关目录权限;接着初始化MySQL并修改配置文件,启动MySQL服务;最后修改root密码并设置远程访问权限。文章提供了详细的命令行操作和配置示例,包括重要参数设置和注意事项(如关闭防火墙)。整个过程涵盖了从环境准备到数据库初始化的完整流程,适合需要手动安装MySQL 8.0的用户参考。

时间:09/10/2025

Hadoop八

Hadoop八

目录:1.HDFS集群启停命令2.使用命令操作HDFS文件系统3.HDFS权限。

时间:09/06/2025

01-Hadoop简介与生态系统

01-Hadoop简介与生态系统

Hadoop是一个开源分布式框架,用于处理大规模数据集。其核心包括分布式文件系统HDFS和计算框架MapReduce,具有高可靠性(自动数据备份)、可扩展性(支持PB级数据)和成本效益(使用商用硬件)等优势。Hadoop历经多个版本演进,从1.x的基础架构发展到3.x支持云环境。主要组件HDFS通过分布式存储实现数据冗余和容错,而MapReduce则提供并行计算能力。该框架适用于各种数据类型,是处理大数据的核心解决方案。

时间:09/05/2025

告别-Hadoop,拥抱-StarRocks政采云数据平台升级之路

告别-Hadoop,拥抱-StarRocks政采云数据平台升级之路

StarRocks 为政企采购数字化领域的不断创新发展注入源源不断的“数据动力”。

时间:09/03/2025

hadoop安欣医院挂号看诊管理系统代码数据库LW

hadoop安欣医院挂号看诊管理系统代码数据库LW

摘 要随着信息技术的飞速发展,医疗服务行业正逐步向信息化、智能化转型。安欣医院挂号看诊管理系统正是基于这一背景开发的一款集挂号、看诊管理于一体的综合性系统。本系统采用Hadoop大数据处理技术,旨在提高医院挂号看诊的效率,优化医疗资源分配,提升患者就医体验。本系统通过Hadoop框架实现大数据的存储、处理和分析。患者挂号信息、病历资料等海量数据得以高效存储和管理,为医生提供全面的患者信息支持,有助于医生做出更准确的诊断。同时,系统支持在线预约挂号,患者可通过电脑轻松完成挂号操作,避免了传统挂号方式的繁

时间:08/30/2025

Hadoop学习

Hadoop学习

精通 Hadoop = 掌握核心组件 + 熟悉生态工具 + 擅长调优运维 + 项目实践经验。

时间:08/20/2025

深入解析Hadoop资源隔离机制Cgroups容器限制与OOM-Killer防御策略

深入解析Hadoop资源隔离机制Cgroups容器限制与OOM-Killer防御策略

在分布式计算环境中,资源隔离是保障多任务并行执行稳定性的关键技术。Hadoop作为主流的大数据处理框架,其资源管理能力直接影响集群的吞吐量和任务成功率。随着YARN架构的引入,Hadoop实现了计算资源与存储资源的解耦,而资源隔离机制则成为YARN节点管理器(NodeManager)最核心的功能模块之一。在分布式计算领域,资源隔离机制如同交通系统中的信号灯控制系统,通过精确的规则划分和动态调度,确保庞大数据流的有序运转。

时间:07/22/2025

深入解析Hadoop的Block多副本同步机制与Pipeline复制

深入解析Hadoop的Block多副本同步机制与Pipeline复制

作为Hadoop生态的核心存储组件,HDFS(Hadoop Distributed File System)的设计哲学源于Google File System论文,其架构专门针对大规模数据集处理场景进行了优化。在理解Block多副本同步机制之前,有必要先剖析HDFS的基础架构设计逻辑。

时间:07/20/2025

hadoop伪分布式搭建-启动过程中如果发现某个datanode出现问题,如何处理

hadoop伪分布式搭建-启动过程中如果发现某个datanode出现问题,如何处理

hadoop伪分布式搭建--启动过程中如果发现某个datanode出现问题,如何处理?

时间:03/16/2025

CentOS7-服务器安装-Hadoop-和-Hive

CentOS7-服务器安装-Hadoop-和-Hive

在/opt/CJY/hive/conf目录下创建创建。,或者从本地maven仓库拉一个。如果返回预期结果,说明 Hive 配置成功!也可以使用navicate手动创建。从 MySQL 官方网站下载。比如:10.9.6.8。

时间:03/14/2025

export-HADOOP_CLASSPATHhadoop-classpath

export-HADOOP_CLASSPATHhadoop-classpath

**与Apache Spark集成**:在使用Spark处理存储在Hadoop集群上的数据时,需要配置`HADOOP_CLASSPATH`以确保Spark能够访问Hadoop的配置文件和库,从而正确连接到HDFS或其他Hadoop组件。- **使用Hadoop命令行工具**:在执行Hadoop命令行工具(如`hadoop fs`、`hadoop jar`等)时,可能需要访问额外的类或资源,此时设置`HADOOP_CLASSPATH`可以确保这些工具能够正确运行。#### 运行Hadoop应用程序。

时间:03/14/2025

数据分析入门从数据探索到洞察真相

数据分析入门从数据探索到洞察真相

数据分析并不一定需要高深的技巧,关键在于踏踏实实地把握每一步,从数据探索、清洗到深入分析。无论你是新手还是有一定基础的从业者,只要掌握了合适的工具和方法,你一定能从数据中找到独特的价值。

时间:03/14/2025

大数据学习66-CDH管理平台

大数据学习66-CDH管理平台

是 Cloudera 公司基于 Apache Hadoop 生态系统构建的一个企业级大数据平台。它集成了 Hadoop 的核心组件(如 HDFS、YARN、MapReduce)以及其他常用的大数据工具(如 Hive、Spark、HBase 等),并提供了统一的管理和监控工具(如 Cloudera Manager)。CDH是Cloudera的100%开源平台发行版,包括Apache Hadoop,专为满足企业需求而构建。CDH提供开箱即用的企业使用所需的一切。

时间:03/13/2025

hadoop第3课hdfs-shell

hadoop第3课hdfs-shell

hadoop关于hdfs shell命令

时间:03/13/2025

spark实验

spark实验

每个输入文件表示班级学生某个学科的成绩,每行内容由两个字段组成,第一个是学生名字,第二个是学生的成绩;下面是输入文件和输出文件的一个样例,供参考。# 读取所有输入文件,假设它们是以空格分隔的文本文件,并且第一列是学生名字,第二列是成绩。# 读取文件A和B,假设它们是以空格分隔的文本文件,并且没有列头。独立应用程序,对两个文件进行合并,并剔除其中重复的内容,得到一个新文件。# 输入文件列表(这里假设有三个文件,分别代表不同学科的成绩)下面是输入文件和输出文件的一个样例,供参考。

时间:03/13/2025

ELK-traceId-通过A服务调用B服务举例

ELK-traceId-通过A服务调用B服务举例

通过上述实现,我们完成了 A 服务调用 B 服务时的traceId传递和日志跟踪。traceId通过 HTTP 头在服务间传递,并通过MDC在日志中输出,确保整个请求链路的日志能够被追踪。

时间:03/12/2025

上一页
1234567
下一页第 2 / 7 页