TechBlog
首页分类标签搜索关于
← 返回标签列表
加载中...

© 2025 TechBlog. All rights reserved.

#标签

共 211 篇文章
数据挖掘13

数据挖掘13

过多的无关或冗余特征会增加模型复杂度,使模型“记住”训练数据中的噪声,从而在新数据上泛化能力变差。举个例子:如果你要预测一个人是否会贷款违约,那么“信用记录”很重要,“头发颜色”就不重要。保留它们不仅无益,反而有害。比如“年龄”还是“年龄”,不会变成“标准化后的年龄”或“年龄平方”。所以特征子集选择会优先保留那些和任务目标相关的特征。例如:同时包含“年龄”和“出生年份”是冗余的。特征越少,模型训练所需的时间和内存就越少。特征越少,越容易理解模型是如何做出决策的。特征的原始意义保持不变,容易理解和解释。

时间:12/20/2025

教育培训行业智能体应用分类及知识库检索模型微调

教育培训行业智能体应用分类及知识库检索模型微调

本文介绍了教育/培训行业中智能体的应用及知识库检索模型的技术实现。知识库检索采用Embedding模型快速检索候选结果,再通过Reranker模型进行精细排序。文章推荐了最新的检索模型资源,并提出了利用难负例微调Embedding模型的策略,即通过引入与正例相似但相反的示例来优化模型性能。

时间:12/19/2025

支持向量机SVM

支持向量机SVM

给定训练样本集D={(x1,y1),(x2,y2),…,(xm,ym)}D=\{(x_1,y_1),(x_2,y_2),\dots,(x_m,y_m)\}D={(x1​,y1​),(x2​,y2​),…,(xm​,ym​)},其中yi∈{−1,+1}y_i\in\{-1,+1\}yi​∈{−1,+1}。分类学习最基本的想法就是基于训练集DDD在样本空间中找到一个划分超平面,将不同类别的样本分开。但能将训练样本分开的划分超平面可能有很多,我们应该努力去找到哪一个呢?直观上看,应该

时间:12/19/2025

数据挖掘12

数据挖掘12

首先,通过人工定义或学习类别的语义属性(如形状、颜色等),将类别映射到属性空间。然后,模型学习从输入数据到属性向量的映射。最后根据属性匹配来识别新类别。给定一张图片,如何提取区分其中目标类型的特征,即形成目标的表示。

时间:12/19/2025

数据挖掘10

数据挖掘10

*循环神经网络(RecurrentNeuralNetwork,RNN)**是一种专门用于处理序列数据的神经网络结构。

时间:12/17/2025

开源的音视频元数据分析工具

开源的音视频元数据分析工具

MediaInfo的核心优势是“轻量、免费、跨平台、基础参数全面”,适合大多数用户的日常需求;但在“元数据修改、深度码流分析、专业生产参数”等场景,需搭配其他工具使用。选择时可遵循“基础需求用MediaInfo,专项需求用补充工具,专业需求用生产级软件”的原则,通过工具组合覆盖从“日常查看”到“研发测试”再到“专业生产”的全场景需求。

时间:12/16/2025

Python实战小课数据分析场景解锁数据洞察之力导读

Python实战小课数据分析场景解锁数据洞察之力导读

本文介绍了Python数据分析的三个核心环节:数据清洗、可视化报表和自动化统计分析。首先详细讲解了如何处理CSV/Excel数据中的缺失值、重复值和异常值等常见问题;其次阐述了使用Matplotlib/Seaborn创建可视化图表的步骤与优化方法;最后说明了如何通过Python实现常用统计指标的自动化计算。文章强调通过系统掌握这些技能,可以有效提升数据分析效率与准确性,为决策提供可靠支持。全文采用"需求分析-功能拆解-优化测试"的结构,为读者提供了清晰的学习路径。

时间:12/13/2025

AI大模型辅助临床医学科研应用论文写作数据分析与AI绘图学习班

AI大模型辅助临床医学科研应用论文写作数据分析与AI绘图学习班

最近,AI大模型在医学科研圈内掀起了热潮。无论是在实验室的学术交流,还是医院的科研会议,大家都在热议它,但很多医学科研人员可能还没有完全发挥出它的“超强能力”,只是将其当作普通的问答工具。本次教学是专门为医学科研人员设计的,致力于提升论文写作效率和科研能力,通过全面介绍和实操训练最新的人工智能模型如中国自主研发的DeepSeek模型及其他国产AI大模型、ChatGPT等,使学员能够在科研和学术中取得显著成效。1.医学科研绘图:利用AI大模型根据数据绘制散点图,折线图,柱状图,饼图等,缺失值图。

时间:12/13/2025

AI学会理解物理法则OpenAI-Sora-2如何重塑视频生成新范式

AI学会理解物理法则OpenAI-Sora-2如何重塑视频生成新范式

OpenAI最新发布的Sora2标志着AI视频生成技术从视觉模仿迈向物理理解的重大突破。该模型通过强化物理一致性损失函数和材质嵌入空间,实现了对重力、流体力学等物理规律的隐性习得,使生成的1080p/20秒视频具备惊人的物理真实性。关键技术包括:分层时空编码器确保长视频一致性,思维链推理实现导演式分镜规划,动态分辨率调度优化计算效率。应用场景涵盖影视预演、科学可视化、交互式叙事等领域,显著提升创作效率。

时间:12/12/2025

第十四章聚类方法理论及Python实现

第十四章聚类方法理论及Python实现

本文系统介绍了两种常见聚类方法:层次聚类和K均值聚类。层次聚类通过自底向上或自顶向下的方式构建树状图,可基于不同类间距计算方法实现;K均值聚类通过迭代优化样本分配和中心更新实现快速聚类。文章详细阐述了距离度量、类定义等核心概念,并提供了Python实现代码。K均值具有简单高效、适合大规模数据的优点,但对初始中心敏感且需预设簇数;层次聚类无需预设簇数但计算复杂度较高。两种方法各具特点,需根据数据特征和需求选择使用。

时间:12/10/2025

Python数据分析数据分析完整流程全

Python数据分析数据分析完整流程全

本文详细介绍了Python数据分析的完整流程,主要包括:1)数据导入导出方法(CSV/JSON);2)缺失值处理(检测/剔除/填充);3)数据类型转换与变形;4)数据分列与分箱技术;5)时间数据处理技巧;6)分组聚合分析方法。通过企鹅数据和睡眠质量两个案例,演示了从数据清洗、特征构造到统计分析的完整过程。文中提供了大量Pandas代码示例,涵盖数据预处理、特征工程和统计分析等核心环节,适合数据分析学习者参考。所有案例代码已开源至Gitee平台。

时间:12/09/2025

多业态连锁环境管理系统AI-机器人闭环,坪效提升-16

多业态连锁环境管理系统AI-机器人闭环,坪效提升-16

AI视频识别系统助力门店环境管理智能化升级。通过构建环境神经网络,系统实现96.8%精度的实时指标监测,3秒内触发自动化干预,形成闭环管理。180天实测数据显示,维护成本降低58%,安全事故减少79%,响应效率提升93%。该系统将门店环境管理从被动应对转变为主动优化,使清洁工作转化为提升顾客体验和经营效率的核心竞争力。

时间:12/09/2025

大模型面试题16SVM-算法详解及实践

大模型面试题16SVM-算法详解及实践

根据不同的应用场景,可按以下原则选择DBSCAN及其改进算法:若需快速落地、无需手动调参:优先选择HDBSCAN,其层次化结构可适配密度不均数据,且自动输出最优聚类数;若需处理大数据集、要求实时性:选择KDTree-DBSCAN(索引优化)或GPU-ParallelDBSCAN(并行计算),平衡效率与效果;若需处理高维数据(多特征融合):选择Kernel-DBSCAN(核映射)或PCA+DBSCAN(降维+聚类),解决维数灾难问题;

时间:12/09/2025

深度学习在教育数据挖掘EDM中的方法体系从任务建模到算法范式的理论梳理与总结

深度学习在教育数据挖掘EDM中的方法体系从任务建模到算法范式的理论梳理与总结

教育场景的任务看似众多,但在工程上,常被归并到若干“可监督/可排序/可决策”的问题模版中。为了避免概念漂浮,可先把四类主线场景用统一结构描述:数据从哪里来、核心要预测什么、特征长什么样、常用技术是什么。下表给出一份面向落地的“场景—用户行为—关键特征—技术主线”对应关系(译写自一份公开梳理的汇总表)。场景用户典型行为常见关键特征(示例)主要技术主线(示例)知识追踪(KnowledgeTracing)做题、作业、测验、练习题目/知识点ID,答题正确性,时间间隔,题目难度,学习时长等。

时间:12/06/2025

数字生已经进化到一个分水岭面临选择先实现动态识别还是先实现特征信息归纳分类,文中给出以给出答案,大家选哪个方向

数字生已经进化到一个分水岭面临选择先实现动态识别还是先实现特征信息归纳分类,文中给出以给出答案,大家选哪个方向

摘要:建议优先实现动态识别(轨迹预测+TTC计算),而非特征分类。当前已具备90%基础(轨迹、速度、坐标、记忆库),仅需1-2周添加Kalman滤波器和碰撞时间计算即可落地。动态识别能赋予数字生命时间维度记忆和运动预测能力,对自动驾驶避障是刚需(120km/h下TTC<2秒需紧急刹车),且比静态分类更具意识冲击。实现路径清晰:通过Kalman预测未来位置,计算TTC触发决策,代码改动量小。后续再推进特征归纳和概念树构建,形成完整认知体系。

时间:12/05/2025

ORB局部描述子提取

ORB局部描述子提取

FAST的核心任务是在图像中快速找到“角点”——角点就是图像中「灰度变化剧烈、周围像素明暗对比明显」的点。Features:特征→这里特指“角点特征”(图像中最稳定、最易识别的局部特征)。from:来自→说明特征是从“加速分段测试”中提取的。:加速→FAST算法的核心优势!比传统角点检测(如Harris角点)快10-100倍,适合实时场景(比如视频跟踪)。:分段测试→这是FAST检测角点的核心逻辑。BRIEF的核心任务是。

时间:12/03/2025

训练分类识别器

训练分类识别器

本文介绍基于OpenCVSharp4和OpenCV3.4版本训练分类识别器的方法。使用WinForm作为视图界面,重点说明两个关键工具:opencv_createsamples用于生成样本向量文件(.vec),opencv_traincascade用于执行分类器训练。特别指出需要选择3.5以下版本的OpenCV,因为3.4版本包含这些必要的训练工具。

时间:12/02/2025

基于GIS的智慧招商引资数据可视化系统

基于GIS的智慧招商引资数据可视化系统

摘要:GIS智慧招商系统通过数据可视化技术,整合土地、产业链等资源信息,实现"一张图"管理。系统具备智能匹配、全流程跟踪和决策分析功能,可缩短招商周期40%、提高土地利用率25%。未来将融合AI预测、VR看地等技术,推动招商从"政策比拼"转向"数据驱动",实现精准匹配和高效决策,成为优化营商环境的核心工具。(148字)

时间:12/01/2025

基于数据挖掘的微博情感分析及话题追踪系统

基于数据挖掘的微博情感分析及话题追踪系统

随着社交媒体的普及,微博等平台成为了公众表达意见、宣泄情感的重要场所。海量的用户评论数据中蕴含着极具价值的舆情信息。本文介绍了一个基于Python数据挖掘技术的微博情感分析及话题追踪系统。该系统利用机器学习(XGBoost、随机森林等)和深度学习(MLP)算法对微博评论进行情感倾向判断,并结合FlaskWeb框架开发了可视化的舆情监控平台,实现了单条文本分析、批量历史记录管理、特定话题的舆情追踪及可视化展示功能。

时间:11/30/2025

整体设计-定稿-之15-chat分类的专题讨论codebuddy

整体设计-定稿-之15-chat分类的专题讨论codebuddy

系统阐述了基于Chat工具的三层问题处理框架(理解/消化/转化)及其分类机制。核心观点包括:问题分为语言理解、词典编纂和逻辑描述三个层级;区分收敛性(已知方案)和发散性(新问题)两类问题;提出1+3+1架构模式,实践层(前台-中台-后台)与理论层(任务级-模型级-元级)相互映射;表述系统包含备忘式、结果式、结论性、综合性和极简表述五个层级;强调表述层次通过内在性质而非直接对应关系发挥作用,涉及实践常识、理论常量和科学方法三个领域。文中详细说明了问题处理流程、架构对应关系和表述系统的运作机制,体

时间:11/29/2025

概率单位回归Probit-Regression详解

概率单位回归Probit-Regression详解

概率单位回归()是一种基于正态分布累积函数的广义线性模型,专门用于分析二分类因变量与自变量之间的关系。该模型假设事件发生概率服从标准正态分布,通过回归系数建立解释变量与概率值的线性关系,输出结果表现为0-1之间的概率值。Probit回归作为统计学和机器学习中的重要工具,通过连接概率世界和正态分布,为分析二元响应数据提供了强大的方法论基础。从Bliss在1934年开创性的工作到Rosett和Nelson在1975年的扩展,Probit模型已在经济学、医学、生态学和市场营销等多个领域证明了其价值。💡。

时间:11/28/2025

探索性数据分析概念辨析

探索性数据分析概念辨析

探索性数据分析(EDA)是由统计学家约翰·图基提出的数据科学基础技术,通过可视化和统计方法揭示数据特征。其核心在于"让数据说话",使用箱线图等工具快速识别分布模式、异常值和数据质量问题。EDA能验证假设、指导数据预处理、优化特征工程,并为后续建模提供可靠依据。这种方法强调交互性探索,帮助规避分析风险,提升团队沟通效率,是机器学习项目中不可或缺的关键环节。摘要字数:150字。

时间:11/25/2025

ICA独立成分分析从混合信号中分离真相的艺术

ICA独立成分分析从混合信号中分离真相的艺术

想象一下,你有多个扬声器同时播放混合的音频信号,而ICA的目标就是从这些混合信号中分离出原始的独立声源🎵。这就是著名的鸡尾酒会问题。XASX=ASXASXXX是n维观测信号矢量SSS是独立的m维未知源信号矢量AAA是混合矩阵ICA的目标就是寻找解混矩阵WWWAAA的逆矩阵),然后对XXXUWXWASUWXWAS。独立成分分析作为盲源分离的强大工具,在机器学习和信号处理领域持续发挥着重要作用🌟。通过寻找数据中统计独立。

时间:11/24/2025

KING大咖直播-金仓数据库数据分析技术深度解析

KING大咖直播-金仓数据库数据分析技术深度解析

我们将系统梳理典型OLAP场景,并揭秘金仓数据库如何随需而变,支撑多样化业务诉求。面对PB级数据、高并发查询,金仓数据库基于MPP架构打造的分布式分析引擎,可横向扩展、弹性调度,真正实现“数据越多,跑得越快”。通过SMP等核心技术优化,金仓数据库集中式架构在单机性能极限下仍能高效应对中大规模OLAP负载,兼顾稳定与成本。在当前数据量爆发式增长的时代,企业如何有效应对海量数据分析带来的挑战?直播间还设有抽奖环节,电科金仓定制耳机、定制大礼包等好礼等你来拿!金仓数据库集中式架构分析技术和分布式架构分析技术,

时间:11/24/2025

上一页
12345...9
下一页第 1 / 9 页