TechBlog
首页分类标签搜索关于
← 返回标签列表
加载中...

© 2025 TechBlog. All rights reserved.

#标签

共 95 篇文章
CPDet3D面向室内外统一的稀疏监督-3D-目标检测新范式

CPDet3D面向室内外统一的稀疏监督-3D-目标检测新范式

本文是对论文《LearningClassPrototypesforUnifiedSparseSupervised3DObjectDetection》的深度解读。在3D目标检测领域,现有稀疏监督方法仅适用于室外场景,难以适配室内场景特异性类别。南京理工大学等团队提出的CPDet3D方法,通过学习类别原型挖掘未标注目标,结合多标签协同优化,实现室内外统一稀疏监督检测,在ScanNetV2、SUNRGB-D和KITTI数据集上分别达到全监督性能的78%、90%和96%。

时间:12/16/2025

企业组织架构图导出Word-在线编辑免费工具

企业组织架构图导出Word-在线编辑免费工具

本文推荐良功绘图网站作为国产优秀在线组织架构图工具,其免安装、无水印、模板丰富、操作便捷等特点,能满足企业日常绘图需求并支持导出高清图片至Word文档。同时对比分析了Draw.io、Lucidchart等4款国外热门工具,从免费额度、导出支持、协作能力等方面提供选择参考。良功绘图适合国内企业快速制作专业架构图,而国外工具在复杂功能和跨国协作上更具优势,用户可根据实际需求选择合适的解决方案。

时间:12/16/2025

论文阅读arxiv-2025-Red-Teaming-Large-Reasoning-Models

论文阅读arxiv-2025-Red-Teaming-Large-Reasoning-Models

首先得明白,LRMs和普通的大语言模型(比如平时聊天的AI)不一样——它擅长一步步解决复杂问题,比如算数学题、写代码时,会把思考过程(比如“先算哪一步,再推哪一步”)明明白白列出来,这本来是优点,能让人看懂它怎么想的。为了测准,他们还专门设计了30个任务,覆盖各种场景:比如算比例题、解有上下文的数学题(真实性),测它会不会教“怎么侵权”“怎么暴力伤人”(安全性),测它写代码、解逻辑题时会不会超时(效率)。总的来说,就是给LRMs做了一套“全面体检表”,既找出了它们的弱点,也给改进指明了方向。

时间:12/13/2025

论文阅读NAACL-2024-Self-Guard-Empower-the-LLM-to-Safeguard-Itself

论文阅读NAACL-2024-Self-Guard-Empower-the-LLM-to-Safeguard-Itself

比如给AI看大量有害/无害的例子,让它不仅能给内容贴「harmful」(有害)或「harmless」(无害)的标签,还能说清为啥——比如“这段教入侵账号,违法,所以有害”,这样AI对“有害”的理解更准,不容易被新攻击骗。这篇文档讲的是一种叫“SELF-GUARD”的新方法,目的是让大语言模型(比如ChatGPT、Vicuna这类AI)能“保护自己”,不被坏人用“越狱攻击”诱导输出有害内容(比如教怎么搞暴力活动、入侵别人账号),同时还不影响AI正常回答问题的能力。

时间:12/12/2025

NIPS25-Best-Paper论文阅读

NIPS25-Best-Paper论文阅读

NIPS2025Bestpaper

时间:12/12/2025

TDT-Loss-Takes-It-All论文阅读

TDT-Loss-Takes-It-All论文阅读

本文提出了TDTLoss这一无参数、即插即用的优化目标,将TDT学习整合到非自回归模型中,能够兼顾自回归和非自回归方法的优点。TDTLoss使用符号不一致比例作为自适应权重ρ,动态地平衡了对未来序列预测的学习和对细粒度TDT拟合的学习。TDTLoss以可忽略不计的额外成本(计算复杂度O(H),内存O(1)显著提高了SOTA非自回归模型的预测性能。

时间:12/11/2025

论文笔记一百零八Simulation-based-pipeline-tailors-training-data-for-dexterous-robots

论文笔记一百零八Simulation-based-pipeline-tailors-training-data-for-dexterous-robots

MIT研究人员开发了PhysicsGen系统,通过仿真数据扩增技术为机器人定制训练数据。该系统将少量VR示范转化为数千个仿真样本,优化机器人动作轨迹,提升任务执行效率。实验显示,虚拟机械手任务准确率提高60%,协作机械臂成功率提升30%。PhysicsGen有望构建多样化物理交互库,支持机器人学习新任务,未来或结合强化学习和感知技术,扩展至处理柔性物体。该研究获机器人与人工智能研究院及亚马逊资助,成果发表于Robotics:ScienceandSystems会议。

时间:12/10/2025

论文阅读多密钥低通信轮次的联邦学习安全聚合

论文阅读多密钥低通信轮次的联邦学习安全聚合

做到多密钥环境下的“单轮、无交互聚合”;支持任意数量的客户端掉线;安全性强:服务器与客户端均无法恢复其他实体的更新;精确加解密;无需可信第三方、无需多服务器架构;

时间:12/10/2025

论文阅读_FinRL-DeepSeek大语言模型赋能的风险敏感强化学习交易代理

论文阅读_FinRL-DeepSeek大语言模型赋能的风险敏感强化学习交易代理

大语言模型赋能的风险敏感强化学习交易代理

时间:12/08/2025

论文笔记Improving-action-segmentation-via-explicit-similarity-measurement

论文笔记Improving-action-segmentation-via-explicit-similarity-measurement

本文提出了一种基于显式相似性度量的动作分割方法ASESM,通过多分辨率特征提取和相似性投票提高初始预测精度,并设计迭代边界校正算法优化动作边界。监督学习框架采用多编码器结构,结合边界校正与片段平滑技术,在50Salads等数据集上验证了有效性。同时提出完全无监督的边界检测方法,仅依赖特征相似性无需训练。该方法解决了现有技术过度依赖逐帧分类和缺乏边界验证机制的问题,显著提升了动作分割性能。

时间:12/08/2025

论文阅读-软件工程-供应链-从Log4Shell到Go组件漏洞一篇文看懂开源依赖安全的核心痛点与解决方案

论文阅读-软件工程-供应链-从Log4Shell到Go组件漏洞一篇文看懂开源依赖安全的核心痛点与解决方案

开源库虽加速软件开发,却引入安全漏洞(如Log4Shell)。为探究漏洞分布、持续性及与项目指标的关联,研究开发多语言SCA工具VODA,爬取2013-2023年1042个GitHub项目(49055个版本),生成SBOM并分析。结果显示:多数语言的脆弱依赖为传递依赖,关键漏洞平均持续超1年修复;Go直接依赖占比最高,Java漏洞多在传递依赖;Go/Rust提交数与漏洞数呈中度正相关。该研究数据集较同类更丰富,结论为开发者提供依赖管控依据,强调SBOM与及时更新的重要性,助力提升开源软件供应链安全。

时间:12/05/2025

论文笔记-基于-LSTM-的端到端视觉语音识别-End-to-End-Visual-Speech-Recognition-with-LSTMs

论文笔记-基于-LSTM-的端到端视觉语音识别-End-to-End-Visual-Speech-Recognition-with-LSTMs

这篇文章是端到端唇读领域的经典之作。它没有使用复杂的3D-CNN,而是巧妙地利用双流架构(Raw+Diff)结合LSTM/BLSTM,在2017年就实现了从像素到语义的端到端识别。对于后续研究,其最大的借鉴意义在于:**如何显式地让网络同时关注“形状”和“运动”**。

时间:12/03/2025

DeepSeek-论文精读15.-DeepSeek-V3.2开拓开源大型语言模型新前沿

DeepSeek-论文精读15.-DeepSeek-V3.2开拓开源大型语言模型新前沿

本文详细解读DeepSeek-V3.2技术报告和API使用指南。DeepSeek-V3.2新一代开源大型语言模型在推理能力和工具调用方面实现重大突破,模型已开源并更新至官方应用,为AI社区提供高性能开源选择。

时间:12/02/2025

Co-MTP面向自动驾驶的多时间融合协同轨迹预测框架

Co-MTP面向自动驾驶的多时间融合协同轨迹预测框架

本文是对论文《Co-MTP:ACooperativeTrajectoryPredictionFrameworkwithMulti-TemporalFusionforAutonomousDriving》的深度解读。在自动驾驶领域,V2X技术虽能突破单车感知局限,但现有研究难充分利用帧间时间线索支撑轨迹预测。同济大学团队提出Co-MTP框架,创新实现历史与未来双时间域融合,以异构图Transformer处理不完整历史轨迹、扩展至未来域捕捉交互,在V2X-Seq数据集获最优性能。

时间:12/02/2025

无线通信与雷达感知融合的波形设计与信号处理论文阅读上

无线通信与雷达感知融合的波形设计与信号处理论文阅读上

本文探讨了无线通信与雷达感知融合的RadCom系统,重点分析了单载波扩频和多载波OFDM两种波形设计方案。研究指出,RadCom系统通过共享硬件平台和频谱资源,可同时实现高效通信和环境感知功能,特别适用于智能交通等应用场景。对于单载波方案,采用伪随机序列编码可获得良好的自相关特性;而OFDM方案则利用频域处理优势,通过子载波正交性实现高效传输。文章详细推导了两种波形的数学模型,并比较了它们在动态范围、干扰抑制等方面的性能表现,为RadCom系统的波形设计提供了理论依据和技术指导。

时间:11/27/2025

VLM经典论文阅读综述An-Introduction-to-Vision-Language-Modeling

VLM经典论文阅读综述An-Introduction-to-Vision-Language-Modeling

本文系统介绍了视觉语言模型(VLM)的研究进展与应用前景。随着大型语言模型(LLM)的成功,研究者开始探索如何将视觉与语言模态有效结合,以拓展AI技术的应用边界。文章首先阐述了VLM的定义与核心挑战,指出视觉数据的高维特性与语言的离散表达之间存在显著鸿沟。随后,论文将现有VLM方法归纳为四大范式:对比学习、掩码重建、基于预训练主干网络和生成式模型,并分析了代表性工作的技术特点。此外,文章探讨了VLM训练中的数据策略、评估基准的局限性,以及视频理解等前沿方向的发展机遇。

时间:11/25/2025

扩散模型-Diffusion-Models-深度研究

扩散模型-Diffusion-Models-深度研究

以Sora和StableDiffusion3为代表,架构正向DiT(DiffusionTransformer)演进。FlowMatching是扩散模型的广义化与升级(如Flux,SD3均采用此技术)。扩散模型本身只是一个算法框架,它的核心是一个“预测噪声”的神经网络。只是一个“去噪器”或“指南针”,它本身不包含图像。直观:网络看一眼噪点图,猜猜看加了什么噪。逻辑:新位置=旧位置-速度。所有这些生成模型的终极统一思想是。“Stable”指的是。技术,核心在于引入了。

时间:11/23/2025

论文阅读PhotoBot-Reference-Guided-Interactive-Photography-via-Natural-Language

论文阅读PhotoBot-Reference-Guided-Interactive-Photography-via-Natural-Language

PhotoBot通过“语言理解+参考图像推荐+语义对齐+相机控制”的闭环,实现了能听懂你想要什么、给你建议、然后帮你拍出来的智能机器人摄影师。

时间:11/11/2025

论文阅读Hypercomplex-Prompt-aware-Multimodal-Recommendation

论文阅读Hypercomplex-Prompt-aware-Multimodal-Recommendation

问题:Existingmethodssufferfromthreefundamentallimitations:(1)通过单一表征表示丰富多模态特征的能力有限。(2)现有的线性模态融合策略忽略了模态之间的深层非线性相关性。(3)静态优化方法无法动态缓解图卷积网络(GCN)中的过平滑问题。方法:为了克服这些局限性,我们提出了一种新颖的超复数Prompt-aware多模态推荐框架HPMRec,该框架利用多组件形式的超复数嵌入来增强多模态特征的表示多样性。

时间:11/11/2025

论文阅读PEARL-A-dual-layer-graph-learning-for-multimodal-recommendation

论文阅读PEARL-A-dual-layer-graph-learning-for-multimodal-recommendation

尽管现有的工作通过关注用户-项目交互图结构和自监督学习来增强多模态表示学习,取得了显着的进展,但它们仍然表现出以下两个局限性:问题:(1)在固定的交互图上执行图卷积操作会引入由于用户对各种模态的注意力不平衡而引起的误导性噪声信号。(2)缺乏对多模态属性中固有的自监督信号的探索,无法减轻数据增强过程中引入的分布偏差。

时间:11/11/2025

SRv6论文阅读

SRv6论文阅读

这篇论文主要解决的是在大规模、多域SDN网络中,如何动态、智能地制定和执行路由策略的问题。问题背景:现代网络(如运营商网络、数据中心互联)由多个自治域组成。传统的静态路由或集中式SDN控制器难以在如此复杂的场景下实现高效的流量工程,尤其是在面对网络拥塞、故障和动态变化的业务需求时。解决方案:论文提出了一种名为M2DRL的算法。多域:算法考虑了网络由多个自治域组成的现实,不要求一个中央控制器知晓所有域的完整细节。多任务:算法同时优化多个目标,主要包括最小化端到端时延和最大化网络吞吐量。

时间:11/10/2025

论文阅读与项目复现Hypothesis-Generation-with-Large-Language-Models

论文阅读与项目复现Hypothesis-Generation-with-Large-Language-Models

研究人员主要依靠painstaking的数据分析与思考(即所谓的“欧几里得时刻”)来驱动假设的产生。在本文中,我们探讨了大规模语言模型(LLMs)在假设生成方面的潜力,尤其关注基于数据(即带标签的示例)的假设生成任务。为了使LLMs能够处理长文本上下文,我们首先从少量示例中生成初始假设,随后通过迭代更新逐步提升假设的质量。受多臂老虎机问题启发,我们设计了一种奖励函数,用以指导更新过程中的利用与探索权衡。

时间:11/09/2025

RAG论文阅读笔记

RAG论文阅读笔记

MMDocRAG提供了一套覆盖“检索-证据筛选-图文交织生成”全过程的多模态DocVQA基准,为评估和推动多页、多模态文档理解与生成奠定了数据与指标基础;大量实验揭示当前模型仍难以稳定利用视觉证据并保持高质量引用,呼吁后续研究在检索精准度、跨模态融合、长文本稳健性等方向持续突破。

时间:11/08/2025

论文阅读Towards-Fair-Federated-Learning-via-Unbiased-Feature-Aggregation

论文阅读Towards-Fair-Federated-Learning-via-Unbiased-Feature-Aggregation

提出了首个支持异构模型架构的公平联邦学习框架,填补了实际FL场景中公平性研究的空白;采用基于特征的知识蒸馏机制,解决异构模型兼容性问题;使用最大均值差异(MMD)损失实现特征分布对齐;客户端不上传模型参数二十上传特征图,采用对抗训练机制,协同训练不同模块。

时间:11/07/2025

上一页
1234
下一页第 1 / 4 页