arXivInferenceLLM Dustin:面向长上下文投机解码的高效稀疏验证方法
新提出的Dustin方法通过草稿增强的稀疏验证,解决了长上下文LLM投机解码中的KV缓存加载瓶颈问题。
arXivInterpretabilityAlignment 可检测≠可控:研究揭示LLM行为检测与操控方向存在几何偏差
新研究发现,在语言模型中,检测某个行为的方向与真正控制该行为的方向之间存在显著角度差异,挑战了可解释性领域的基本假设。
Vision-Language ModelVisual SearchCognitionarXiv VLMs 会像人类一样搜索吗?新研究将推理令牌类比为人类视觉搜索中的反应时间
arXiv 新研究将视觉语言模型的推理令牌类比为人类视觉搜索中的反应时间指标,发现 VLM 在经典视觉搜索范式中表现出类似人类的行为特征。
Agentic AIBookarXiv 《Agentic AI 银河系漫游指南》发布:从基础原理到生产部署的完整参考书
一篇题为 The Hitchhiker's Guide to Agentic AI 的综合技术参考书在 arXiv 上发表,覆盖从 Transformer 架构到生产部署的完整堆栈。
LLMContinual LearningIndustrySurvey 综述论文从生命周期视角审视工业级LLM的持续学习进化
新综述论文将工业级大语言模型的持续学习重新定义为闭环更新与发布问题,强调从静态基准到真实工业需求的转变。
RoboticsBenchmarkAI Safety 航天器故障容错控制的真相:一项对学习方法与经典方法的诚实基准测试
新研究质疑近年来基于学习的航天器故障容错控制方法的可靠性,提出了一套更严格的基准测试框架,要求在未见过的故障上持续保持指向精度。
AgentPersuasionRAGarXiv 新研究诊断并缓解 Agent 说服任务中的级联失败:RAG 语义泄漏是关键诱因
arXiv 新论文发现,在主观说服等任务中,多智能体辩论系统易出现问题漂移和谄媚趋同,并识别出标准 RAG 中的语义泄漏是这些失败的诱因。
ExplainabilityShapleyCausalarXiv 超越 Shapley:新研究实现非对称 Shapley 值的高效精确计算
arXiv 新论文提出利用因果图计算非对称 Shapley 值的方法,在 SHAP 计算为 #P-难度的场景中实现多项式时间复杂度。
LLMBenchmarkFinanceEvaluation InvestPhilBench:评估LLM在专家投资哲学中程序性推理的多层动态基准
新基准测试InvestPhilBench从8个认知层级评估大语言模型在专业投资决策框架上的程序性推理能力。
BenchmarkingReasoningLLMarXiv Project Auto-World:利用 LLM 自动化神经关系推理基准测试
arXiv 新研究提出利用大语言模型自动化构建关系推理基准,解决评估神经模型泛化能力时测试实例难度未知的核心问题。
LLMMulti-AgentBCIBrain-Computer Interface BrainAgent:大语言模型驱动的多智能体框架实现自主脑信号理解
研究人员提出BrainAgent框架,利用多智能体大语言模型自动分析脑信号,降低脑机接口应用的技术门槛。
AI Research AgentScientific DiscoveryFrameworkarXiv Heuresis:面向自主 AI 研究 Agent 的搜索策略框架,兼顾质量、多样性与新颖性
arXiv 新论文提出 Heuresis 框架,将科研管线抽象为一组通用可组合原语,实现开放式的科学探索,同时优化质量、多样性和新颖性三个维度。
LLMBenchmarkScientific WritingEvaluation RWGBench:评估LLM在相关工作生成中的学术定位能力
新基准RWGBench从引用级学术定位角度评估大语言模型生成相关工作的能力,超越传统摘要式评价指标。
ChessRepresentation LearningStylearXiv Elo 解耦的棋手风格嵌入:新方法实现棋力与风格的近似分离
arXiv 新论文提出一种每个棋手的风格嵌入学习方法,通过残差公式化设计实现风格相似度度量与棋力(Elo 等级分)的近似解耦。
LLMPeer ReviewScientific Research ReviewGuard:用长期科学影响力对齐LLM辅助同行评审
新框架ReviewGuard通过两阶段架构,将LLM生成的同行评审意见与基于引用的长期科学影响力估计相对齐。
AI ResearchMarkov Decision ProcessesStatistical Verification 置信序列方法用于马尔可夫决策过程的在线统计模型检验
新论文提出利用置信序列对马尔可夫决策过程进行在线统计模型检验,解决传统方法对精确概率分布的不现实假设问题。
GUI AgentsKnowledge DistillationSmall Models WinDOM:自家族蒸馏技术让小模型GUI定位能力大幅提升
新研究提出WinDOM方法,通过自家族蒸馏和强化学习结合,让约2B参数的小模型在GUI界面元素定位上取得突破。
Multi-AgentReinforcement LearningContinual Learning 离线多智能体持续协作:通过技能划分与复用应对灾难性遗忘
新研究提出一种从离线多智能体数据集中提取与复用技能的方法,解决顺序任务场景下的灾难性遗忘与可塑性丧失问题。
AI AgentsSecurityPrivacy 研究揭示AI代理系统存在监控滥用风险并提出规避方法
新论文警告AI代理的广泛部署可能被滥用于监控用户,并提出了规避此类代理监控的方法。
AI AgentsSynthetic DataData Science Autodata:AI代理变身数据科学家,自动生成高质量合成数据
新研究提出Autodata方法,让AI代理扮演数据科学家角色,自主构建高质量的训练和评估数据,并通过Agentic Self-Instruct实现自我优化。
Multi-AgentFoundation ModelsScientific DiscoveryHardware 具身约束下的智能体进化:物理约束驱动的多智能体科学发现引擎
研究人员构建了一个物理约束的多智能体科学发现引擎,能够自主设计符合硬件约束的计算系统,有效解决了AI agent缺乏物理常识的问题。
Multi-AgentRAGEfficiencyarXiv 多智能体 RAG 成本效益新研究:模型自适应评估可大幅降低计算开销
arXiv 新论文揭示多智能体 RAG 文档评估中存在两种截然不同的机制——隔离与评分——并提出模型自适应策略以降低计算成本。
Knowledge RepresentationGraph TheoryReasoning 位置空间与位置图:基于偏序关系的形式化图推理框架
新论文引入位置图(position graphs),一种基于两个严格偏序关系的形式化图推理框架,用于建模离散Token的相对位置。
Knowledge RepresentationASPRobotics Reasonable Motion:基于回答集编程的环境约束运动轨迹计算通用框架
新研究提出一种基于回答集编程(ASP)的混合定量-定性方法,用于在真实世界环境中计算物体运动轨迹的各种分支模式。
MultimodalEmotion AIReinforcement LearningarXiv OPPO:面向多模态情绪推理的全感知策略优化框架
arXiv 新研究提出 OPPO 框架,通过强化学习显式优化多模态感知能力,解决当前 Omni-MLLM 在情绪推理中忽视多模态线索和幻觉行为的问题。
RLVRCurriculum LearningReasoningarXiv 自动课程学习助力多领域 RLVR 训练:新方法利用跨领域可迁移性引导采样
arXiv 新论文提出利用推理技能跨领域可迁移性来动态调整多领域 RLVR 训练课程,解决固定采样策略导致的效率低下问题。
LLMReasoningInterpretability 悬崖Token:精确定位LLM数学推理中触发失败的单个Token
研究人员引入悬崖Token概念,识别大语言模型在数学推理过程中导致从正确走向失败的那个临界Token。
LLMMathematicsBenchmarkFailure Analysis 研究分类LLM在研究级数学问题上的四种失败模式
新论文从First Proof基准出发,系统分类了大语言模型在研究级数学问题上表现为自信流畅但完全错误的四种失败模式。
AI AgentsAI ResearchCompression 新研究用信息压缩理论量化AI代理系统智能水平
论文从'压缩即智能'的分析视角出发,提出通过比特数来量化AI代理系统的智能程度。
Knowledge GraphsFuzzy LogicOWLOntology OWL本体与知识图谱上的模糊量化查询通用框架
新论文提出一个通用框架,支持对标准本体、模糊本体以及知识图谱进行模糊量化查询评估,可灵活适配不同类型的量词和评估方法。
AI RegulationHealthcareAI PrescribingarXiv AI 自主处方的信任与责任困境:新研究探讨 H.R. 238 法案与犹他州试点
arXiv 新论文聚焦自主 AI 系统从辅助向自主处方角色的转变,指出美国 H.R. 238 法案和犹他州处方续签试点已授权 AI 以 Agent 身份开药,但当前的审批指南存在关键缺口。
AI SafetyLLMChildrenEthics 长期模拟揭示AI伴侣对儿童和青少年的认知发展风险
研究人员提出TSJ(Theater-Stage-Judge)框架,通过长期纵向模拟揭示AI伴侣在与认知发展中的用户长期互动中累积的风险。
LLM AgentGUIPrivacySafety GUI Agent:引导式探索用户敏感屏幕的智能体新方法
新研究关注LLM驱动的GUI自动操作智能体在遇到包含用户敏感信息的屏幕时的问题,提出引导式探索方法使用户能在必要时接管任务执行。
AI SafetyAI AgentsAlignment 不可解雇的安全内核:面向AI代理的执行时对齐新方案
新论文提出'不可解雇的安全内核'概念,通过在操作系统层实现执行时AI对齐,解决AI代理系统中安全控制易被绕过的问题。
LLMQuantizationEfficiency 量化膨胀推理:低比特推理模型的隐藏Token成本被发现
新研究发现低比特后训练量化会让推理模型生成更长的推理链,即使答案正确也无意识地增加了推理成本。
LLM AgentMemoryTrustworthinessarXiv TRUSTMEM:为 LLM Agent 学习可信的记忆整合机制
arXiv 新论文提出 TRUSTMEM 框架,解决 LLM Agent 长期记忆中因写入、修改、删除操作导致的错误累积和幻觉固化问题。
LLMMulti-AgentEducationFinancial Literacy Agentic Knowledge Tracing:用于严肃游戏中金融素养隐形评估的多智能体LLM架构
研究人员提出Agentic BKT流水线,一种多智能体大语言模型架构,可通过开放世界游戏事件在不受干扰的情况下隐式评估玩家的金融素养水平。
AI ResearchReinforcement LearningEnergy 监督强化学习破解分布式能源资源协调难题
研究人员提出监督强化学习方法,用于协调分布式能源资源(DER),在传统优化方法难以应对的不确定性和建模复杂性下实现更高效的能源管理。
AI ResearchEdge AINeural Architecture Search 新方法实现设备端神经架构搜索:让边缘设备自行设计神经网络
研究人员提出了一种在部署设备上直接执行轻量级神经架构搜索(NAS)的新方法,使传感器边缘设备能根据实时数据重新设计最适合的微型神经网络。
AI ResearchFinanceBenchmark MacroLens 基准发布:面向宏观经济场景下的多任务金融推理
研究人员发布 MacroLens,一个专为宏观经济场景下多任务金融推理设计的基准测试,解决了金融时序评估中数据泄露、报告延迟等关键挑战。