AI ResearchLanguage ModelsInterpretability
研究发现循环语言模型存在「读出盲点」:稠密监督无法控制所有隐藏状态变量
一项新研究揭示,在循环语言模型中,每个循环步上的稠密交叉熵损失只能控制读出层暴露的变量,而非循环转移中的所有隐藏状态变量,导致模型存在系统性的监督盲区。
Realtime AI News
一项新研究揭示,在循环语言模型中,每个循环步上的稠密交叉熵损失只能控制读出层暴露的变量,而非循环转移中的所有隐藏状态变量,导致模型存在系统性的监督盲区。
一篇新研究展示了人机协作从模糊的研究直觉出发,最终共同发现符号嵌入量子算法(sign-embedding quantum algorithms)的完整过程,展示了 AI 辅助数学发现的新范式。
新框架AgentOdyssey通过程序化生成的开放文本游戏,系统评估智能体在测试时的持续学习能力。
OpenAI 发布新研究论文,阐述 AI 代理如何通过处理更长、更复杂的任务来变革工作,并跨角色扩展生产力。
arXiv上发表的DiARC方法通过区分正负样本,显著提升了大语言模型在抽象推理(ARC)任务上的表现。
AI芯片公司Cerebras发布上市后首份财报,核心业务毛利率展望低于预期引发股价暴跌,CEO表示市场误解了其利润率指引。
TechCrunch报道称,企业正在纷纷采取措施,阻止员工将AI预算大量消耗在低价值的小任务上,AI时代从'无限制使用'转向'配额管理'。
Google Research 发表新研究,探索推理过程如何激活和利用大语言模型中存储的参数化知识。