新研究提出主动学习相变理论：不同策略在不同阶段各有优势

一项被 ECCV 2026 接收的研究论文提出了一种机制驱动的主动学习（Active Learning）相变理论，为理解不同主动学习策略为何在不同的标注预算阶段表现各异提供了统一框架。该研究由 Julia Machnio、Mads Nielsen 和 Mostafa Mehdipour Ghazi 共同完成。

主动学习是一种通过选择最有价值的数据样本来减少标注成本的技术，但其性能高度依赖标注预算。长期以来，研究者观察到代表性（representativeness）、覆盖率（coverage）和不确定性（uncertainty）这三类策略在不同的标注阶段表现不同，但缺乏理论层面的统一解释。

这项研究将主动学习过程中的预算制度重新定义为泛化主导机制（dominant generalization mechanism）的阶段性转变。通过将 PAC 风格的风险组件重新解释为动态交互项，作者证明主导机制的转变在结构上不可避免，从而形成了一个动态的泛化瓶颈（moving bottleneck）。

新研究提出主动学习相变理论：不同策略在不同阶段各有优势 — 图源: activesgcircle.gov.sg

研究团队使用可测量的代理指标和分段回归程序，识别出三种相态：数据驱动阶段（data-driven）、过渡阶段（transition）和模型驱动阶段（model-driven）。每一阶段对应一种不同的主导泛化机制，需要匹配不同的查询策略才能获得最佳效果。

实验在自然图像和医学图像数据集上进行，验证了框架的有效性。结果表明，主动学习的效率取决于查询策略的归纳偏差与当前活跃瓶颈之间的匹配程度。更重要的是，自监督表征学习（self-supervised representation learning）能在标注轨迹中更早地触发阶段转换，凸显了表征质量在塑造主动学习动态中的关键作用。

这项研究的理论贡献在于将主动学习策略选择从经验调参提升为可预测的机制选择。对于实践中使用主动学习的团队而言，该框架意味着不再需要盲目尝试不同策略，而是可以根据当前的标注阶段和数据特征，有针对性地选择最匹配的策略。

该研究同时指出，当前多数主动学习算法都隐含地假设一个固定的最佳策略，忽视了动态相变的存在。基于这一理论，下一代相变感知（transition-aware）主动学习算法有望根据模型所处的泛化阶段自适应地调整查询策略。

对于从事数据标注效率优化的工程师和研究者来说，这项工作的核心信号是：主动学习不是一个一套策略打天下的问题，而是需要根据模型所处的泛化阶段动态调整策略。自监督预训练的价值不仅在于更好的初始表征，还在于它能帮助主动学习更早地进入高效阶段。