索引
细粒度分类
Fine-Grained Visual Classification via Internal Ensemble Learning Transformer
IEEE Transactions on Multimedia (TMM) ,2023
- 多头注意力弱学习器集成(投票机制)--->解决层内头间性能不均衡,识别图像更多的局部关键部位,找到重要的关键的特征
- 跨层融合抑制噪声,增强特征表达,在于如何更好的跨层融合。 --->层间融合性能问题
- 动态调整各层的token选择数量,增强表现好的层,抑制表现差的层
TransIFC Invariant Cues-Aware Feature Concentration Learning for Efficient Fine-Grained Bird Image Classification
IEEE Transactions on Multimedia (TMM) ,2023
- 找关键特征--->只要输出特征中区分度最大的前K个特征:计算每个特征之间的相似度,求和倒数,分数大说明区分度更大,不普通;分数小说明这个特征没有说明特色,不重要。
- 低层(包含更多细节)和高层(包含更多语义)的信息融合。
- 鸟类图像中的不变线索(除了眼睛鸟喙等还包括长距离语义关系,翅膀&鸟喙位置关系)和细微差异。
其他
Layer by Layer Uncovering Hidden Representations in Language Models
ICML, Oscar Skean 、Md Rifat Arefin、Dan Zhao 、 Niket Patel 、Jalal Naghiyev 、Yann LeCun 、Ravid Shwartz-Ziv, 2025.2
用一个统一框架矩阵熵(信息论、几何、不变性 )来证明中间层比最终层提供更有用的特征对于下游任务:中间层在信息压缩和噪声抑制方面找到了更好的平衡点,而最后一层可能会变得过于专业化于预训练目标
LiDAR视觉定位
LightLoc Learning Outdoor LiDAR Localization at Light Speed
cvpr2025, xmu
轻量化
- 多种不同场景训练一个主干网络,N个MLP,每个MLP对于一个场景,并行训练迫使主干网络学到通用的泛化特征。
- 很多样本相似,容易混淆,模型训练不易收敛:给模型特征加一个自己大概在某个位置先验条件。将样本聚类后重新定义标签,做一个简单的分类任务,得到一个条件概率,拼接到样本特征上。
- 样本中存在大量重复,有些样本模型反复学过,可以不要。计算epoch间一个滑动窗口内损失的方差,如果方差大说明模型预测不稳定,还要学;反之,不用学可以丢掉。方差降序筛选。