论文题目:Landmark-Guided Cross-Speaker Lip Reading with Mutual Information Regularization
作者:Linzhi Wu, Xingyu Zhang, Yakun Zhang, Changyan Zheng, Tiejun Liu, Liang Xie, Ye Yan, Erwei Yin 单位:University of Electronic Science and Technology of China,
会议/时间:arxiv 2024, COLING 2024
链接: arxiv.
论文题目:An Effective Mixture-Of-Experts Approach For Code-Switching Speech Recognition Leveraging Encoder Disentanglement
作者:Tzu-Ting Yang, Hsin-Wei Wang, Yi-Cheng Wang, Chi-Han Lin, and Berlin Chen 单位:National Taiwan Normal University
会议/时间:ICASSP 2024
链接: doi.
在本科机器学习课程上讲了逻辑回归的相关内容. 感觉有些部分课堂上讲的比较粗,回来补充一些公式的推导和清晰一点的定义.
CTC(连接主义的时序分类)是一种在长度不同的序列中计算损失的方式。 对于不定长的模型输出和标签,在没有给定对齐的情况下计算概率和梯度,从而进行模型的训练。
在基于Attention的模型中,使用hybrid ctc+attention的方式训练,在解码过程中,进一步利用训练时CTC头部的信息,可以计算CTC前缀得分,加入到Beam Search解码中。这里前缀得分的计算方式与CTC Loss的前向后向算法的前向部分比较类似。
Weight Decay权重衰减机制是一个比较常用的训练策略。 但是在某些场景下,需要在训练的时候关闭WeightDecay。
论文题目:Class-wise Dynamic Graph Convolution for Semantic Segmentation
作者:Hanzhe Hu, Deyi Ji, Weihao Gan, Shuai Bai, Wei Wu, and Junjie Yan
会议/时间:ECCV2020
链接: Springer
扫了一些分割方面论文,截止日期2021-12-29
Anaconda中的cudatoolkit是什么。
对于离散信号,当所有信源符号出现的概率相等的时候取到最大的熵。