5.2k words 5 mins.

# How do we represent the meaning of a word? # Definition its meaning(Webster dictionary) the idea that is represented by a word,phrase,etc the idea that a person want to express by using words,signs,etc the idea that is expressed in a work of writing,art,etc # commonest linguistic way of thinking...
49k words 44 mins.

# 基于互信息最大化的自监督学习序列推荐 # 相关知识 互信息最大化 (MIM) 原理来学习属性、项目、子序列和序列之间的相关性 MIM 提供了一种统一的方法来表征不同类型数据之间的相关性 连续推荐任务 自注意力机制 自监督学习 语言建模 相互信息最大化 # 其他文章不足 依赖于项目预测损失来学习整个模型。当加入上下文数据时,所涉及的参数也是通过唯一的优化目标来学习的。研究发现,这种优化方式很容易受到数据稀疏性等问题的困扰 # 本文内容 新颖的自监督学习方法,以改进具有 MIM 的序列推荐 精心设计了四个自监督优化目标,分别用于捕获项目 - 属性、序列 - 项目、序列 -...
4.4k words 4 mins.

自然语言→有顺序关系 —— 依赖于词 # 循环神经网络:Recurrent Neural Network 循环神经网络(Recurrent Neural Network,RNN)是一种特别适合处理序列数据的神经网络模型。RNN 的设计理念是利用网络中的循环结构,使得网络能够记住序列中的前面信息,从而捕捉数据的时间依赖性。 # RNN 基本结构 RNN...
11k words 10 mins.

# 卷积神经网络 # 输入层 输入:图像大小为 1×28×281 \times 28 \times 281×28×28,其中 1 表示图像的通道数(灰度图像),282828 表示图像的宽度和高度。 # 卷积层 卷积核,也称为滤波器(filter),是卷积神经网络(CNN)中的一个小矩阵,用来对输入图像进行卷积操作,从而提取特征。 卷积操作:对输入图像应用卷积核,通常用 5x5 的卷积核,这里得到的特征图(Feature maps)大小为 4×24×244 \times 24 \times244×24×24 ,其中 4...
6.7k words 6 mins.

# 如何实现多分类问题? # 概率分布 每个可能的输出概率都需要大于等于零 所有可能分类概率之和为 1 # 函数区别 中间处理过程可以用 Sigmoid 函数 最终层应该为 Softmax 层 # Softmax 实现 # One-hot 方法 One-hot 编码是一种将分类数据转换为二进制向量的方法,通常用于将离散的分类标签转换为机器学习算法可以处理的格式。每个类别用一个独特的二进制向量表示,其中只有一个位置的值为 1,其余位置的值为 0。这样做的好处是可以将分类数据转化为数值数据,方便模型处理。 #...
9.3k words 8 mins.

# 矩阵求导的书 matrix.cookbook # 线性模型 分为训练集(x,y)(x,y)(x,y) 和测试集(x,?)(x,?)(x,?) # 损失函数 loss=(y^−y)2=(x∗ω−y)2loss=(\hat{y}-y)^2=(x*\omega-y)^2 loss=(y^​−y)2=(x∗ω−y)2 # Mean Square Error...