My dream
I hope that every year I can do gradient descent in my life.
自然语言处理——语言模型 自然语言处理——语言模型
语音识别系统的目的,是把语音转换成文字。具体来说,是输入一段语音信号,要找一个文字序列(由词或字组成),使得它与语音信号的匹配程度最高。这个匹配程度,一般是用概率表示的。用$X$表示语音信号,$W$表示文字序列,则要求解的是下面这个问题:
2023-02-22
Tokenization for NLP Tokenization for NLP
Tokenization的目地是将输入文本分割成一个个token,和词典配合以让机器认识文本。它的难点在于如何获得理想的切分,使文本中所有的token都具有正确的表义,并且不会存在OOV问题。 词粒度词粒度的切分就跟人类平时理解文本原理一
2022-11-05
Deep Learning Systems课程笔记(2) Deep Learning Systems课程笔记(2)
感知机感知机是一个线性分类模型,属于判别模型,因为模型关心的是对给定的输入X,应该预测什么样的输出Y,与生成模型的不同在于不需要先学习出联合分布P(X,Y)。 感知机的输入输出都是二进制的,多个输入一个输出。 其中神经元内的计算如下:
快速幂及应用 快速幂及应用
幂运算(英语:exponentiation),又称指数运算,是数学运算,表达式为$b^n$,读作“b的n次方”或“b的n次幂”。其中, b称为底数,而n称为指数,通常指数写成上标,放在底数的右边。如果指数很大,通常幂运算的结果都特别大,而且
2022-10-12
Deep Learning Systems课程笔记(1) Deep Learning Systems课程笔记(1)
首先介绍一下Softmax的公式: $a_i=\frac{e^{z_i}}{\sum_j^ne^{z_j}}$ 它接受一个向量(或者一组变量)作为输入,每个变量指数化后除以所有指数化变量之和,有点类似于对输入进行归一化,事实上它就叫做归
einsum函数 einsum函数
einsum全称Einstein summation convention(爱因斯坦求和约定),又称为爱因斯坦标记法,是爱因斯坦1916年提出的一种标记约定,简单的说就是省去求和式中的求和符号,例如下面的公式: $c=\sum_ia_ib
2022-10-10
DCNN论文解读 DCNN论文解读
IntroductionDCNN(Dynamic ConvolutionalNeural Network)是一种sentence mode,它的目的是分析和表示句子的语义内容,方便NLP中分类或生成任务。 作者通过四个实验对DCNN进行了
2022-09-22
高斯过程 高斯过程
高斯过程(Gaussian process),简单的说,就是一系列关于连续域(时间或空间)的随机变量的联合,而且针对每一个时间或是空间点上的随机变量都是服从高斯分布的。 下图就是一个大概的高斯过程的步骤: 首先先设定均值,然后随机生成一些
2022-09-01
Word Embedding Download Word Embedding Download
Word2VectorChinese Word Vectors 中文词向量 英文词向量 FasttextFind more fasttext pretrained model at: fastText. 语言 文件名 zh
2022-08-16
梯度下降算法 梯度下降算法
梯度下降法作为机器学习中较常使用的优化算法,其有着3种不同的形式:批量梯度下降(Batch Gradient Descent)、随机梯度下降(Stochastic Gradient Descent)、小批量梯度下降(Mini-Batch G
2022-08-10
Bert Bert
BERT的全称是Bidirectional Encoder Representation from Transformers,即双向Transformer的Encoder,因为Decoder是不能获要预测的信息的。 模型的主要创新点都在pr
2022-07-29
NLP学习笔记3——Normalization NLP学习笔记3——Normalization
Normalization我们最希望输入网络模型中的数据具有什么样的特点? 回答是:“独立同分布”。 独立同分布的数据可以简化常规机器学习模型的训练、提升机器学习模型的预测能力,已经是一个共识。因此,在把数据喂给机器学习模型之前,“白化(w
2022-07-27
1 / 3