语义相似度匹配模型-ESIM模型 语义相似度匹配模型-ESIM模型ESIM是一个综合运用了BiLSTM和注意力机制的模型,在文本匹配中效果很好。 文本匹配简单来说就是分析两个句子之间的关系,比如有一个问题,现在给出一个答案,我们就需要分析这个答案是否匹配这个问题,所以本质上就是一个分类问题。 模型结构 ESIM是左边的模型,主要分为三部分:Input Encoding、Local Inference Modeling、Infere 2021-04-10 NLP 文本匹配
BILSTM+CRF实现命名实体识别 BILSTM+CRF实现命名实体识别命名实体识别属于NLP中的序列任务,简单来说就是识别一句话中的人名、地名、时间等名词。 对于数据集,一般采用BIO标注法。其中BIO的三个标记为: (1)B-NP:名词短语的开头 (2)I-NP:名词短语的中间 (3)O:不是名词短语 模型架构 对于已经处理好的sequence,先进行word embedding,可以随机初始化,也可以用预训练模型初始化。 然 2021-04-10 NLP NER
Text-CNN Text-CNN一维卷积一维卷积通常有三种类型:full卷积、same卷积和valid卷积,下面以一个长度为5的一维张量I和长度为3的一维张量K(卷积核)为例,介绍这三种卷积的计算过程 一维Full卷积Full卷积的计算过程是:K沿着I顺序移动,每移动到一个固定位置,对应位置的值相乘再求和,计算过程如下: 将得到的值依次存入一维张量Cfull,该张量就是I和卷积核K的full卷积结果,其中K卷积 2021-01-29 NLP textcnn
RNN、LSTM及其变体 RNNRNN是一类用于处理序列数据的神经网络。序列数据就是后面的数据和前面的数据有关系的数据。 RNN的结构及变体神经网络包含输入层、隐藏层、输出层,通过激活函数控制输出,层与层之间通过权值连接。激活函数是事先确定好的,那么神经网络模型通过训练“学”到的东西就蕴含在“权值”中。 基础的神经网络只在层与层之间建立了权连接,RNN最大的不同之处就是在层之间的神经元之间也建立的权连接。如图。 这是一个 2021-01-23 神经网络 NLP RNN LSTM GRU
分词 分词分词就是把文本从字序列的表示升级为词序列表示的过程。对于中文来说,如果不进行分词,那么神经网络将直接基于原始的汉字序列进行处理和学习。然而我们知道一个字再不同的词语中可能含有不同的意思,因此我们需要分词来缓解这种一字多义的问题。 除此之外,从特征(feature)与NLP任务的角度来说,字相比词来说,是更原始和低级的特征,往往与任务目标的关联比较小;而到了词级别后,往往与任务目标能发生很强的关 2021-01-20 NLP 分词
关键字及基本数据类型 // 第一行的第三个单词必须和所在的文件名称完全一样,大小写也要一样 // public class后面代表定义一个类的名称,类是Java当中所有源代码的基本组织单位 public class HelloWorld{ //第二行是万年不变的固定写法,代表main方法 //这一行代表程序执行的起点 public static void main(String[] args){ 2021-01-19 JAVA JAVA
分布式词向量 word2vec一、简介 word2vec本质上是只具有一个隐含层的神经元网络。它的输入是采用One-Hot编码的词汇表向量,它的输出也是One-Hot编码的词汇表向量。使用语料来训练这个神经网络直到收敛,然后从输入层与隐藏层之间的权重就是每一个词的词向量。word2vec分为CBOW和Skip-Gram两种模型。CBOW模型的训练输入时某一个特征的上下文相关的词对应的词向量,而输出就是这特定的一 2021-01-19 NLP word2vec 词向量 fasttext clove
图 图图表示多对多地关系。包含 一组顶点:通常用V表示顶点集合。 一组边:通常用E表示边的集合。 边是顶点对:(v,w)∈E,其中v,w∈V 有向边表示从v指向w的边(单行线) 不考虑重边和自回路 常见术语图中所有路径都是右方向的称为无向图,有方向的称为有向图。 顶点的度指顶点相连接的边的条数。在有向图中,入度表示有多少条边指向这个顶点。出度表示有多少条边是以这个顶点为起点指向其他顶点。带权重 2020-10-17 数据结构 数据结构
哈夫曼树和哈夫曼编码 哈夫曼树带权路径长度(WPL):设二叉树有n个叶子结点,每个叶子结点带有权值wk,从根结点到每个叶子结点的长度为lk,则每个叶子结点的带权路径长度之和就是每个的路径和权重相乘之和。 最优化二叉树或哈夫曼树:wpl最小二叉树。 哈夫曼树的构造每次把权值最小的两棵二叉树合并。 typedef struct TreeNode *HuffmanTree; struct TreeNode{ 2020-10-11 数据结构 数据结构
树和堆 树树是由n个结点构成的有限集合。当n=0时称为空树。 对于任一棵非空树,树中有一个称为“根(root)”的特殊结点,用r表示。其余结点可以分为m个互不相交的有限集,其中每个集合本身又是一棵树,称为原来树的子树。子树是不相交的,除了根结点外,每个结点有且仅有一个父结点,一棵N个结点的树有N-1条边。 二叉树的定义:一个有穷的结点集合。这个集合可以为空。若不为空,则它是由根结点和称为其左子树和右子 2020-10-10 数据结构 数据结构