kissg Blog

勤耕不辍.

Papernotes

Attention is All You Need

https://papers.nips.cc/paper/7181-attention-is-all-you-need.pdf TL;DR 本文提出了基于 Attention Mechanism, 而完全不使用 RNN 或 CNN 的 Sequence Transduction (Seq2seq) 模型 Transformer. 其采用 Self Attention 来学习序列的表示, ...

Papernotes

A Structured Self-attentive Sentence Embedding

论文地址: https://arxiv.org/abs/1703.03130 TL;DR 本文提出了一种基于 self-attention 学习 sentence embedding 的监督学习方法. 使用 matrix 来表示 sentence embedding, 保留了句子的多种特征, 一个行向量表示一种特征. 为缓解行向量的冗余问题 (即行向量之间太相似, 只学到重复特征), 文...

Papernotes

Hierarchical Attention Networks for Document Classification

论文地址: https://www.cs.cmu.edu/~./hovy/papers/16HLT-hierarchical-attention-networks.pdf TL;DR 本文将 attention mechanism 引入 document classification 任务, 根据文档的分层特点 (word, sentence, document), 提出了 hierar...

Papernotes

Effective Approaches to Attention-based Neural Machine Translation

论文地址: http://aclweb.org/anthology/D15-1166 TL;DR 本文对 attention model 进行了研究, 提出了 2 类 attention model: global attention 和 local attention 和 3 种 alignment function. 顾名思义, global attention 考虑 source ...

Papernotes

Neural Machine Translation by Jointly Learning to Align and Translate

论文地址: https://arxiv.org/abs/1409.0473) TL;DR 本文是将 注意力机制 Attention Mechanism 引入机器翻译的第一文, 文中称为对齐 Alignment. 在编码器 encoder 与解码器 decoder 之间增加了一个 alignment model, 使得翻译不再是将 source 编码成固定长度的向量再解码成 target,...

论文笔记 4

Word Embeddings 炒冷饭

Efficient Estimation of Word Representations in Vector Space 本文是 word2vec 的第一篇, 提出了大名鼎鼎的 CBOW 和 Skip-gram 两大模型. 由于成文较早, 本文使用的一些术语有一些不同于现在的叫法, 我都替换为了现在的叫法. CBOW 的架构如下所示. 与作者提到的 feedforward NN...

[译记]Word Embeddings 2

Softmax s

本文与上一篇的笔记师出同源, 主要讲 Softmax, 单独拎出来. softmax 的高计算开销在于需要计算 hidden state h 和所有单词的 output word embeddings 的内积, 求和作为分母. Hierarchical Softmax Hierarchical softmax, 分层 Softmax, H-Softmax 受二叉树...

[译记]Word Embeddings

从 0 到 1

在做一个课程作业, 看了一些 Word Embeddings 相关的论文和博客. 以下内容基本上是看博客的时候摘译的, 写得很好, 恨不得全翻了. 论文笔记反正已经欠了一屁股了:( Brief history Bengio 2003 年的文章发明了 word embeddings 一词, 此时 word embedding 和模型参数一起训练 Collobert 200...

论文笔记3

AAE, ALI, BiGAN

这是上周的笔记, 笔记本摔了, 送去修了整一个星期. 这周的笔记, 以后慢慢补吧. :) TL;DR Adversarial Autoencoders 结合 GAN 与 VAE, 提出了对抗自编码器 AAE, 执行变分推断 Variational Inference 来匹配自编码器的潜变量的后验分布与任意的潜变量先验分布. 该匹配过程保证了从先验空间的任意部分都能生成有意义的结果...

Mendeley, 文献管理小助手

Mendeley简易使用指南

本周邂逅了一款文献管理软件——Mendeley,玩了一天,甚得我心,推荐给大家。以下是我写的使用指南,基本涵盖了Mendeley文献管理的所有功能。 我使用的操作系统是Ubuntu,一款Linux发行版。其实我最初听说的是Endnote,但它并没有提供Linux版本。为了能方便地进行文献管理,不必开一个虚拟机或者重启Windows系统(双系统),我选择了提供全平台支持(Window...