昨晚我在斯坦福斗图输给了两个学生,他们用深度神经网络生成表情,他们发图很快
chanong
|雷锋网AI技术综述注:斯坦福大学的两位学生Abel L Peirson V和Meltem Tolunay提出了CS224n高级论文——(正确阅读)关于使用深度神经网络生成表情符号。论文的主要内容是根据图像内容生成相关描述(投诉)。这篇论文可能不像其他论文那么严肃,但是想法非常清晰,并且论文和代码都是公开的。雷锋网AI技术评论也简要介绍了论文内容。
概括
两位同学Abel 和Meltem 开发了一种新的表情包生成系统,可以自动为图像添加相应的文本(表情符号)。此外,该系统还可以应用于用户定义的标签,使用户可以轻松地根据图像内容(表情符号)对图像进行分类。该系统首先使用预训练的Inception-v3 网络生成图像嵌入,然后将其传递到基于深度注意力的LSTM 模型以生成最终注释。这种方法受到著名的SHowTell模型的启发,我们还稍微修改了聚类搜索算法,以保证单词匹配的多样性(犯罪克星吴英兄弟+单词匹配)。使用混淆评估和人工评估来评估模型,两个主要评估指标是生成表情符号的质量以及假表情符号是否与真实表情混淆。
介绍
每种文化中流行的模因代表了想法或行为风格(抱怨),通常旨在表达特定的现象、主题或意义(社会角色?)。
表情符号无处不在,语言和风格也在不断变化(老派网红)。表情符号的来源多种多样,而且其格式也在不断演变。最初,模因只是利用文化(尤其是亚文化)主题传播幽默的媒介。然而,模因也可以用来宣扬政治理想、传播共鸣、为少数群体发声。表情符号是这一代人独特的交流方式,并真正塑造了这一代人。当前人工智能快速发展,迫切需要新的挑战。我选择这个项目是因为表情符号高度相关并且需要深入理解(认真地)。
并不是每个人都能轻松地使用深度学**生成表情符号,对于这个任务,上图中的效果,只需在图像上添加标题就足够了。这种方式大大简化了数据收集的问题和困难(乛v乛)。本文的主要任务是为可用作模板表情符号的照片生成相关且幽默的标题。他们应用了现有的图像注释编码和解码系统,从CNN 图像嵌入阶段开始,并使用LSTM-RNN 生成文本。我们还测试了各种LSTM 模型并评估了它们的性能。
自动评估生成的模因的质量是很困难的。他们使用混乱程度作为评估和调整模型的指标。这与BLEU(双语评估学生)分数高度相关。定量评估由人类测试人员完成。需要人类测试人员来识别表情包是否生成,或者对表情包的乐趣进行评分,但归根结底,表情包的灵魂是乐趣。
背景相关工作
1. 图像标注模型
《Show and tell: A neural image caption generator》(https://arxiv.org/abs/1411.4555)本文作者介绍的图像标注模型是表情生成模型的大腿部分。最近对该模型的改进通过使用双向LSTM 和注意力机制得到了显着改进。不过,这些模型基本不用于“幽默标注”。 StyleNet 的努力也取得了有限的成功,但该模型为作者的项目提供了弹药。
2.RNN用于语言建模
RNN 及其变体模型最近在语言建模和机器翻译的NLP 任务中取得了最好的结果。 LSTM 特别好,因为它使用“门控机制”来长期存储数据。两位作者使用的LSTM单元基于以下公式进行运算:
其中f是遗忘门,i是输入门,o是输出门,m是记忆输出,W是可训练矩阵。单词预测是通过softmax 层执行的,该层输出词汇表中每个单词的概率分布。
3.预训练的GloVe向量
使用向量嵌入表示单词是许多NLP 任务中捕获语义相似性的重要手段。他们的项目中使用的向量嵌入来自文章《Glove: Global vectors for word representation》 (http://www.aclweb.org/anthology/D/D14/D14-1162.pdf)。
4.RNN注意力机制
对于语言建模、文本生成、机器翻译等连续NLP 任务,注意力机制解决了固定长度向量不适合长序列的问题。两位作者构建的模型的一个变体使用Luong 等人的注意力模型(https://arxiv.org/abs/1508.04025)。
具体方法
1. 数据库
他们的数据集包含400,000 张图像,他们编写了自己的Python 代码从http://www.memegenerator.net/爬取这些图像。在正式训练之前,作者还对数据进行了预处理,其中注释中的每个单词都被缩减以匹配GloVe 格式,并且标点符号也进行了处理。
2. 型号变化
编码器:编码器的作用是给解码器一个存在的理由。两名学生为这个项目创建了三个模型变体(这很棒)。第一个学生忽略了标签,第二个学生添加了标签,第三个学生在第二个学生的基础上添加了注意力机制。
解码器:解码器由根据上述方程运行的单向LSTM 网络组成。每个LSTM 单元都重复使用模型中的变量。解码器的目的是接管编码器的故障。上述三个变体中的前两个可以使用相同的解码器来解决,但后一个版本的作者没有提及如何解决。
推理和波束搜索:作者发现标准的基于波束搜索的推理算法在他们的应用中非常有效,因此他们决定使用该算法,为了保证算法的准确性,他们还在生成的表情符号中添加了温度函数。
实验
1. 培训
非常稳定(省略了一些操作)。
2.结果评价
没关系(呵呵,我将跳过任何进一步的步骤)。
让我们看一下生成的一些表达式
(还不错,包括单曲最后的爆击……)
摘要本文展示了如何使用神经网络模型向图像添加文字并生成表情符号。 Abel 和Meltem 还开发了多种模型变体,有标记的和无标记的(含),他们还提供了微调的LSTM 模型,也算是对语言建模的一个小小的贡献(中等)。最终测试表明,生成的表情符号与人类创建的表情符号不容易区分(至少我是这么认为的)。
两位学生认为,这个项目和其他类似的语言建模任务中最大的挑战是理解不同人和文化的模因。他们将继续竭尽全力。还有最后一个问题。该数据集包括偏见、种族主义、性别歧视等。他们也会在今后的研究中注意解决这个问题。
以上是雷锋网全部内容。
论文地址:https://arxiv.org/abs/1806.04510








