gjwei


  • 首页

  • 标签

  • 分类

  • 归档

  • 搜索

深度学习岗位面试问题整理笔记

发表于 2018-05-12 | 阅读次数:

最近在看知乎,看到有些内容挺好的,摘录一下
原文链接:https://zhuanlan.zhihu.com/p/25005808

https://medium.com/@karpathy/yes-you-should-understand-backprop-e2f06eab496b

SGD中的S(stochastic)代表什么

随机啊,还能代表什么?

It is called stochastic because each small set of examples gives a noisy estimate of the average gradient over all examples.

它被称为随机因为每个小例子集都给出了所有例子中平均梯度的有噪音的估计。

阅读全文 »

deeplearning笔记-chapter7-深度学习中的正则化

发表于 2018-05-12 | 阅读次数:

正则化可以定义为:对学习算法进行修改,目的是减少泛化误差而不是训练误差。

参数范数惩罚


我们通常是只对权重进行惩罚,而不对偏置进行惩罚。精确拟合偏置所需要的数据要少于拟合权重的数据。

正则化偏置可能会导致明显的欠拟合情况。

L2正则化

权重衰减

权重衰减过程中,每个权值的衰减方向是指向0的方向,而步长是和w大小成正比,所以,权值会朝着0衰减,但是步长会越来越慢,最终达到0的附近。

L1正则化


L1正则化产生系数解。
可以用作特征选择。

作为约束的范数惩罚

通过直接给模型的参数设置越是来进行正则化。

数据增强

  • 图像进行翻转,平移等
  • 为输入层注入噪音

噪音鲁棒性

一种方法是添加方差极小的噪音,这等价于对权重事实范数惩罚。

另一种使用方法是将噪音增加到权重。主要是用于RNN网络中。

对输入label添加噪音

大多数数据集的label都会有一定的错误。错误的label将会误导系统,所以,可以通过对label增加噪音降低错误label的影响。

标签平滑的方法:将分类目标中的0和1分别替换成$\frac{\theta}{k - 1}$和$1 - \theta$

多任务学习方法

Early Stop

提前终止等价于L2正则化

参数绑定和参数共享

Bagging和其他集成方法

通过结合几个模型降低泛化误差。一般采用模型平均的方法。
Bagging方法的原理是,通过平均多个高方差低偏差的模型的结果,可以显著的降低总和结果的方差,而不会改变模型的偏差。

这是方差的公式决定的。

Dropout

提供一种廉价的bagging集成近似,能够训练和评估指数级数量的神经网络

对抗训练

对抗样本产生的原因是过度线性。

deeplearning笔记-chapter6-前馈网络

发表于 2018-05-12 | 阅读次数:

第六章:深度前馈网络

也叫做多层感知器,是最典型的深度网络。

我们先从线性模型开始。

线性模型有着明显的缺陷,他的模型能力被限制在线性函数中,无法解释任何两个输入变量间的相互作用。
为了拓展线性模型表示非线性函数,可以讲输入x进行非线性的变化$\phi (x)$

阅读全文 »

acl2018 Chinese NER Using Lattice(网格)LSTM

发表于 2018-05-11 | 阅读次数:

摘要部分

论文采用一种网格结构的LSTM模型,用来做汉语的NER,这个模型能够编码一串输入的字(characters),同时还有所有可能的words,用来匹配一个字典。

阅读全文 »

文本分类中的特征选择和权重计算研究-读博士论文笔记

发表于 2018-05-10 | 阅读次数:

第一章 引言

研究现状

文本分类的步骤

  1. 建立数据集和预处理
  • 收集文本,标注类别,去除非文本内容、编码转换和处理乱码
  • 保留词干(steamming)或者回复原型(lemmatize)处理stopwords
  • 切分训练集和测试集
    阅读全文 »

条件随机场(转载)

发表于 2018-05-09 | 阅读次数:

转载链接:https://zhuanlan.zhihu.com/p/25558273

词性标注任务

词性标注(POS Tagging)的目标是使用类似ADJECTIVE, NOUN, PREPOSITION, VERB, ADVERB, ARTICLE的标签对句子(一连串的词或短语)进行打签。

阅读全文 »

序列标注模型

发表于 2018-05-09 | 阅读次数:

序列标注模型

输出是一个结构化的标签序列,通常,标签之间是相互联系的,构成了标签的结构信息。利用这些结构信息,可以达到比传统分类方法更高的性能。所以,序列标注问题不是一个传统的分类问题,而是一个复杂的结构化机器学习问题。

阅读全文 »

deeplearning笔记-chapter5

发表于 2018-05-08 | 阅读次数:

机器学习基础

机器学习:对于某类任务T,和性能度量P,一个计算机课程可以认为从经验E中学习是指,经过经验E改进之后,它在renwuT上由性能度量P衡量的性能有所提升。

阅读全文 »

deep learning 第四章:数值计算

发表于 2018-05-08 | 阅读次数:

数值计算

上溢出和下溢出

典型的例子:softmax
如果发生上溢出,会具有毁灭性的,所以,在进行运算的时候,会减去向量中的最大值。

1
2
3
def softmax(a):
a_max = np.max(a)
return np.exp(a - a_max) / np.sum(np.exp(a - a_max))
阅读全文 »

概率题

发表于 2018-05-08 | 阅读次数:

概率题

  1. 一个桶里面有白球、黑球各100个,现在按下述规则取球:
  • i 、每次从桶里面拿出来两个球;
  • ii、如果取出的是两个同色的求,就再放入一个黑球;
  • iii、如果取出的是两个异色的求,就再放入一个白球。
    问:最后桶里面只剩下一个黑球的概率是多少?
    答:
    动态规划,令f[i,j]表示有i个白球,j个黑球的概率。
    已知f[100,100] = 1/2, 求f[0,1]。
    拿到两个白球: f[i-2,j+1] = i/(i+j) (i-1)/(i+j-1) f[i,j] + f[i-2, j + 1]
    拿到两个黑球: f[i, j-1] = j/(i+j) (j-1)/(i+j-1) f[i,j] + f[i, j - 1]
    拿到一黑一白: f[i, j-1] =2 i/(i+j) j/(i+j-1) * f[i,j] + f[i, j - 1]
    阅读全文 »
1…3456
gjwei

gjwei

56 日志
18 标签
GitHub E-Mail
© 2019 gjwei
由 Hexo 强力驱动
|
主题 — NexT.Muse v5.1.4
访问人数 总访问量 次