线性模型

发表于 2018-05-07 | 阅读次数:

线性模型

线性回归模型和LR模型

最大似然估计

发表于 2018-05-07 | 阅读次数:

最大似然估计

最大似然估计就是找到一组参数，使得“事情发生的概率最大”

最大似然估计可以转化成对数形式的最大似然估计。而对数似然估计函数其实就是交叉熵！

阅读全文 »

概率论和数理统计

发表于 2018-05-07 | 阅读次数:

本节内容会摘录下自己想要了解的概率论知识。

概率事件和概率

古典型概率

古典型概率的基本事件为n，事件A包含k个基本事件，则A的概率定义为：
$$ P(A) = \frac{k}{n} $$

阅读全文 »

deeplearning笔记-chapter3

发表于 2018-05-07 | 阅读次数:

chapter3 概率和信息论

为什么需要概率论？

概率法则告诉AI系统如何进行推理
可以使用概率论和统计从理论上分析AI系统

随机变量

阅读全文 »

位运算

发表于 2018-05-05 | 阅读次数:

总结下位运算的相关内容

并 A|B
交 A&B
减法 A&~B(即是求解A中不包括B的部分)
求反 ~A
设置某一位为1 A |= 1 << n
清除其他位为0：A &= ~(1 << n)
测试第n位是否为0：A &(1 << n) == 0
抽取最后一位 A & -A or A&~(A-1)
移除最后一位 A&(A-1)
阅读全文 »

deeplearning笔记-chapter2

发表于 2018-05-05 | 阅读次数:

第二章：线性代数

概念

标量
向量
矩阵：二维数组
张量：超过二维的数组
转置

在运算中，我们允许矩阵和向量相加，这种是隐式的复制向量b到很多位置，以满足相加的条件的方式，叫做广播

矩阵相乘

很了解，忽略不看了。

单位矩阵和逆矩阵

线性相关和生成子空间

子空间是指原始数据线性组合能达到的点的集合

特征分解

将矩阵分解成一组特征向量和特征值的形式。
特征向量定义为：
$$Av=\lambda v$$
标量$\lambda$称为特征值。
矩阵的特征分解可以记做：
$$A=Vdiag(\lambda) V^{-1}$$

正定矩阵：所有的特征值都是正的
负定矩阵：特征值都是负的
半正定矩阵：特征是都是非负的
半负定矩阵：特征值都是非正的

奇异值分解

$$ A=UDV^{T}$$
矩阵U，V都是正交矩阵，D是对角矩阵

我们可以从特征分解的角度理解SVD

A的左奇异值向量是$AA^T$的特征向量

A的右奇异值是$A^TA$的特征向量

deeplearning笔记-chapter1

发表于 2018-05-05 | 阅读次数:

第一章引言

如何去理解深度学习？

深度学习通过让计算机从经验中（数据）学习，并根据层次化的概念去理解世界。
目的是从原始数据中抽取出高层次、抽象的特征。

让计算机从经验中学习获取知识，避免了由人类给计算机形式化指定他所需要的所有知识。
层次化的概念可以让计算机通过构造简单的概念来学习复杂的概念。这些概念概念可以建立一张很深的图（层次很多）。

所以，才有了深度学习

阅读全文 »

深度学习文本匹配综述

发表于 2018-05-04 | 阅读次数:

介绍

最近想参加下蚂蚁金服的语义相似度匹配的比赛，看下一篇综述性质的文章，了解下深度学习是如何应用到这个领域的。
http://cjc.ict.ac.cn/online/onlinepaper/pl-201745181647.pdf

阅读全文 »

面试心得

发表于 2018-05-04 | 阅读次数:

最近活的相当郁闷，不断接到面试被拒的通知。每场面试都是自我感觉良好，可见，确实是自己的水平确实是有待加强。
前两天，老朱帮我提出了简历上的建议，才发现自己简历做的太不认真了，重点的知识点都没有突出，没法给人好的印象。这算是一方面吧，自己确实有点菜，不然也不会面了这么多家公司，全被拒了。
剩下的时间，好好看书，好好写论文，写专利，秋招翻身

正则化方法

发表于 2018-05-03 | 阅读次数:

正则化方法

正则化是对学习算法进行修改，目的是为了减少泛化误差而不是训练误差。利用偏差的增加换取方差的减少。

参数的范数惩罚

L2参数正则化

经过求解梯度后发现，L2正则每次更新权值，都是对权值乘以一个1-a的系数，所以，也叫做权重衰减。
所以，L2正则会得到很多很小的权值。

L1参数正则化

求解梯度后，可以发现，L1正则每次更新权值，都是对权值增加或者减少固定值a，不再是线性的缩小。这样的结果是有很多不重要特征的权值会直接所见到0. 产生稀疏解。
作为约束的范数惩罚

通过一些显示的约束对模型进行正则化。

比如在树模型中，我们会对每棵树的节点数，深度等进行约束显示。
数据集增强

通过增加数据集，减少噪声数据的影响，从而可以提高模型的泛化能力。

噪声鲁棒性

对数据集通过注入噪声的方法，这个可以作为一种数据集增强的方法
提前终止

DL这本书中说的是提前终止的效果等价于L2正则化。
可以将优化的参数空间限制在初始参数值的小领域中，不让他发生太多变化。

Dropout

提供一种廉价的近似Bagging的集成方法来防止出现过拟合。

对抗训练

gjwei

GitHub E-Mail

线性模型

线性回归模型和LR模型

最大似然估计

概率事件和概率

chapter3 概率和信息论

为什么需要概率论？

随机变量

总结下位运算的相关内容

第二章：线性代数

概念

矩阵相乘

单位矩阵和逆矩阵

线性相关和生成子空间

特征分解

奇异值分解

第一章引言

如何去理解深度学习？

介绍

正则化方法

参数的范数惩罚

L2参数正则化

L1参数正则化

通过一些显示的约束对模型进行正则化。

噪声鲁棒性

提前终止

Dropout

对抗训练

最大似然估计

线性相关和生成子空间