正则化(机器学习中的正则化有什么用)

1. 正则化，机器学习中的正则化有什么用？

机器学习中我们常常会看到正则化（Regularization），正则化其实是一类方法的统称。其目的就是为了让模型具有更好的泛化能力，也就是为了防止出现过拟合。那么什么是模型的过拟合呢？

这里举个栗子，还有一个月就要数学期末考试了，有三个学生A、B、C开始复习备战。其中学生A理解能力差一些，做一道题要费好多时间，虽然复习了一个月下来，但是一些知识点还是似懂非懂；学生B，很机灵，他找人要来往年的试题，一道一道开始背题目和解决方法；学生C十分聪明，他在复习的时候把所有的考点全部都弄懂了。最后考试成绩出来了学生A得60分；学生B得65分；学生C得90分。那么在这里我们就说学生A是欠拟合；学生B就是过拟合；学生C则是相对好的模型。

在机器学习中，过拟合的出现主要是由于在训练时容易只对训练数据产生适配性，也就是在训练数据上效果特别好，而在测试集上则效果很差。过拟合现象产生的原因有很多，比如模型的复杂度过高、数据量偏少等。那么正则化就是为了解决过拟合的一类方法的统称。

1）在损失函数中加入正则化项

常见的有L1，也就是将模型中的参数的绝对值加入到最小化的损失函数中。

L2则是将参数的平方项加入到损失函数中。目的都是为了将模型中的参数值尽可能的减小，甚至到零（参数值为0说明参数就没有用）。从而减少了模型中的参数，这样就能够降低模型的复杂度。

2）数据增强

解决过拟合最直接的方法就是增加数据量。通过对大量数据的学习就能避免模型学的过于片面，增加模型的“阅历”，提高泛化能力。在上述栗子中，如果让学生B背大量的数学题，那么也许在背诵记忆的过程中，也能掌握真正的知识。

3）集成学习

训练多个不同的子模型，然后将所有模型的结果进行平均，得到最终的输出。结合多个模型就能够显著降低泛化误差，就是集成学习。但是这种方法要求模型的误差不能过高且要模型之间尽可能的不同，即保证在训练数据或者模型结构上要有所差异。

4）早停

这是在训练过程中，减少模型的训练时间，让其提前停止。从而防止模型进一步的发生过拟合。

5） Dropout

在深度神经网络中，每一层之间往往会有大量的连接权值，这就会产生许多的参数，从而使得模型易过拟合。Dropout就是按比例的随机断开某些神经元之间的连接，从而达到减少参数的目的。

正则化(机器学习中的正则化有什么用)

2. Python正则化匹配html网页尖括号？

正确的html闭标签里，是以/开头的，所以网页的源代码不可能是，小小少年lala\r\n\t里的前三个\是为了在字符串里显示“和/而已，并不是字符串的内容。

网页应该是

小小少年lala\r\n\t

你的正则应该用

p=re.compile('(.*)')

3. 正则化的定义是什么？

1. 正则化是一种在机器学习中用于防止过拟合的技术。2. 过拟合是指模型在训练集上表现良好，但在测试集上表现不佳的现象。正则化通过在损失函数中加入一个正则化项，惩罚模型复杂度，从而使模型更加简单，减少过拟合的风险。3. 正则化的常见形式包括L1正则化和L2正则化。L1正则化通过在损失函数中加入模型参数的绝对值之和，使得一些参数变为0，从而实现特征选择的效果。L2正则化通过在损失函数中加入模型参数的平方和，使得模型参数更加平滑，从而减少过拟合的风险。

4. 机器学习中常常提到的正则化到底是什么意思？

简单来说，机器学习是根据样本数据训练出一个模型，然后再用这个模型来计算测试数据的输出值。由于样本数据多少会有误差，因此训练出来的模型容易出现“过拟合”的情况（即模型和样本数据几乎完全匹配，但却并不是实际的模型）。正则化就是为了解决“过拟合”的问题，使模型更接近于真实情况，防止被错误的样本数据“带偏了”。

上图中，图1属于欠拟合（一般是因为样本数据太少），图2就是过拟合，虽然完全匹配了样本数据，但是模型太复杂太奇怪明显脱离实际。图3是加入了正则化之后接近真实模型的结果。