对每个样本,若真实标签 ,预测概率为 是 logit),交叉熵衡量预测分布与真实分布的差异:预测越接近真实,损失越小。

\begin{bmatrix} y\log p+(1-y)\log(1-p) \end{bmatrix}$$