对每个样本,若真实标签 y∈0,1,预测概率为 p=σ(z)(z 是 logit),交叉熵衡量预测分布与真实分布的差异:预测越接近真实,损失越小。 \begin{bmatrix} y\log p+(1-y)\log(1-p) \end{bmatrix}$$