Skip to content

Commit bb1e571

Browse files
committed
fix issue in comment #264 (comment)
1 parent 102fcd9 commit bb1e571

File tree

2 files changed

+4
-8
lines changed

2 files changed

+4
-8
lines changed

docs/06-Kernel-Smoothing-Methods/6.4-Structured-Local-Regression-Models-in-Rp.md

Lines changed: 0 additions & 2 deletions
Original file line numberDiff line numberDiff line change
@@ -5,8 +5,6 @@
55
| 翻译 | szcf-weiya |
66
| 发布 | 2016-09-30 |
77
| 更新|{{ git_revision_date }}|
8-
| 状态| Done|
9-
108

119
当维度与样本大小的比率不是很好,则局部回归对我们没有太大帮助,除非我们想要对模型做出一些结构化的假设.这本书的很多部分是关于结构化回归和分类模型的.这里我们关注一些与核方法直接相关的方法.
1210

docs/06-Kernel-Smoothing-Methods/6.7-Radial-Basis-Functions-and-Kernels.md

Lines changed: 4 additions & 6 deletions
Original file line numberDiff line numberDiff line change
@@ -5,8 +5,6 @@
55
| 翻译 | szcf-weiya |
66
| 发布 | 2017-03-09 |
77
| 更新 | {{ git_revision_date }} |
8-
| 状态 | Done|
9-
108

119
在第五章中,函数表示成基函数展开的形式:$f(x)=\sum_{j=1}^M\beta_jh_j(x)$.使用基函数展开进行灵活建模的技术有两部分构成,首先需要选取合适的基函数族,然后通过选择、正则化、或者两者都有的方法来控制表达式的复杂度.有些基函数族的元素是局部定义的,比如,B 样条在 $\IR$ 中局部定义.如果在特定区域中需要更多的灵活性,这个区域则需要用更多的基函数来表示(对于 B 样条,也就是需要更多结点).$\IR$ 局部基函数的张量积构成了 $\IR^p$ 中的局部基函数.不是所有的基函数都是局部的——举个例子,对于样条的截断幂基,或者在神经网络中使用的 S 型基函数 $\sigma(\alpha_0+\alpha x)$(见 [第 11 章](../11-Neural-Networks/11.1-Introduction/index.html)).虽然如此,复合函数 $f(x)$ 也可以显示出局部行为,因为参数的特定符号和值造成全局影响的抵消.举个例子,对于同样的函数空间截断幂基有等价的 B 样条基;这种情况下恰恰就是因为抵消.
1210

@@ -33,12 +31,12 @@ $$
3331
\underset{\{\lambda_j,\xi_j,\beta_j\}_1^M}{\min}\sum\limits_{i=1}^N\left(y_i-\beta_0-\sum\limits_{j=1}^M\beta_j\exp\left\{-\frac{(x_i-\xi_j)^T(x_i-\xi_j)}{\lambda_j^2}\right\}\right)^2\tag{6.29}
3432
$$
3533

36-
​这个模型一般称为 RBF 网络,这是 S 型神经网络的替代选择,将在 [第 11 章](../11-Neural-Networks/11.1-Introduction/index.html) 讨论;$\xi_j$ 和 $\lambda_j$ 在参数中有重要作用.这个准则是有着多重局部最小点的非凸函数,并且优化的算法类似神经网络中的算法.
34+
​这个模型一般称为 RBF 网络,这是 S 型神经网络的替代选择,将在 [第 11 章](../11-Neural-Networks/11.1-Introduction/index.html) 讨论;$\xi_j$ 和 $\lambda_j$ 起到权重的作用.这个准则是有着多重局部最小点的非凸函数,并且优化的算法类似神经网络中的算法.
3735

38-
- 分开估计 $\\{\lambda_j,\xi_j\\}$ 和 $\beta_j$.给定前者,后者的估计是简单的最小二乘问题.通常单独用 $X$ 的分布,以非监督的方式选择核参数 $\lambda_j$ 和 $\xi_j$.其中一种方式是在给定中心 $\xi_j$ 和缩放 $\lambda_j$ 时,对训练 $x_i$ 拟合高斯混合密度模型.一种特别的方式是使用聚类方法来确定原型 $\xi_j$,并且将 $\lambda_j=\lambda$ 看成是超参数.这些方式的显然缺点是条件分布 $\Pr(Y\mid X)$ 以及 $\E(Y\mid X)$ 对于 where the action is concentrated 是不起作用的.不过它们的优点是,可以更简单地实现.
36+
- 分开估计 $\\{\lambda_j,\xi_j\\}$ 和 $\beta_j$.给定前者,后者的估计是简单的最小二乘问题.通常单独用 $X$ 的分布,以非监督的方式选择核参数 $\lambda_j$ 和 $\xi_j$.其中一种方式是对训练 $x_i$ 拟合高斯混合密度模型,这样可以得到中心 $\xi_j$ 和缩放 $\lambda_j$.其它更**临时 (adhoc)** 的方式是使用聚类方法来确定原型 $\xi_j$,并且将 $\lambda_j=\lambda$ 看成是超参数.这些方式的显然缺点是条件分布 $\Pr(Y\mid X)$ 以及 $\E(Y\mid X)$ 在决定“主要作用集中在哪儿 (where the action is concentrated)” 时没有任何发言权.不过它们的优点是,可以更简单地实现.
3937

40-
!!! question "weiya 注:翻译相关"
41-
原文的 **不起作用 (having no say)** 后面用 "in where the action is concentrated" 进行了修饰,但是不太清楚 "action" 是指什么,以及修饰语想表达什么?
38+
!!! note "weiya 注:"
39+
因为这些方式只用到 $X$ 的信息来决定 $\lambda_j$ 和 $\xi_j$,所以最后说它们的缺点是没有用到 $Y$ 的信息。
4240

4341
![](../img/06/fig6.16.png)
4442

0 commit comments

Comments
 (0)