非線形ロジスティック回帰モデルとしてのSVM
である。
kernelを使った非線形SVMを非線形のロジスティック回帰モデルと見なすと、出力確率は
と表される。
いま、必要な表式は
である。具体的に計算すると、
となる。
| 固定リンク | コメント (0) | トラックバック (0)
と表される。
いま、必要な表式は
である。具体的に計算すると、
となる。
| 固定リンク | コメント (0) | トラックバック (0)
L2正則化項付きlogistic regression modelのGICのバイアス項は
と表される。
それぞれR、Qの具体的表式
| 固定リンク | コメント (0) | トラックバック (0)
L2正則化項付きlogistic regressionの最適化問題は、次の目的関数を最小にする(ラグランジアンって言いたい。。)
ここで、は
最適化問題は勾配法で解くわけですが、その際の使用するgradは
と表される。
このL2正則化付きlogistic regression modelのGICは形式的には
で表される。R、Qは、Lから具体的な表式が得られる。
GICのバイアス補正項は、spin spin相関関数と同じような表式を示していて、ある種の相関関数であると思える。
| 固定リンク | コメント (0) | トラックバック (0)
影響関数の計算には分布の汎関数の変分を計算する必要がある
分布の変分
を考える必要があるが、これがどこに現れるか、分布がに変わった時に、学習アルゴリズム上で、どこに変更が加わるのか。
それは、損失関数の計算の部分に現れる。分布を経験分布だと考え、学習アルゴリズムで、損失関数を計算する部分の重み=準頻度の部分が変化させて、学習を実行、分布の汎関数である、モデル=重みベクトルの計算を実行する。
| 固定リンク | コメント (0) | トラックバック (0)
影響関数は次で定義される。
分布Gの汎関数Tの変分、微分してるだけ。
で、Gは経験分布だと思うと、
を小さい数として、実際に上を計算できる
| 固定リンク | コメント (0) | トラックバック (0)
logistic regressionのGICの計算には、影響関数の他に、log likelihoodのパラメータ偏微分したものが必要。
まず,ロジスティック回帰のモデルの式は、
log likelihoodは
そのパラメータ偏微分は
こいつと、影響関数を使って、GICの計算をする。
| 固定リンク | コメント (0) | トラックバック (0)
L1正則化項付きのlog linear modelの学習アルゴリズムとして、上記のOrthant-Wise Limited-memory Quasi-Newton algorithmがある。
L1正則化項付きなので、目的関数が微分可能ではなく、普通の無制約最適化問題の解法が使えない問題を解決したのが、MSのAndrew, Gaoによるこの解法アルゴリズムである。
http://research.microsoft.com/users/galena/
論文は、最適化問題の解法としてかなり、厳密に証明しているが、実は、微分不可能である点で、場合分けしてるにすぎないように思える。
まず、損失関数は、微分可能な凸(凹)関数として、正則化項はL1ノルムとすると、
両方とも、凸(凹)関数なので、目的関数は、凸(凹)で、大域最適解が存在する。
で、普通に、降下法を使う。この場合、limited memory BFGSで、降下方向を決める。
l BFGSの場合、各点の勾配を、補正して(目的関数を各点で2次関数近似して、その中心方向に進む)降下方向を決める。
降下方向が決まればのその方向で、直線探索して、次の点を決める。
これを順次行って、収束するまで、点を更新して、大域最適解を求める。
で、で、その補正された降下方向を決める際に、目的関数が微分不可能な点を含むので、普通の勾配を使うとだめ。
で、Andrew, Gaoは、微分不可能な点を考慮した、拡張された勾配として
を使った。これが、なんだか、わからんかったが、ただ単に、部分不可能な点(原点ね)で場合分けしたにすぎない。
原点では次の3種類しかない
1)

2)

3)

で、微分不可能でも、場合分けして、拡張された勾配方向、降下方向に進めばは、
大域最適解に収束する、理論上は。たぶん。
追記;
直線探索は、点が属している象限に限られることに注意。そこを越えたら、目的関数が、下がることが保証されない。
つまり、正から負、負から正へのアップデートは許さない。
| 固定リンク | コメント (0) | トラックバック (0)
しらんかった。
普通に、
http://d.hatena.ne.jp/cgi-bin/mimetex.cgi
で、mimetex.cgiが使える。まったく知らんかった。
これ使っていいんかな。使えるんだったら、自宅サーバーで、mimetex.cgiをサーブしてるのを、変えることができるし、深夜は、マシン落としてるので、深夜のmimetex.xvcd for xfy blog editorで、書いた数式入りブログは見えないのを
改修できるね。
まあ、本家でもいいだけど、本家遅いからな。
だまって、使うか。。。どうしよう。
| 固定リンク | コメント (0) | トラックバック (0)
おこがましいのですが、同じ事を考えていました。
けど、こんなに、きちんと議論を進めることはできなかったのですが。。。
|
http://www.cs.cmu.edu/~nips/NIPS2002/NIPS2002preproceedings/papers/revised/AA49-draft.pdf Critical Lines in Symmetry of Mixture Models ... Hierarchical Symmetry and Critical Lines ... [1] K. Fukumizu and S. Amari. ...
|
でここで、勉強。
まず、H componetの混合モデル
に対して、次のsymmetry assuptionを満たすモデルを考える。
(S-1)
(S-2)
(S-1)は、普通の混合モデルの性質、(S-2)も微分するだけ。
でも、この2つから、目的関数、この場合、尤度の1つコンポーネントが小さいモデルの臨界点が、1つ大きいモデルでも、臨界点になってるのがわかる。それも、
の任意の直線上で成立している。
なので、この直線の中点での臨界点の振る舞いを調べてる。
で、ヘシアンをきちんと計算して、モデルの量で定義して、
ヘシアンが正定値なら、極値、不定形なら鞍点としている。
で、鞍点ならば、尤度をあげる方向が存在して、その方向に摂動を加えて、
1つコンポーネント大きいモデルの尤度をあげることができる。
で、順々にsplitする EM with component splitingを提案している。
あー、これ考えたんだけどなー。Ueda et allの論文読めば普通、考えるよね。
その点の、この著者らも、偉い、名前だけで、相当偉いが、
Ueda et allを相当偉い。
そして、それに気づいた、私も偉い。。。。。。
はー。。。。
このページは xfy Blog Editor を利用して作成されました。
| 固定リンク | コメント (0) | トラックバック (0)
混合正規分布の密度関数は
で表される。
で、最尤推定で使われる、各パラメタの偏微分は
ここで、で、ここまでは、まあ簡単。の微分はちょっと面倒で
このページは xfy Blog Editor を利用して作成されました。
| 固定リンク | コメント (0) | トラックバック (0)
ディラックのデルタ関数の微分は
で、
だよね。だとすると
けど、ちがうんだな。どっかまちがってるだよな。。。
追記:
やっぱり、バカでした。分布関数は、単調増加関数で、最後は1になるから、
デルタ関数が分布関数になるわけないです。密度関数がデルタ関数でした。
ノーテーションにだまされました。ここでデルタって言ってるのは
階段関数、ヘビーサイドのやつだ。。。
数式ばかり追われて、だめだめでした。
T_mu(G)の計算で、それがわかるのに、適当にやってて気づかなかった。。。
われながら、あほだ。。。。
| 固定リンク | コメント (0) | トラックバック (0)
スピン系には、量子スピン系と古典スピン系がある。いちおう物理系、それも物性理論をかじっていたのでその違いは、形式的には理解しているつもりだが、本質的なところでどこが違うのだろう。
いま、ちょっと、物理じゃないところで、スピン系を考えてみたくなっていて、そこで本質的に量子スピン系がでてくると、どういうことがおこるのだろうと妄想している
例えば古典スピン系、Ising modelのハミルトニアンは
であらわされる。一応、強磁性で考えると、基底状態はオールアップかオールダウンの状態。
重ね合わせはなし。
で、量子スピン系、磁場なしのハイゼンベルグXXXモデルのハミルトニアンは
であらわされる。
で、量子系なので、ハミルトニアンはもうスカラーじゃなくて、行列。強磁性の場合は
基底状態はフェロ。
で、古典統計力学と量子統計力学の本質的な違いはなんだろうと、いまごろまた、勉強しなおそうと思っているところである。
系が混合、純粋かの違いか?そうすると、LDAみたいなのは、ベイズっぽいやつは
量子系の気がしてくる。さてどう考えて遊ぼうか
このページは xfy Blog Editor を利用して作成されました。
| 固定リンク | コメント (0) | トラックバック (0)
math mode(div)
text mode (span)
このページは xfy Blog Editor を利用して作成されました。
| 固定リンク | コメント (0) | トラックバック (0)
で
weight functionweight vector
weight vectorは、Gaudan modelのoff shell Bethe vectorの明示的表示になっており、qKZ方程式の場合も、Lie環に付随するspin chain Hamiltonianに対するBethe vectorの明示的公式から構成されると予想されている。
さらに、weight vectorはtree表示を持っており、qの場合も同様にtree 表示を持つと思われる。
これらは、超幾何関数のたちのよい多変数一般化とそのq analogと考えられている。
このページは xfy Blog Editor を利用して作成されました。
| 固定リンク | コメント (0) | トラックバック (0)
よって
したがって、
最後のは、e_1,,,,e_nが反可換なので、符号かけ、e_p * * * e_1となって行列式の定義に一致するから。
係数がちがっているとのこと、トップタームは、上の式は、h_n1-p、下の式は、h_n1_1,すべての行列要素の順番を入れ替えることで、(-1)^p(p-1)/2の係数がつくからかな。
このページは xfy Blog Editor を利用して作成されました。
| 固定リンク | コメント (0) | トラックバック (0)
ここで、h(x)は外場、もしくは訓練データのラベル、\phiは出力値のスカラー場
とすると
となってなんか、パターン認識の目的関数、正則化項 + 損失関数に似た形になる。
というか、同じなんだよ。損失関数=エネルギーだし、正則化項はスムースネスを計っていることになる。
同じフォーみゅレーションとして、MEと自由エネルギーとの関係もある。
つまり、パターン認識は、場の理論であり統計力学であるのです。それも、現実の次元4次元とか、10次元とか11次元とか12次元とか、それらのコンパクトフィケーションとか考えなくて、任意次元の場の理論を自由に考えていいのです。これは、好きな人にはたまりませんね。
理論物理のやり方、対称性とかから、ラグランジアンの形を推定して(モデルを推定)各物理量を計算して(計算機実験して)をモデルを確かめる。楽しそう。
このページは xfy Blog Editor を利用して作成されました。
| 固定リンク | コメント (0) | トラックバック (0)
このページは xfy Blog Editor を利用して作成されました。
| 固定リンク | コメント (0) | トラックバック (0)
where,
このページは xfy Blog Editor を利用して作成されました。
| 固定リンク | コメント (0) | トラックバック (0)
文書ベクトル d_i
とする。ここで、各x_jは、文書d_iの単語 jの出現頻度を表す。
文書、単語行列 Aは
となる。
これをSVDにかける
このページは xfy Blog Editor を利用して作成されました。
| 固定リンク | コメント (0) | トラックバック (0)
Mをm * n 行列として
Uは、m * m 対称行列、Vはn * n 行列
by wikipedia
NLPでは、文書 * 索引語 行列をSVDにかけて(Latent Sematic Indexing)で、意味の正規直行基底を得て、文書をその意味の基底を使って、線形表現する
このページは xfy Blog Editor を利用して作成されました。
| 固定リンク | コメント (0) | トラックバック (0)
これが、かの有名なYang-Baxter方程式 あれ、toggleしない。バグか
再度、windowsから投稿
うーん、macbookからだとだめか。。。
このページは xfy Blog Editor を利用して作成されました。
| 固定リンク | コメント (0) | トラックバック (0)
MIRA(Margin Infused Relax Algorithim)の主問題定式化です。
通常は、シングルベストのみを負例にして近似的に解きます。
以前、某所で行った勉強会でいろいろいばって話をしましたが、ほとんどうそでした。
幸い説明に使った絵は、厳密な解法アルゴリズムであるヒルドレス法にはなっていましたが、 MIRAは近似解法で厳密解に収束もしませんし、本当の意味での解法アルゴリズムではありません。パーセプトロンライクに変数の更新公式ですね。
MIRAとstructured outputs:気まぐれ日記
このページは xfy Blog Editor を利用して作成されました。
| 固定リンク | コメント (0) | トラックバック (0)
だったか?
数式のチェックなので、専門家の方、厳しいつっこみはなしの方向でお願いします。ここで、P(u)はDrinfeld多項式ってやつ?こいうのうは、きれいに整備して、普通の数学になってんかな。
このページは xfy Blog Editor を利用して作成されました。
| 固定リンク | コメント (0) | トラックバック (0)
最近のコメント