統計学

確率変数の比の分布における平均と分散をデルタ法で求める

この記事は何? そもそもデルタ法とは 2変数のデルタ法 確率変数の比の分布における平均と分散 その他 参考 この記事は何? Yandexが出したA/Bテストに関する論文 (R. Budylin, WSDM 2018) を眺めていたら、以下のような式が出てきました。 この式は、確率変…

対応のないt検定における正規性の仮定とサンプルサイズ

この記事は何? false positive rateの確認 まとめ この記事は何? 2つの母平均の差の検定を行うとき、まずは対応のないt検定(unpaired t-test)を考えると思います。 対応のないt検定には以下の仮定が存在します。 母集団が互いに独立に正規分布に従う(独…

不均衡データに対する予測結果のAccuracyは簡単に上がってしまう

この記事は何? 機械学習における不均衡データの扱いは,学習時にも評価時にも注意する必要があります. 例えばSVMにおける学習では,クラス重みを事前に設定することで,不均衡データによるバイアスを軽減できます. 不均衡データに対する予測精度の評価に…

z-scoreに変換しても相関係数は変わらない

この記事は何? 機械学習の前処理として特徴量のスケーリングを行うことがありますが,スケーリング手法の1つとしてz-score変換があります. z-scoreは平均が0,標準偏差が1となるようにスケーリングを行います,z-scoreを10倍して50を加えるとお馴染みの偏…

データ解析のためのモデリング入門第9章をPyStanで

この記事は何? 生態学データ解析 - 本/データ解析のための統計モデリング入門の第9章ではGLMを題材としたMCMCが紹介されています. この本ではMCMCのソフトウェアとしてWinBUGSが使われていますが,インストールバトルに負けたのでPyStanを使って第9章の例題…

中心極限定理の実験

この記事は何? 中心極限定理を確認してみたメモ 実験 それぞれの分布に従うサンプルを10000×N個生成します. その後N個の平均を取り,平均値のヒストグラムを描きます. 一様分布 二項分布 ポアソン分布 ソースコード 中心極限定理の実験 · GitHub