almost weekly useful materials - 03/13 -
Opened this issue · 2 comments
GENZITSU commented
almost weekly useful materials - 03/13 -
GENZITSU commented
独立成分分析(ICA)を使ってText Embeddingを分析してみた
解釈性の高い次元圧縮手法であるICAを元論文の単語ではなく文章に用いて文章のカテゴリングをしている記事
概要
景気ウォッチャーの「街角の景況感を判断するためのアンケート調査」データを対象に実施
OpenAIの「text-embedding-3-small」を利用
FastICAを用いて成分を抽出
# パラメータは論文内で指定されているものを参考にICAが収束したものを選択
ica = FastICA(n_components=n_components, random_state=42, max_iter=10000, tol=1e-3)
embeds_ica = ica.fit_transform(embeds)
df_ica = pd.DataFrame(embeds_ica)
skewness = skew(df_ica)
# 今回は正方向の独立成分を扱うため、歪度の大きい向きを正方向にしたい
# そこで、論文に従って歪度が負の軸を反転させている
df_ica *= np.sign(skewness)
df_ica.shape
>> (14818, 30)
独立成分の値に閾値を設けてカテゴリラベルを付与
そこからgpt-3.5-turboを用いて各カテゴリのラベル名を推定させる
また付与したラベルを用いて対応分析などをすることで、どのカテゴリがどれに影響を与えいるかの分析が可能
コメント
トピック分析的なことに使えるようで面白かった
出典
GENZITSU commented