[2024/04/10] Machine Learning 輪講
Opened this issue · 3 comments
nogawanogawa commented
Why
Machine Learning 輪講は最新の技術や論文を追うことで、エンジニアが「技術で解決できること」のレベルをあげていくことを目的にした会です。
prev. #240
What
話したいことがある人はここにコメントしましょう!
面白いものを見つけた時点でとりあえず話すという宣言だけでもしましょう!
Hayashi-Yudai commented
A Sequential Recommendation Model for Balancing Long‑ and Short‑Term Benefts
sequential recommendationにおいて、長期的なユーザーの行動と短期的な行動の両方を取り込むことによってモデルの性能を改善したという論文。
chimuichimu commented
Product Quantization: Compressing high-dimensional vectors by 97%
背景
ベクトル検索では高次元のベクトルを大量に扱う必要があり、インデックスのサイズが大きくなってメモリの問題が発生しがち
Product Quantization (PQ) とは
- ベクトルの情報圧縮の技術の一つ
- 以下の手順でベクトルを圧縮する
- 圧縮対象のベクトルを準備
- ベクトルを複数のサブベクトルに分割
- 各サブベクトルに centroid をアサイン
- centroidの値をIDに置き換える
- これにより高次元ベクトルを低次元、かつint型のベクトルに置き換えることで、ベクトルの圧縮を実現している
メモリ削減の効果
- ベクトル検索エンジンのFaissにはPQが実装されていて、
faiss.IndexPQ
として提供されている - Sift1M datasetのベクトルをこれでインデックス化すると、98.4%程度のメモリ削減になるとのこと
精度とのトレードオフ
- メモリ削減と探索速度は向上するが、もちろん精度のトレードオフがある
- 記事中の実験ではRecallが100% -> 50%くらいになっている
- ただここはサブベクトルの分割数や centroid 数といったパラメータで調整はできそう
nogawanogawa commented
LayoutLLM: Layout Instruction Tuning with Large Language Models for Document Understanding
論文URL
https://arxiv.org/abs/2404.05225
著者
Chuwei Luo, Yufan Shen, Zhaoqing Zhu, Qi Zheng, Zhi Yu, Cong Yao
会議
CVPR 2024
背景
文書のレイアウト情報が文書理解に不可欠であることは広く受け入れられているが、LLMに直接テキストを与えて文書レイアウト情報を伝達することは通常困難である。
平坦化されたテキストか座標付きのテキストとして表現されることがあるが、平坦化はレイアウト情報を排除し、座標情報があったとしてもLLMがこのフォーマットを効果的に理解出来るとは限らない。
MLLM等を利用する動きもあるが、通常画像のキャプションなどに利用される関係で、文書のレイアウト情報を抽出することは一般的に困難になってる。
目的
- 文書レイアウトの理解度向上
アプローチ
- LayoutLLM
- グローバルからローカルへの文書レイアウトについて3段階で事前学習
- LayoutCoT