[2024/04/10] Machine Learning 輪講

Question

[2024/04/10] Machine Learning 輪講

Opened this issue 6 months ago · 3 comments

nogawanogawa commented 6 months ago

Why

Machine Learning 輪講は最新の技術や論文を追うことで、エンジニアが「技術で解決できること」のレベルをあげていくことを目的にした会です。

prev. #240

What

話したいことがある人はここにコメントしましょう！
面白いものを見つけた時点でとりあえず話すという宣言だけでもしましょう！

Answer 1 · 2024-04-10T06:42:51.000Z

A Sequential Recommendation Model for Balancing Long‑ and Short‑Term Benefts

sequential recommendationにおいて、長期的なユーザーの行動と短期的な行動の両方を取り込むことによってモデルの性能を改善したという論文。

Answer 2 · 2024-04-10T09:26:20.000Z

Product Quantization: Compressing high-dimensional vectors by 97%

背景

ベクトル検索では高次元のベクトルを大量に扱う必要があり、インデックスのサイズが大きくなってメモリの問題が発生しがち

Product Quantization (PQ) とは

ベクトルの情報圧縮の技術の一つ
以下の手順でベクトルを圧縮する
- 圧縮対象のベクトルを準備
- ベクトルを複数のサブベクトルに分割
- 各サブベクトルに centroid をアサイン
- centroidの値をIDに置き換える
これにより高次元ベクトルを低次元、かつint型のベクトルに置き換えることで、ベクトルの圧縮を実現している

メモリ削減の効果

ベクトル検索エンジンのFaissにはPQが実装されていて、faiss.IndexPQ として提供されている
Sift1M datasetのベクトルをこれでインデックス化すると、98.4%程度のメモリ削減になるとのこと

精度とのトレードオフ

メモリ削減と探索速度は向上するが、もちろん精度のトレードオフがある
記事中の実験ではRecallが100% -> 50%くらいになっている
ただここはサブベクトルの分割数や centroid 数といったパラメータで調整はできそう

Answer 3 · 2024-04-10T09:33:00.000Z

LayoutLLM: Layout Instruction Tuning with Large Language Models for Document Understanding

論文URL

https://arxiv.org/abs/2404.05225

著者

Chuwei Luo, Yufan Shen, Zhaoqing Zhu, Qi Zheng, Zhi Yu, Cong Yao

会議

CVPR 2024

背景

文書のレイアウト情報が文書理解に不可欠であることは広く受け入れられているが、LLMに直接テキストを与えて文書レイアウト情報を伝達することは通常困難である。
平坦化されたテキストか座標付きのテキストとして表現されることがあるが、平坦化はレイアウト情報を排除し、座標情報があったとしてもLLMがこのフォーマットを効果的に理解出来るとは限らない。

MLLM等を利用する動きもあるが、通常画像のキャプションなどに利用される関係で、文書のレイアウト情報を抽出することは一般的に困難になってる。

目的

文書レイアウトの理解度向上

アプローチ

LayoutLLM
- グローバルからローカルへの文書レイアウトについて3段階で事前学習
- LayoutCoT

memo

nogawanogawa/paper_memo#110