JayYip/m3tl

想請問未來會支援Multi-modal嗎?

QAQOAO opened this issue · 4 comments

您好,在github上搜尋 BERT multitask的時候發現了你的repo,因為目前在github找不太到有人同時整合一個BERT multitask multi-modal的架構,有找到BERT multi-modal的但沒有multitask,所以想說加果能支援multi-modal的話就完美了,謝謝!

multi-modal可能需要在预处理上做比较多的工作, 需要将各个Modal转换成有某种统一规范的tensor, 我对其他领域不太熟悉, 但是对于图像, 感觉是可以加上的. 请问你的场景是怎样的呢?

感謝您的回覆,

場景主要是想利用圖片和文字分類多標籤

每一個row是一對一對應的圖片+文字作為輸入,輸出因為是Multi-task,所以可以是Multi-label 或Multi-class classification的樣子

https://arxiv.org/pdf/1909.02950.pdf

這個是我找到輸入那邊(Multi-modal)和我的場景滿像的論文,只是輸出那邊(Multi-task)和我的場景不一樣,沒有Multi-task,所以沒辦法做Multi-label或Multi-class的部分

嗯, 明白了, 我有空会考虑支持.

图像输入已经支持。每个训练样本为

{
    "text": ...,
    "image": ...
}, label