想請問未來會支援Multi-modal嗎?

Question

想請問未來會支援Multi-modal嗎?

QAQOAO opened this issue 5 years ago · 4 comments

您好，在github上搜尋 BERT multitask的時候發現了你的repo，因為目前在github找不太到有人同時整合一個BERT multitask multi-modal的架構，有找到BERT multi-modal的但沒有multitask，所以想說加果能支援multi-modal的話就完美了，謝謝!

Answer 1 · 2020-04-20T05:45:09.000Z

multi-modal可能需要在预处理上做比较多的工作, 需要将各个Modal转换成有某种统一规范的tensor, 我对其他领域不太熟悉, 但是对于图像, 感觉是可以加上的. 请问你的场景是怎样的呢?

Answer 2 · 2020-04-20T08:27:40.000Z

感謝您的回覆，

場景主要是想利用圖片和文字分類多標籤

每一個row是一對一對應的圖片+文字作為輸入，輸出因為是Multi-task，所以可以是Multi-label 或Multi-class classification的樣子

https://arxiv.org/pdf/1909.02950.pdf

這個是我找到輸入那邊(Multi-modal)和我的場景滿像的論文，只是輸出那邊(Multi-task)和我的場景不一樣，沒有Multi-task，所以沒辦法做Multi-label或Multi-class的部分

Answer 3 · 2020-04-21T09:32:02.000Z

嗯, 明白了, 我有空会考虑支持.

Answer 4 · 2020-08-05T12:53:36.000Z

图像输入已经支持。每个训练样本为

{
    "text": ...,
    "image": ...
}, label