sentence_representation_matching: A Python repository from Macielyoung

sentence_representation_matching

该项目主要是文本匹配相关模型，包含使用SimCSE、ESimCSE、PromptBert三种无监督文本匹配模型和SBert、CoSent两种有监督文本匹配模型。

利用Transformer Dropout机制，使用两次作为正样本对比，以此来拉近正样本，推开负样本。

data	Pertained	Pool_type	Dropout	Batch_size	Dev_corr	Test_corr
STS-B	hfl/chinese-bert-wwm-ext	avg_first_last	0.1	64	0.76076	0.70924
STS-B	hfl/chinese-bert-wwm-ext	avg_first_last	0.2	64	0.75996	0.71474
STS-B	hfl/chinese-bert-wwm-ext	avg_first_last	0.3	64	0.76518	0.71237
STS-B	hfl/chinese-roberta-wwm-ext	avg_first_last	0.1	64	0.75933	0.69070
STS-B	hfl/chinese-roberta-wwm-ext	avg_first_last	0.2	64	0.76907	0.72410
STS-B	hfl/chinese-roberta-wwm-ext	avg_first_last	0.3	64	0.77203	0.72155

参考：

在SimCSE的基础上，通过重复句子中部分词组来构造正样本，同时引入动量对比来增加负样本。

data	Pertained	Dup_rate	Queue_num	Pool_type	Dropout	Batch_size	Dev_corr	Test_corr
STS-B	hfl/chinese-bert-wwm-ext	0.2	32	avg_first_last	0.1	64	0.77274	0.69639
STS-B	hfl/chinese-bert-wwm-ext	0.2	32	avg_first_last	0.2	64	0.77047	0.70042
STS-B	hfl/chinese-bert-wwm-ext	0.2	32	avg_first_last	0.3	64	0.77963	0.72478
STS-B	hfl/chinese-roberta-wwm-ext	0.3	64	avg_first_last	0.1	64	0.77508	0.7206
STS-B	hfl/chinese-roberta-wwm-ext	0.3	64	avg_first_last	0.2	64	0.77416	0.7096
STS-B	hfl/chinese-roberta-wwm-ext	0.3	64	avg_first_last	0.3	64	0.78093	0.72495

使用Prompt方式来表征语义向量，通过不同模板产生的语义向量构造正样本，同一批次中的其他样本作为负样本。

本实验使用两个句子模板：
1）[X]，它的意思是[MASK]。
2）[X]，这句话的意思是[MASK]。

在计算损失函数时为了消除Prompt模板影响，通过替换模板后的句子[MASK]获取的表征减去模板中[MASK]获取的表征来得到句子向量表征。

data	Pertained	Pool_type	Dropout	Batch_size	Dev_corr	Test_corr
STS-B	hfl/chinese-bert-wwm-ext	x_index	0.1	32	0.78216	0.73185
STS-B	hfl/chinese-bert-wwm-ext	x_index	0.2	32	0.78362	0.73129
STS-B	hfl/chinese-bert-wwm-ext	x_index	0.3	32	0.76617	0.71597
STS-B	hfl/chinese-roberta-wwm-ext	x_index	0.1	32	0.79963	0.73492
STS-B	hfl/chinese-roberta-wwm-ext	x_index	0.2	32	0.7764	0.72024
STS-B	hfl/chinese-roberta-wwm-ext	x_index	0.3	32	0.77875	0.73153