A-Novel-Patent-Similarity-Measurement-Methodology

Document Similarity Prediction

Dataset

We used Google patent, randomly extract 420 pairs patents from 2019 to 2020, with which we perform expert validation
The expert panel whom has expertise in Data Analytics, Data Mining, and Artificial Intelligence assesses how semantically similar two patents
We used the score of law expert when there was a large difference in scores between experts.

Semantic Similarity
- We used Patent Bert
Technical Similarity
- $Intersection_{A,B}=Patent_{A} \cap Patent_{B}$
- $Union_{A,B}=Patent_{A} \cup Patent_{B}$
- $TD_{A,B}={Intersection_{A,B} \over Union_{A,B}}$
Hybrid Similarity
- $SDTD_{A,B}={(TD+1) \cdot SD \over 2}$