ViT_Vision-Transformer-and-EANet_External-Attention-Transformer

Vision Transformer(ViT)

Vision Transformer Architecture

Vision Transformer(ViT) adalah model untuk klasifikasi citra(image classification) yang mempekerjakan Transformer arsitektur. Gambar dipecah menjadi tambalan berukuran tetap, masing-masing kemudian disematkan secara linier, penyematan posisi ditambahkan, dan urutan vektor yang dihasilkan diumpankan ke enkoder Transformer standar, Untuk melakukan klasifikasi.

untuk lebih lanjut silahkan liat paper.

Paper:

An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale [Dosovitskiy et al.]

External Attention Transformer(EANet)

Model EANet hanya mengganti Self-Attention, perbedaan antara [0]Self-Attention dan [1]External-Attention adalah [1]Perhatian eksternal(External Attention) memiliki kompleksitas linier dan secara implisit mempertimbangkan korelasi antara semua sampel data sementara
[0]Self-Attention memiliki kompleksitas kuadrat dan mengabaikan potensi korelasi antara sampel yang berbeda.

untuk lebih lanjut silahkan liat paper.

Paper:

Beyond Self-attention: External Attention using Two Linear Layers for Visual Tasks

Laporan

Setelah berlatih dengan 10 epoch dan adabelief optimizer dengan Triangular2CyclicalLearningRate

validation_accuracy = 76% validation_top5_accuracy = 98% test_accuracy = 70%

Note

kalian bisa ber-eksperimen sendiri seperti:

menambahkan epoch lebih banyak
menambahkan layers transformers
mengubah ukuran gambar(224 recommend)
mengubah ukuran tambalan(patches)
mengunakan CutMix & MixUp Augmentation

Referensi