Vision Transformer Architecture
Vision Transformer(ViT) adalah model untuk klasifikasi citra(image classification) yang mempekerjakan Transformer arsitektur. Gambar dipecah menjadi tambalan berukuran tetap, masing-masing kemudian disematkan secara linier, penyematan posisi ditambahkan, dan urutan vektor yang dihasilkan diumpankan ke enkoder Transformer standar, Untuk melakukan klasifikasi.
untuk lebih lanjut silahkan liat paper.
Paper:
An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale [Dosovitskiy et al.]
Model EANet hanya mengganti Self-Attention, perbedaan antara [0]Self-Attention dan [1]External-Attention adalah [1]Perhatian eksternal(External Attention) memiliki kompleksitas linier dan secara implisit mempertimbangkan korelasi antara semua sampel data sementara
[0]Self-Attention memiliki kompleksitas kuadrat dan mengabaikan potensi korelasi antara sampel yang berbeda.
untuk lebih lanjut silahkan liat paper.
Paper:
Beyond Self-attention: External Attention using Two Linear Layers for Visual Tasks
Setelah berlatih dengan 10 epoch dan adabelief optimizer dengan Triangular2CyclicalLearningRate
validation_accuracy = 76% validation_top5_accuracy = 98% test_accuracy = 70%
kalian bisa ber-eksperimen sendiri seperti:
- menambahkan epoch lebih banyak
- menambahkan layers transformers
- mengubah ukuran gambar(224 recommend)
- mengubah ukuran tambalan(patches)
- mengunakan CutMix & MixUp Augmentation