audio-visual

There are 77 repositories under audio-visual topic.

krantiparida/awesome-audio-visual
A curated list of different papers and datasets in various areas of audio-visual processing
747 16 266
TaoRuijie/TalkNet-ASD
ACM MM 2021: 'Is Someone Speaking? Exploring Long-term Temporal Features for Audio-visual Active Speaker Detection'
Language:Python424 10 7690
HumanAIGC/omnitalker
[NeurIPS 2025] OmniTalker: Real-Time Text-Driven Talking Head Generation with In-Context Audio-Visual Style Replication
Language:JavaScript39228
samhirtarif/react-audio-visualize
An audio visualizer for React. Provides separate components to visualize both live audio and audio blobs.
Language:TypeScript167 2 1231
guyyariv/TempoTokens
This repo contains the official PyTorch implementation of: Diverse and Aligned Audio-to-Video Generation via Text-to-Video Model Adaptation
Language:Python128 3 1315
jerosoler/waveform-path
🎙 Generator waveform paths for SVG 🎶
Language:JavaScript121 4 96
ekazakos/temporal-binding-network
Implementation of "EPIC-Fusion: Audio-Visual Temporal Binding for Egocentric Action Recognition, ICCV, 2019" in PyTorch
Language:Python113 4 2124
ankurbhatia24/MULTIMODAL-EMOTION-RECOGNITION
Human Emotion Understanding using multimodal dataset.
Language:Jupyter Notebook104 6 925
Libvisual/libvisual
Libvisual Audio Visualization
Language:C97 14 10932
v-iashin/Synchformer
Source code for "Synchformer: Efficient Synchronization from Sparse Cues" (ICASSP 2024)
Language:Python95 2 139
heypoom/patchies
Patchies is a creative coding tool for making audio-visual patches in your browser.
Language:Svelte86 0 02
v-iashin/SparseSync
Source code for "Sparse in Space and Time: Audio-visual Synchronisation with Trainable Selectors." (Spotlight at the BMVC 2022)
Language:Python53 2 510
satelllte/remotion-audio-visualizer
Programmatic minimalistic audio visualizations.
Language:TypeScript44 1 51
MengyuanChen21/CVPR2023-CMPAE
[CVPR 2023] Collecting Cross-Modal Presence-Absence Evidence for Weakly-Supervised Audio-Visual Event Perception
Language:Python36 1 04
joannahong/AV-RelScore
Audio-Visual Corruption Modeling of our paper "Watch or Listen: Robust Audio-Visual Speech Recognition with Visual Corruption Modeling and Reliability Scoring" in CVPR23
Language:Python35 1 12
ruohaoguo/ovavss
Official Implementation of "Open-Vocabulary Audio-Visual Semantic Segmentation" [ACM MM 2024 Oral].
Language:Python35 4 53
jinxiang-liu/anno-free-AVS
Official code for WACV 2024 paper, "Annotation-free Audio-Visual Segmentation"
Language:Python34 1 113
dialogtekgeek/AudioVisualSceneAwareDialog
Language:Python27 2 59
dialogtekgeek/AVSD-DSTC10_Official
Audio Visual Scene-Aware Dialog (AVSD) Challenge at the 10th Dialog System Technology Challenge (DSTC)
27 6 02
MCG-NJU/JoMoLD
[ECCV 2022] Joint-Modal Label Denoising for Weakly-Supervised Audio-Visual Video Parsing
Language:Python27 2 22
georgesterpu/Taris
Transformer-based online speech recognition system with TensorFlow 2
Language:Python26 6 16
Yu-Wu/Modaily-Aware-Audio-Visual-Video-Parsing
Code for CVPR 2021 paper Exploring Heterogeneous Clues for Weakly-Supervised Audio-Visual Video Parsing
Language:Python24 4 20
JaesungHuh/av-diarization
Audio-visual diarization pipeline used for creating VoxConverse dataset
Language:Python21 3 04
dkurzend/ClipClap-GZSL
Audio-Visual Generalized Zero-Shot Learning using Large Pre-Trained Models
Language:Python20 1 24
hmartelb/avlit
Official source code of the INTERSPEECH 2023 paper: "Audio-Visual Speech Separation in Noisy Environments with a Lightweight Iterative Model" (AVLIT)
Language:Python20 2 61
WikiChao/DAVIS
[🏆 IJCV 2025 & ACCV 2024 Best Paper Honorable Mention] Official pytorch implementation of the paper "High-Quality Visually-Guided Sound Separation from Diverse Categories"
Language:Python202
FannyChao/AVS360_audiovisual_saliency_360
Towards Audio-Visual Saliency Prediction for Omnidirectional Video with Spatial Audio
Language:Python18 3 14
Overcautious/ADENet
Accepted by TMM 2022
Language:Python17 1 32
Sreyan88/LipGER
Code for InterSpeech 2024 Paper: LipGER: Visually-Conditioned Generative Error Correction for Robust Automatic Speech Recognition
Language:Python17 1 41
yzyouzhang/Awesome-Multimedia-Deepfake-Detection
Materials for "Multimedia Deepfake Detection" Tutorial @ ICME 2024
17 1 00
SAGNIKMJR/move2hear-active-AV-separation
Code and datasets for 'Move2Hear: Active Audio-Visual Source Separation' (ICCV 2021)
Language:Python15 2 60
cogmhear/Intelligibility-Oriented-Audio-Visual-Speech-Enhancement
Towards Intelligibility-Oriented Audio-Visual Speech Enhancement
Language:Python14 2 12
OpenGVLab/perception_test_iccv2023
Champion Solutions repository for Perception Test challenges in ICCV2023 workshop.
Language:Python14 1 10
tutaru99/Internet-Radio-Player-Vue
Internet Radio Player with an Audio Visualizer made using VueJS, Vuetify & Howler.JS frameworks. The Player has a bunch of radio stations. Check out the demo below.
Language:Vue13 2 44
jasongief/TGS-Agent
[2025 Arxiv] Think Before You Segment: An Object-aware Reasoning Agent for Referring Audio-Visual Segmentation
Language:Jupyter Notebook110
ruohaoguo/pavsodr
Official Implementation of "Instance-Level Panoramic Audio-Visual Saliency Detection and Ranking" [ACM MM 2024].
Language:Python9 1 00

audio-visual

krantiparida/awesome-audio-visual

TaoRuijie/TalkNet-ASD

HumanAIGC/omnitalker

samhirtarif/react-audio-visualize

guyyariv/TempoTokens

jerosoler/waveform-path

ekazakos/temporal-binding-network

ankurbhatia24/MULTIMODAL-EMOTION-RECOGNITION

Libvisual/libvisual

v-iashin/Synchformer

heypoom/patchies

v-iashin/SparseSync

satelllte/remotion-audio-visualizer

MengyuanChen21/CVPR2023-CMPAE

joannahong/AV-RelScore

ruohaoguo/ovavss

jinxiang-liu/anno-free-AVS

dialogtekgeek/AudioVisualSceneAwareDialog

dialogtekgeek/AVSD-DSTC10_Official

MCG-NJU/JoMoLD

georgesterpu/Taris

Yu-Wu/Modaily-Aware-Audio-Visual-Video-Parsing

JaesungHuh/av-diarization

dkurzend/ClipClap-GZSL

hmartelb/avlit

WikiChao/DAVIS

FannyChao/AVS360_audiovisual_saliency_360

Overcautious/ADENet

Sreyan88/LipGER

yzyouzhang/Awesome-Multimedia-Deepfake-Detection

SAGNIKMJR/move2hear-active-AV-separation

cogmhear/Intelligibility-Oriented-Audio-Visual-Speech-Enhancement

OpenGVLab/perception_test_iccv2023

tutaru99/Internet-Radio-Player-Vue

jasongief/TGS-Agent

ruohaoguo/pavsodr