Search

Idan Schwartz

I. Schwartz

Diverse and Aligned Audio-to-Video Generation via Text-to-Video Model Adaptation
Zero-shot video captioning with evolving pseudo-tokens
AudioToken: Adaptation of Text-Conditioned Diffusion Models for Audio-to-Image Generation
Discriminative Class Tokens for Text-to-Image Diffusion Models
Describing Sets of Images with Textual-PCA
Optimizing Relevance Maps of Vision Transformers Improves Robustness
ZeroCap: Zero-Shot Image-to-Text Generation for Visual-Semantic Arithmetic
Video and Text Matching with Conditioned Embeddings
Ordered attention for coherent visual storytelling
Latent space explanation by intervention
Perceptual Score: Measuring Perceptiveness of Multi-Modal Classifiers
Ensemble of MRR and NDCG models for Visual Dialog
Removing Bias in Multi-modal Classifiers: Regularization by Maximizing Functional Entropies
A Simple Baseline for Audio-Visual Scene-Aware Dialog
Factor Graph Attention
High-Order Attention Models for Visual Question Answering

Powered by the Academic theme for Hugo.