Multimodal Visual Grounding Transformer Models

There are 3 multimodal visual grounding models tracked. The highest-rated is gabeur/mmt at 38/100 with 265 stars.

Get all 3 projects as JSON

curl "https://pt-edge.onrender.com/api/v1/datasets/quality?domain=transformers&subcategory=multimodal-visual-grounding&limit=20"

Open to everyone — 100 requests/day, no key needed. Get a free key for 1,000/day.

#	Model	Score	Tier	Stars	Language
1	gabeur/mmt Multi-Modal Transformer for Video Retrieval	38	Emerging	265	Python
2	JerryYLi/valhalla-nmt Code repository for CVPR 2022 paper "VALHALLA: Visual Hallucination for...	28	Experimental	28	Python
3	Skyline-9/Shotluck-Holmes [ACM MMGR '24] 🔍 Shotluck Holmes: A family of small-scale LLVMs for...	14	Experimental	13	Python