Vision Models Can’t Count. Here’s the Fix.

Post Content

Vision language models like Gemma 4 are great at understanding images but terrible at counting objects. In this video, I combine Gemma 4 with Falcon Perception, a tiny 300M parameter segmentation model, inside an agentic loop to build a local vision system that can actually detect, count, and reason about objects accurately.

https://github.com/PromtEngineer/Gemma4-Visual-Agent/tree/dgx-spark-gb10
https://huggingface.co/blog/tiiuae/falcon-perception
https://deepmind.google/models/gemma/
https://developer.nvidia.com/blog/bringing-ai-closer-to-the-edge-and-on-device-with-gemma-4/

My Dictation App: www.whryte.com
Website: https://engineerprompt.ai/
RAG Beyond Basics Course:
https://prompt-s-site.thinkific.com/courses/rag
Signup for Newsletter, localgpt: https://tally.so/r/3y9bb0

Let’s Connect:
🦾 Discord: https://discord.com/invite/t4eYQRUcXB
☕ Buy me a Coffee: https://ko-fi.com/promptengineering
|🔴 Patreon: https://www.patreon.com/PromptEngineering
💼Consulting: https://calendly.com/engineerprompt/consulting-call
📧 Business Contact: engineerprompt@gmail.com
Become Member: http://tinyurl.com/y5h28s6h

💻 Pre-configured localGPT VM: https://bit.ly/localGPT (use Code: PromptEngineering for 50% off).

Signup for Newsletter, localgpt:
https://tally.so/r/3y9bb0 Read More Prompt Engineering

#AI #promptengineering