Les progrès de la vision par ordinateur (computer vision) rendent possible la voiture autonome, mais il y a encore de nouveaux territoires à conquérir, comme la capture du mouvement humain sans utiliser plusieurs caméras haute vitesse.
Conséquence, bientôt, votre smartphone pourrait être l’appareil photo dont vous avez besoin pour une capture et une analyse de mouvement sophistiquées et à haute vitesse.
Le document EventCap : La capture 3D monoculaire de mouvements humains à grande vitesse à l’aide d’une caméra événementielle permet de mieux comprendre le concept. Des chercheurs de l’Institut Tsinghua-Berkeley Shenzhen, du Max Planck Institute for Informatics et du Robotics Institute de Hong Kong montrent comment ils peuvent capturer des mouvements rapides à la milliseconde près sans les inconvénients des dispositifs nécessaires à la prise de vidéo à haute vitesse.
La caméra neuromorphique, ou caméra d’évènement
Les caméras évènementielles capturent le mouvement dans une scène. Si on leur montre une scène où rien ne change, ils ne voient rien. Mais dès qu’il y a des changements de luminosité au niveau des pixels, elle capture ce mouvement à des résolutions de l’ordre de la milliseconde, même avec une lumière faible ou très vive, sans flou de mouvement et avec une faible consommation d’énergie.
Les caméras évènementielles sont relativement nouvelles, mais elles sont très prometteuses pour les applications impliquant des mouvements dans des niveaux de luminosité très variables, comme les véhicules autonomes, ou la capture de mouvements.
Le problème avec les taux de rafraîchissement élevés
Alors pourquoi ne pas utiliser des caméras RVB standard à cadence d’images élevée, telles que la gamme Phantom de Vision Research, qui offre une vidéo 2k à 6 600 images par seconde. Bien que ces modèles aient certainement leur place, elles rencontrent deux problèmes majeurs.
Tout d’abord, comme le temps de capture est court, les sujets doivent être très bien éclairés. C’est pourquoi beaucoup de leurs vidéos sont tournées en plein soleil. Deuxièmement, elles génèrent des quantités massives de données, ce qui est pénible à stocker et à analyser.
La caméra Phantom 2640, configurée avec 288 Go de mémoire interne, ne peut enregistrer que des vidéos de 2k pendant 7,8 secondes à une cadence maximale.
EventCap enregistre à 1 000 FPS bien plus lentement, mais le problème demeure. Les caméras RVB standard génèrent beaucoup de données, très rapidement.
Capture de mouvement
Vous avez probablement vu des photos d’acteurs en costumes pour faire du marking, en habit noir et moulant avec des capteurs blancs à chaque articulation. Pour l’espace 3D cependant, ces systèmes nécessitent généralement plusieurs caméras qui doivent être synchronisées et calibrées.
À des fréquences d’images élevées. La collecte de données devient alors vraiment massive en peu de temps. Et c’était avant le calcul de l’axe Z.
La sauce secrète
La technique d’EventCap commence par une étape de prétraitement qui crée un maillage squelettique de l’acteur. Tout d’abord, le système génère des trajectoires de mouvement éparses entre les images. Ensuite, dans un mode batch alimenté par un réseau neuronal convolutionnel, le système optimise le mouvement du maillage à 1 000 FPS en utilisant les trajectoires capturées.
Enfin, le mouvement squelettique est affiné à partir des mouvements du corps de l’acteur tels que capturés par la caméra évènementielle. Le résultat est que EventCap atteint une meilleure résolution spatiale que les systèmes existants tout en exigeant moins de 5 % de la bande passante et de la capacité de stockage.
Pour conclure
Les caméras événementielles sont bio-inspirées : les yeux de grenouille ne détectent que les mouvements, pour mieux attraper les mouches. Et avec le développement de l’industrie des capteurs, les applications basées sur cette technologie commencent à peine à être explorées. Même Intel s’intéresse à ce sujet.
Malgré l’énorme volume de données disponible et le stockage à l’échelle exabyte, des problèmes tels que la capture de mouvement à grande vitesse stressent nos capacités de stockage et de gestion des données. Plus nous pouvons stocker de données, plus nous en trouvons d’utilisations.
Article “High speed motion capture using a single event camera” traduit et adapté par ZDNet.fr
Commentaires