Vulgarisation scientifique – Objectron
Notre expertise touchant principalement à la vision, ce jeu de données allait forcément retenir mon attention. Objectron ouvre de nouvelles perspectives et de nouvelles opportunités pour la perception 3D du monde. La mise à disposition de ce jeu de données annonce de potentielles avancées en la matière, qui trouveront notamment des applications dans le domaine de la réalité augmentée.
Contexte
Objectron Dataset est une base de données de vidéos et d’images du quotidien pour appréhender le sujet d’estimation de pose 3D créée par Google. Cette base de données fut exploitée en interne dans un premier temps pour réaliser des tests.
Pour faire ses tests, Google utilisa MediaPipe, leur plateforme open-source sur laquelle il est possible de customiser des algorithmes de machine learning.
Suite à cela, le géant du web développa MediaPipe Objectron, un ensemble de modèles de détection d’objets 3D et de suivi en temps réel pour mobile.
Cette brique technologique fut testée sur quatre catégories de la base de données : “shoes”, “chairs”, “cups” et “cameras”. Pour chaque objet, un cadre de délimitation 3D s’affiche.
L’avancée présentée
Comme nous le savons, la communauté scientifique a pu progresser dans les différents domaines de recherche comme la vision par ordinateur grâce à l’accessibilité des données et des modèles sur Internet. En 2009, on se souvient de l’engouement des scientifiques lorsque Imagenet, une base de données de 14 millions d’images labellisées, fut rendue publique. Cette base de données a ouvert le champ des possibles sur des problématiques de reconnaissance, de traitement ou de compréhension des images 2D.
Et si aujourd’hui nous étions capables de monter en compétences sur de la 3D grâce au même processus de partage d’informations ?
En effet, depuis le mois de novembre 2020, Google a donné accès à Objectron Dataset. Le jeu de données est à présent stocké sur Google Cloud. Au total, Objectron Dataset est composé de 15 000 vidéos et de 4 millions d’images. Ces données sont réparties en 9 catégories recensant divers objets du quotidien (“bikes”, “books”, “cameras”, “cereal boxes”, “chairs”, “cups”, “laptops” et “shoes”) annotées manuellement.
Mais cela ne s’arrête pas là, car vous avez également accès à toutes les métadonnées des vidéos et des images. De ce fait, vous avez accès à des informations comme : la pose de caméra, les nuages de points, la caractérisation des surfaces planes ou encore le cadre de délimitation 3D (position, orientation et dimensions de l’objet) pour chaque clip.
Et pour ceux qui ne savent pas par où commencer mais qui ont de l’expertise dans l’estimation de pose 3D, il est également possible de manipuler le pipeline de Google sur MediaPipe !

Pourquoi c’est cool ?
Comme mentionné plus haut, l’estimation de pose 3D est une tâche complexe de part la compréhension de notre monde physique en 3D et le manque de données en provenance du monde réel représentant ce dernier. Objectron Dataset offre donc une véritable progression en la matière en partageant des données composées d’objets du quotidien divers et variés.
Les données vidéos mises à dispositions étant centrées sur l’objet, elles permettent de capturer une grande partie de la structure 3D de l’objet. De plus, elles se présentent sous forme de flux vidéo ou photos, très utilisés pour de nombreuses tâches en vision par ordinateur.
Objectron devrait ainsi venir favoriser de nouvelles recherches et applications, et ce afin d’accroître notamment la précision des prévisions d’estimation de pose 3D.
Source et illustrations :
Objectron Dataset
https://github.com/google-research-datasets/Objectron/
- Nouveau jeu de données de Google pour l’estimation de la pose d’un objet en 3d
- Ils ouvrent un jeu de données qu’ils avaient utilisé pour entraîner un des exemples de MediaPipe : https://google.github.io/mediapipe/solutions/objectron

Chloé Koch Pageot
Assistante marketing & communication chez Neovision
Sous la supervision de Mathieu Poissard, Directeur Marketing de Neovision