Notre expertise touchant principalement à la vision, ce jeu de données allait forcément retenir mon attention. Objectron ouvre de nouvelles perspectives et de nouvelles opportunités pour la perception 3D du monde. La mise à disposition de ce jeu de données annonce de potentielles avancées en la matière, qui trouveront notamment des applications dans le domaine de la réalité augmentée.

Contexte

Objectron Dataset est une base de données de vidéos et d’images du quotidien pour appréhender le sujet d’estimation de pose 3D créée par Google. Cette base de données fut exploitée en interne dans un premier temps pour réaliser des tests.

Pour faire ses tests, Google utilisa MediaPipe, leur plateforme open-source sur laquelle il est possible de customiser des algorithmes de machine learning.

Suite à cela, le géant du web développa MediaPipe Objectron, un ensemble de modèles de détection d’objets 3D et de suivi en temps réel pour mobile.

Cette brique technologique fut testée sur quatre catégories de la base de données : “shoes”, “chairs”, “cups” et “cameras”. Pour chaque objet, un cadre de délimitation 3D s’affiche.

L’avancée présentée

Comme nous le savons, la communauté scientifique a pu progresser dans les différents domaines de recherche comme la vision par ordinateur grâce à l’accessibilité des données et des modèles sur Internet. En 2009, on se souvient de l’engouement des scientifiques lorsque Imagenet, une base de données de 14 millions d’images labellisées, fut rendue publique. Cette base de données a ouvert le champ des possibles sur des problématiques de reconnaissance, de traitement ou de compréhension des images 2D.

Et si aujourd’hui nous étions capables de monter en compétences sur de la 3D grâce au même processus de partage d’informations ?

En effet, depuis le mois de novembre 2020, Google a donné accès à Objectron Dataset. Le jeu de données est à présent stocké sur Google Cloud. Au total, Objectron Dataset est composé de 15 000 vidéos et de 4 millions d’images. Ces données sont réparties en 9 catégories recensant divers objets du quotidien (“bikes”, “books”, “cameras”, “cereal boxes”, “chairs”, “cups”, “laptops” et “shoes”) annotées manuellement.
Mais cela ne s’arrête pas là, car vous avez également accès à toutes les métadonnées des vidéos et des images. De ce fait, vous avez accès à des informations comme : la pose de caméra, les nuages de points, la caractérisation des surfaces planes ou encore le cadre de délimitation 3D (position, orientation et dimensions de l’objet) pour chaque clip.

Et pour ceux qui ne savent pas par où commencer mais qui ont de l’expertise dans l’estimation de pose 3D, il est également possible de manipuler le pipeline de Google sur MediaPipe !

Pourquoi c’est cool ?

Comme mentionné plus haut, l’estimation de pose 3D est une tâche complexe de part la compréhension de notre monde physique en 3D et le manque de données en provenance du monde réel représentant ce dernier. Objectron Dataset offre donc une véritable progression en la matière en partageant des données composées d’objets du quotidien divers et variés.

Les données vidéos mises à dispositions étant centrées sur l’objet, elles permettent de capturer une grande partie de la structure 3D de l’objet. De plus, elles se présentent sous forme de flux vidéo ou photos, très utilisés pour de nombreuses tâches en vision par ordinateur.

Objectron devrait ainsi venir favoriser de nouvelles recherches et applications, et ce afin d’accroître notamment la précision des prévisions d’estimation de pose 3D.

Source et illustrations :
Objectron Dataset
https://github.com/google-research-datasets/Objectron/

Chloé Koch Pageot

Assistante marketing & communication chez Neovision

Sous la supervision de Mathieu Poissard, Directeur Marketing de Neovision

Leave a Reply

Your email address will not be published. Required fields are marked *