En urbanisme, la qualification de l’espace urbain est une tâche importante qui permet d’informer les experts et les collectivités territoriales de la manière dont est perçu l’espace public par un piéton. Cela consiste à mesurer des qualités souvent subjectives de l’espace urbain telles que le caractère naturel, la spaciosité, la propreté, etc. Une application possible est l’identification de zones prioritaires dans la politique urbaine de la ville.

Ce domaine est en fort développement grâce à la disponibilité d’images capturées du point de vue du piéton (street view imagery – SVI). Par exemple, des services comme Google Street View (GSV) proposent une couverture dense des zones urbaines dans le monde entier. En ajoutant à cela la haute performance des réseaux de neurones convolutionnels (CNN) pour le traitement d’images, de nombreux chercheurs ont commencé à développer des méthodes de qualification automatique de l’espace urbain.

Pour accompagner un travail doctoral en cours relatif à l’étude des propriétés de l’espace urbain à l’aide des outils d’apprentissage machine, une analyse approfondie d’un corpus spécifique est planifiée en 2022 dans le cadre d’un stage de Master.

A ce jour, le jeu de données le plus complet dans ce domaine est Place Pulse 2.0 (PP2) [1]. Il contient des comparaisons de paires d’images collectées par crowdsourcing via une plateforme en ligne. On présente à l’utilisateur 2 images de GSV, et il doit choisir celle qui correspond le plus à la qualité proposée. Le jeu de données contient 110 000 images et 1,1 millions de comparaisons pour les 6 qualités étudiées : safer, depressing, boring, lively, wealthier, beautiful.

Ce jeu de données est le plus souvent utilisé pour entraîner des réseaux de neurones. La tâche la plus courante est la classification binaire : le réseau prend en entrée 2 images et doit déterminer l’image gagnante, pour une qualité donnée. En s’appuyant sur la forte corrélation entre les 6 catégories, certains auteurs se sont penchés sur l’utilisation du multi-task learning [2,3], tandis que d’autres ont proposé d’utiliser le principe du zero-shot learning [4]. Cependant, malgré ces efforts pour utiliser des méthodes récentes en Deep Learning, les modèles actuels offrent des performances assez faibles, autour de 70% de précision.

Travail attendu :

Le stage a pour but d’explorer les différentes manières de traiter le problème posé par le jeu de données et de proposer un modèle avec des performances comparables à l’état de l’art :

  • Bibliographie sur les méthodes d’apprentissage profond pour le pairwise learning, le travail existant sur PP2 et les différentes architectures que l’on pourrait utiliser pour traiter le problème du jeu de données et améliorer les résultats à l’état de l’art
  • Choisir une architecture / méthode et la mettre en oeuvre sur le jeu de données PP2
  • Comparer les résultats obtenus avec ceux de la littérature

Une publication des résultats à l’issue du stage est attendue.

Compétences souhaitées :

  • Maîtrise de Python
  • Connaissance d’un framework de Deep Learning (PyTorch de préférence, ouTensorflow)
  • Une première expérience en vision par ordinateur est un atout.

Modalités :

  • Début souhaité : mars ou avril 2022
  • 5 à 6 mois à temps complet
  • Gratification légale en vigueur
  • Localisation : laboratoire AAU, équipe AAU-CRENAU, école d’architecture de Nantes et télétravail pendant la période du 1/08 au 19/08.
  • Encadrement : Benjamin Beaucamp, Vincent Tourre, Thomas Leduc, Myriam Servières.

 

Références :

[1] Dubey, A., Naik, N., Parikh, D., Raskar, R., & Hidalgo, C. A. (2016). Deep learning the city: Quantifying urban perception at a global scale. Lecture Notes in Computer Science (Including Subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics), 9905 LNCS, 196–212. https://doi.org/10.10 /978-3-319-46448-0_12

[2] Guan, W., Chen, Z., Feng, F., Liu, W., & Nie, L. (2021). Urban Perception: Sensing Cities via a Deep Interactive Multi-task Learning Framework. ACM Transactions on Multimedia Computing, Communications, and Applications (TOMM), 17(1s). https://doi.org/10.1145/3424115

[3] Min, W., Mei, S., Liu, L., Wang, Y., & Jiang, S. (2020). Multi-Task Deep Relative Attribute Learning for Visual Urban Perception. IEEE Transactions on Image Processing, 29, 657–669. https://doi.org/10.1109/TIP.2019.2932502

[4] Talebi, H., Amid, E., Milanfar, P., & Warmuth, M. K. (2020). Rank-Smoothed Pairwise Learning in Perceptual Quality Assessment. Proceedings – International Conference on Image Processing, ICIP, 2020-Octob, 3413–3417. https://doi.org/10.1109/ICIP40778.2020.9191231

Télécharger la version anglaise de l’offre [EN]