Intitulé Madison, en référence à la rue de New York sur laquelle étaient installées de nombreuses agences de publicité, l’objectif final de l’outil n’est pas simplement de remplir une base de données, mais de faire sortir de ces données une vision de la société telle que représentée par les publicités.
Les archives du New York Times, entièrement numérisées, sont accessibles en ligne depuis près de deux ans maintenant.
Si les textes contenus dans les articles sont relativement faciles à extraire pour un outil OCR, le contenu des publicités est autrement plus compliqué à faire analyser par une machine.
D’’où l’idée du New York Times d’utiliser les lecteurs comme «analyseurs» des publicités. Un peu à la manière des captcha de Google qui permettent d’affiner les scans parfois hasardeux de Google Books, l’idée ici est faire entrer le lecteur dans un “tunnel” : point de formulaire compliqué avec plein de cases, mais une succession de questions qui permettent d’ajouter des méta tags à une publicité.