Etalab a installé, mardi 14 mai, son réseau d'experts. Etalab, c'est l'organisme chargé de coordonner l’action des services de l’Etat et de ses établissements publics pour faciliter la réutilisation la plus large possible de leurs informations publiques. A ce titre, il administre le site data.gouv.fr, chargé de regrouper toutes les informations produites par l'Etat et son administration et de les mettre à disposition du public, voire des publics.

Etalab est actuellement en voie d'accomplir une transformation du site data.gouv.fr, suivant la voie tracée par les Etats-Unis, qui entrent actuellement dans la deuxième étape de leur politique d'open data

S'il a installé un collège de "personnalités qualifiées", l'organisme a également lancé il y a un mois une consultation publique visant à "codesigner"  la nouvelle plateforme data.gouv.fr. A ce jour, une vingtaine de réponses ont été adressées à Etalab, lequel va maintenant procéder à des échanges, dont l'un à l'occasion d'un barcamp parisien le 4 juin prochain chez Cap Digital. Les questions posées dans le formulaire "coDesign" recouvrent à la fois des interrogations de collecte, d'exploitation, d'appropriation et d'innovations potentielles.

Il est regrettable que tant la durée - 20 jours - que l'exposition médiatique n'aient pas été supérieures, étant donné la nature même du but poursuivi : structurer la phase 2 de la société française de la donnée. Dans ces temps de défiance des populations envers la puissance publique, cette consultation eut été à même d'impliquer plus directement les citoyens dans la création de la société de la transparence. Néanmoins, on ne pourra que se réjouir de l'ouverture de la société française à un nouveau type de rapport entre Etat et citoyens, basé sur l'accès à la donnée publique;.accès qui est démultiplié par les TIC.

 

Le cadre légal

La loi du 17 juillet 1978 créant la CADA a institué le droit de toute personne à l'information publique. La donnée publique recouvre toutes les données produites ou collectées par un acteur public (Etat, collectivités territoriales, ou toute entité dépositaire d'une mission de service public). La diffusion des données publiques est encadrée depuis 1994 par la circulaire dite Balladur, laquelle édicte les politiques mises en œuvres par les administrations quant à cette circulation (principes, moyens, limites, finalité). A cette date, un des buts poursuivis, outre l'accès à ces données, était la valorisation de ces dernières via des accords avec des organismes à but lucratif, sachant que l'administration n'avait ni les moyens, ni la culture pour exercer cette fonction.

Le caractère commercial de cette exploitation a été précisé par la suite par une directive de l'Union Européenne de 2003, partant du principe que :

" L'amélioration des possibilités de réutilisation des informations émanant du secteur public devrait notamment permettre aux entreprises européennes d'exploiter le potentiel de ces informations et contribuer à la croissance économique et à la création d'emplois. "

Ce faisant, le caractère mixte de cette donnée a établi une fois de plus le caractère schizophrène de la société de l'information; d'un coté, une donnée gratuite, à disposition du citoyen; de l'autre, une donnée identique mais payante pour les entreprises. De fait, il résulte du coût applicable à la donnée produite par l'administration la finalité de son traitement.

Les données publiques sont définies par chaque Etat, souvent fonction d'une appréciation locale quant à la définition de la privacy. Par exemple, les données de l'état civil sont publiques en Suède, au terme de la loi sur l'accès du public aux données de l'administration, qui est un principe constitutionnel. Un site comme http://www.birthday.se/ permet de rechercher, pour n'importe quel citoyen suédois, date de naissance et adresse. En France, l'Etat civil n'est pas inclus dans la donnée publique, au terme de dispositions de la CNIL sur les données personnelles. D'autres données peuvent également faire l'objet de restrictions à la diffusion, par exemple pour des données sensibles ou couvertes par la propriété intellectuelle.

Il arrive également que les institutions décident de produire de la donnée qui ne fait pas partie de son champ naturel d'intervention. Par exemple, la commune de Brocas, en France, a lancé une initiative visant à cartographier le village au moyen de photos et de vidéos. D'autres initiatives, issues généralement du monde associatif, lancent des projets similaires. C'est le cas de tele botanica, qui compter recenser la faune et la flore du monde francophone, ou du projet plus connu OpenStreetMap, qui vise à créer, de manière collaborative, une carte pouvant rivaliser avec GoogleMap. Ces données ne sont pas des données publiques au sens strict, même si leur production, dans un cadre collaboratif et non marchand, obéit à une volonté de restitution gratuite, et qu'elles sont coproduites par ses utilisateurs.

Si à l'origine, l'accent était mis sur le caractère économique de cette donnée, l'heure est actuellement à une réorientation plus politique. L'Etat français a accéléré le processus de mise à disposition des données, enjoignant récemment les communes de plus de 3500 habitants à ouvrir leurs données publiques, dans un contexte européen de révision de la Directive de 2003, qui tend à fournir la donnée à un coût "le plus bas possible". De manière générale, l'ouverture des données publiques peut-être vue comme un levier d'innovation - et de profits - pour le domaine marchand, mais l'orientation actuelle quant à sa réutilisation est une meilleure administration de la cité.

 

La société de la transparence : vers un open gouvernement

Il y a plusieurs types de populations intéressées par la donnée produite par les acteurs publics; chercheurs, statisticiens, journalistes, entreprises, citoyens, voire administrations elles-mêmes.

- les chercheurs, statisticiens, économistes, mathématiciens, sociologues... pour lesquels la donnée est la source même du champ de recherche;

- les journalistes, pour qui la donnée est une source d'information qui va être médiée à destination du public;

- les entreprises, qui vont travailler la donnée et l'enrichir à des fins commerciales, dans le cadre d'un service à valeur ajoutée par exemple, ou qui vont la mettre à disposition d'un écosystème plus innovant;

- les citoyens, qui peuvent s'approprier les données dans un but de compréhension, ou de création de valeur (en devenant eux-mêmes des entreprises)

- les administrations elles-mêmes, qui disposent d'une boucle de rétroaction et ont accès, tout aussi simplement que les entités suscitées, à des données permettant d'optimiser leur propre action.

 

La confiance dans l'Etat est la source de sa légitimité. La transparence existe notamment en France à l'encontre des pouvoirs législatifs et judiciaires via la publicité des débats des chambres parlementaires, ou encore - sauf restrictions très encadrées - de celle des débats et décisions de justice. Autre exemple, la publication des bans préalables au mariage.

La publicité du fonctionnement des organes exécutifs est quelque chose de nouveau. Longtemps, le secret a prévalu, et l'ouverture est désormais la règle, selon les sensibilités de chaque Etat.

Aux Etats-Unis, précurseurs en la matière, le Presidential Record Act définit l'étendue des communications de l'exécutif susceptibles d'être archivées, et disponibles. Et cette étendue est vaste, puisqu'elle comprend tous les emails adressés et reçus par le staff de la Maison Blanche, mais également les SMS, et jusqu'aux publications sur des sites comme facebook ou twitter. Ces archives deviennent consultables 5 ans après la fin d'une mandature, en vertu du Freedom of Information Act.

De même, dans un pays où l'argent est clairement le nerf de la guerre du processus électif, toutes les sommes reçues par un candidat, quel qu'il soit, sont disponibles sur le site de la Federal Election Commission.

Mais l'openData est également partie prenante dans les mécanismes politiques déroulant des choix des consommateurs. Ainsi, d'applications comme Buycott qui permet de tracer les intérêts d'entreprises dans des produits de consommation courante, et de prendre des décisions quant à cette information.

 

La "révolution numérique", qui est avant tout une appropriation par les citoyens des modes de production, traitement et de diffusion de l'information, revêt une importance capitale dans une appropriation égale des moyens politiques, où le public peut facilement se saisir de sujets d'importances et les mettre en valeur, dans une logique bottom up. Aux Etats-Unis, le site codeforamerica encourage les citoyens à hacker les processus existants afin de définir "une nouvelle forme de service public". Plus près de nous, la Région Ile de France a également initié - et incubé - cette dynamique citoyenne.

Dans le cadre d'un contrôle accru des institutions par les citoyens, ce sont pour la plupart des ONG qui se sont d'abord saisies de ces problématiques. Ainsi l'association Regards citoyens, qui édite les sites NosDéputés ou NosSenateurs, ou la fondation anglaise OpenKnowledge, qui s'occupe de projets aussi différents que la consommation d'energie des pays de l'UE ou l'éducation à l'openData, sous forme de cours.

 

De l'importance de la représentation

NY language by twitt
Programmez une carte pour représenter la fréquence des échanges de données, un seul pixel par millier de mégabytes sur un écran géant. Manhattan et Atlanta y brillent d’un blanc éblouissant. Puis elles se mettent à palpiter, au risque que le rythme du trafic surcharge votre simulation. Votre carte est en passe de se transformer en nova. On se calme. On diminue l’échelle. Un pixel par million de mégabytes. À cent millions de mégabytes par seconde, on commence à discerner certains pâtés de maisons dans le centre de Manhattan, les contours de zones industrielles vieilles d’un siècle cernant le noyau historique d’Atlanta… [Neuromancien, William Gibson, 1984]

L'openData, par le volume des données qu'il représente, est un ensemble bigData. Si la big data is the new soil, d'après David McCandless, le pape de la dataviz, le déluge informationnel rend cette donnée difficilement accessible pour le profane. C'est pourquoi, en parallèle avec le big data, s'est développée une industrie de la visualisation de la donnée, visant à permettre une compréhension hors les lignes de tableurs. De Google à des startup comme visual.ly ou captainDash, des solutions openSource aux logiciels propriétaires, de nombreuses entreprises capitalisent sur ce besoin de décrypter la donnée, qu'elle soit ouverte ou pas. On pourra trouver une remarquable présentation des outils disponibles sur le site mis en place par la Fonderie Île de France dans le cadre d'Expoviz.

Mais les limites à la restitution restent les mêmes que pour n'importe quel jeu de données : source, mises en perspectives, corrélations et/ou causalités; la dataviz n'est pas la panacée . On peut faire dire ce que l'on veut aux données, si l'on n'est pas respectueux des contextes, ou si les sources ne sont pas fiables.

 

D'autre part, le design joue un rôle essentiel dans l'exploitation des données, que ce soit la recherche, ou la visualisation. On peut toujours se faire plaisir à figurer des graphes, si l'interface n'est pas accessible simplement, la donnée ne le sera pas non plus.

 

Quelles directions pour Etalab

Data.gouv.fr se présente pour le moment comme un vaste repository abritant des données dont les formats sont variés (xls, csv, rdf, xml, doc..), de jeux structurés ou pas, de données hétérogènes, et sans doute redondantes pour certaines. 

Le dataset d'Etalab est riche d'informations fournies par un grand nombre d'entités, qui obéissent pour le moment à certaines des règles applicables aux données ouvertes : accessibilité, données brutes, centralisation, permanence, et de licence d'utilisation ouverte

Alors qu'Etalab réceptionne les données d'organismes producteurs divers (INSEE, différents ministères, offices nationaux, villes...), la production de la donnée par les citoyens eux-mêmes est une autre problématique. Cette donnée doit-elle être indexée au même titre que celle produite par les administrations, lesquelles portent une responsabilité dans la véracité de cette donnée. De même, à l'heure du web2.0, la qualification ou l'enrichissement des jeux de données par des éléments extérieurs au producteur de la donnée d'origine est une interrogation. Ensuite, l'obsolescence de la donnée est également une problématique importante; la mise à jour des données est un caractère essentiel.   

L'un des points importants pour l'institution est de mettre en place une facilité d'accès à ces données, tout comme de son traitement. Via la standardisation des jeux de données, via l'automatisation des requêtes, quelles soient unitaires ou globales (à l'exemple de l'API catalogue chez son homologue anglais). 

Dans un avenir plus lointain, il y aurait sans doute lieu d'harmoniser les jeux de données avec nos voisins européens, afin de pouvoir produire du sens sur des territoires multiples sans un retraitement fastidieux - et humain - de ces données.

La question fondamentale reste néanmoins de savoir si Etalab doit devenir un organisme de normalisation de la donnée collectée ou s'il n'est qu'un portail, recueillant la donnée elle-même mise en forme par ses producteurs. S'il doit fournir une donnée structurée ou semi-structurée, s'il doit lui-même l'intégrer en base de données, la traiter en silos ou en linkedData. Egalement, quel mécanisme, de push ou de pull, doit s'appliquer entre le portail et les producteurs. Enfin, de savoir si Etalab doit produire de la représentation de ces données comme peut le faire son pendant américain sur certains de ses dataset.

La récente affaire Cahuzac a mis en lumière la demande de transparence en matière politique, à laquelle le gouvernement a répondu en publiant le patrimoine de ses membres. Dans le même temps, le débat politique a fait éclore des divergences flagrantes entre les partisans de l'ouverture et ceux dénonçant une dictature de la transparence. La France est, avec la Slovénie, est un des mauvais élèves de l'Europe en terme de transparence du patrimoine des élus.   

Dans "la contre-démocratie", Pierre Rosanvallon a identifié trois sortes de rapports régissant les citoyens et l'Etat : la surveillance, la critique et le jugement. Dans l'enrichissement perpétuel des systèmes sociaux, l'ouverture des données publiques est un mouvement global qui participe activement d'un redesign du rapport entre gouvernants et gouvernés. De la moralisation de l'action publique comme de contre-pouvoirs à l'heure de la société de l'information, il structure l'openGovernment. La mission d'Etalab en est un des piliers fondateurs.