Le tournant empirique de l’économie publique

Le tournant empirique de l’économie publique

Depuis les années 1980, la science économique a pris un « tournant empirique ». L’économie publique illustre parfaitement cette évolution.

Le tournant empirique est une évolution importante de la science économique récente : l’accès à des bases de données et à la capacité informatique de les traiter, permet (enfin ?) aux économistes de tester empiriquement les prédictions de leurs modèles. C’est un pas substantiel en faveur d’une science économique davantage popperienne, puisque cette confrontation aux données permet de mieux discriminer les modèles entre eux.

Dans une recherche récente, pas encore publiée, Henrik Jacobsen Kleven de l’Université de Princeton (États-Unis) a étudié le corpus textuel  des workings papers du NBER (National Bureau of Economic Research), qui est un réseau de recherche en économie américain. Il a concentré sa recherche sur les termes employés dans les working papers en économie publique, depuis 1975.

L’idée est simple : l’évolution de la discipline a certainement modifié les termes employés dans les articles. Suivre l’évolution des mots devrait permettre d’identifier l’évolution de la discipline.

Ses résultats préliminaires sont cohérents avec ce que l’on sait de l’évolution de la science économique depuis les années 1980 : l’économie publique a elle aussi connu un tournant empirique majeur.

On observe trois marques de ce tournant empirique. La première est l’explosion de l’usage du terme « identification », qui est utilisé en science économique pour désigner une stratégie de recherche destinée à connaître la valeur empirique des paramètres d’un modèle théorique – à « identifier » la valeur de ces paramètres. En d’autres termes, l’identification consiste à chercher la variante d’un modèle théorique qui correspond le mieux aux données que l’on observe.

En bleu, la part des workings papers qui mentionnent « identification »

Si l’on ouvre la boîte noire des stratégies d’identification utilisées, on en trouve de deux grands types : les expériences, et l’usage de données administratives.

Les expériences peuvent être de trois types :

  • Les expériences de laboratoire : on fait venir des sujets dans une pièce, on leur fait prendre des décisions que l’on va ensuite récolter dans une base de données et étudier. Par exemple, si l’on teste l’effet d’un discours de motivation sur l’effort fourni, on va faire un discours à la moitié des sujets, et ne pas faire de discours à l’autre moitié, et on comparera le niveau d’effort entre les deux groupes. Dans ce cas, on dira qu’on a deux traitements expérimentaux
  • Les expériences naturelles ou quasi-expériences : on profite d’un évènement indépendant et aléatoire pour « simuler » des traitements. Par exemple, si suite à une guerre une région reçoit un afflux massif de migrants et pas sa voisine, on peut utiliser cette situation pour comparer l’évolution des deux régions (pourvu qu’elles ne soient pas trop différentes l’une de l’autre)
  • Les expériences contrôlées : on sélectionne au hasard deux groupes dans une même population, et on leur applique deux traitements différents. Par exemple, on prend deux villages en Inde, dans l’un on distribue des moustiquaires d’un certain type, dans l’autre des moustiquaires d’un type différent, et on observe l’évolution des maladies propagées par les moustiques dans les deux villages

Le recours aux termes décrivant ces trois types d’expérience a explosé, ce qui indique que ces trois méthodologies expérimentales sont devenues une partie intégrante du corpus scientifique.

En bleu, la part des working papers qui mentionnent « expérience naturelle », en gris « expérience de laboratoire », et en orange « expérience contrôlée »

L’usage de données administratives est une autre stratégie empirique. Là où, avec les expériences, le chercheur construit lui-même sa base de données, dans le cas des données administratives il va utiliser des bases de données qui existent par ailleurs, et qui ne sont pas créées pour des motifs scientifiques. Par exemple, la base des données des impôts sur le revenu payés en France l’an dernier : cette base de données n’a pas été constituées dans un but scientifique, mais en y accédant on peut certainement tester un certain nombre de modèles ou de résultats.

En bleu, la part des working papers qui mentionnent « données administratives »

De manière plus anecdotique, on notera aussi un décollage massif autour du big data et du machine learning, même s’il faut faire attention à l’échelle… Cela donne en tout cas une petite idée du type de recherches qui seront conduites dans les années à venir.

En bleu, la part des working papers qui mentionnent « apprentissage automatique », en orange « big data »

Globalement, on retrouve avec l’économie publique les mêmes tendances observées dans le reste de la science économique – ce qui est quelque part rassurant ! Je serais par ailleurs curieux de connaître les tendances dans l’usage des mots pour d’autres domaines de la science économique.

Une dernière question, pour la route, et à laquelle la recherche ne répond pas mais que je trouve intéressante : quel mécanisme explique l’évolution des méthodes de recherche dans la population de working papers étudiée ? Est-ce que les chercheurs théoriciens se sont mis à faire de l’empirique, ou est-ce que le NBER a recruté davantage de chercheurs empiriques ? La réponse est probablement un peu les deux, même si je pense que c’est surtout la stratégie de recrutement qui explique l’évolution.

Dans tous les cas, il est clair que la science économique n’est plus une discipline purement théorique depuis au moins trente ans. Une réalité scientifique que bon nombre de « commentateurs » dans le paysage médiatique français ont l’air de complètement ignorer…