Quant Lab - NLP-enabled impact investing
Télécharger l'article

La data science pour l’investissement d’impact

Maxence Jeunesse PhD , Senior Data Scientist Quantlab – Core Investments

Guillaume Chevalier , Data Scientist Quantlab – Core Investments

Thomas Roulland, CFA, FRM, CIPM , Head of Solutions, Models and Tools Responsible Investment – Core Investments

 

Résumé

  • AXA IM a l’ambition d’évaluer l’impact des entreprises au regard des Objectifs de Développement Durable des Nations-Unies (ODD). Notre Quant Lab a développé un outil qui permet aux analystes de pouvoir traiter plus rapidement un grand nombre de documents.
  • Les analystes d’AXA IM ont déjà étudié des centaines d’entreprises. En utilisant l’ensemble de ces rapports internes enrichis de paragraphes extraits de Wikipédia,un algorithme d’apprentissage supervisé peut labelliser automatiquement des paragraphes issus de documents en lien avec notre univers d’investissement. L’extension de ces travaux permettrait de caractériser les principaux ODD de chaque entreprise.
  • Les méthodologies de traitement automatisé du langage (NLP) intégrées au sein du cadre d’évaluation des ODD vont permettre d’analyser plus rapidement un plus grand nombre d’entreprises et d’élargir l’univers d’investissement « Impact ».

AXA IM : Un gestionnaire d’actifs responsable

AXA IM est un gestionnaire d’actifs global avec une approche active, de long terme et responsable de l’investissement. Nous travaillons aujourd’hui avec nos clients pour leur permettre d’atteindre leurs objectifs d’investissement, tout en contribuant de façon positive aux changements du monde de demain. Chez AXA IM, nous avons plus de 20 ans d’expérience dans l’investissement responsable. Nous utilisons une méthode quantitative développée en interne pour évaluer les piliers Environnement, Social et Gouvernance de chaque entreprise. Celle-ci est combinée avec les études menées par nos analystes sur les mesures ESG, les actions pour le climat et les engagements pris par les entreprises pour répondre aux Objectifs de Développement Durable des Nations Unies (ODD).

L’équipe ISR Outils, Modèles et Solutions au sein d’AXA IM, participe à l’intégration des critères ESG et ODD dans nos fonds. Une des missions principales de cette équipe est d’apporter des méthodes et des outils innovants pour gérer le risque ESG. Ces outils utilisent des méthodologies de traitement automatisé du langage (NLP) à des vues d’indexation automatique, permettant aux gérants et aux analystes d’évaluer les rapports d’entreprises.

Traitement automatisé du langage (NLP)

Le traitement automatisé du langage est un domaine multidisciplinaire impliquant la linguistique, l'informatique et l'intelligence artificielle, qui vise à créer des outils de traitement de la langue naturelle pour diverses applications. Ce domaine de recherche est très actif tant sur le plan académique que sur le plan de ses applications par les entreprises.

Les modèles de “plongement de mots ou de phrases” consistent en la représentation mathématique d’un mot ou de toute une phrase comme un vecteur de nombres réels. La Figure 1, ci-dessous, montre comment un tel modèle permet de représenter et différentier visuellement deux ODDs différents.
Ces modèles ont récemment prouvé leur efficacité dans des tâches de classification textuelle. Certains moteurs de recherche internet et réseaux sociaux ont mis à disposition librement leurs modèles internes, ce qui nous a permis de s’en inspirer pour construire nos propres algorithmes.

Figure 1 : Représentation via « plongement de mots » des sous-objectifs en lien avec le ODD 3 (Santé) et le ODD 5 (Inégalités homme-femme)

Source : Spacy, UNSDG.org and AXA IM Quant Lab, 12 décembre 2019. Premier et deuxième axes d’une Analyse en Composantes Principales (ACP) appliquées sur la représentation par plongement Spacy English Word2Vec

Apprentissage supervisé

L’apprentissage supervisé est une tâche d’apprentissage machine au cours de laquelle le résultat du modèle est disponible pour chaque exemple de la base d’apprentissage. Autrement dit, il s’agit de construire un algorithme (vu comme un ensemble de règles) qui soit en mesure de reproduire les résultats observés. Dans notre cas, notre algorithme devra pouvoir attribuer les mêmes labels que ceux de l’ensemble d’apprentissage à partir du contenu du texte.

Depuis plusieurs années, AXA IM a étudié de nombreuses entreprises de pays et de secteurs variés via le prisme de l’investissement responsable. Cet ensemble de rapports d’experts constitue une formidable base de validation qui nous permet de vérifier la pertinence de notre algorithme et de pouvoir être confiant lorsque celui-ci labellisera des paragraphes de nouveaux documents.

Méthodologie de labellisation des paragraphes

Les méthodes d’apprentissage supervisé sont limitées par la qualité de la base d’apprentissage. Idéalement, celle-ci inclurait de nombreux exemples diversifiés et ne comporterait pas de biais de sélection. Être sûr que ces hypothèses sont vérifiées est un exercice délicat.

Construction de la base d’apprentissage par extension en utilisant Wikipédia. Nous avons créé une méthode générative pour construire une base d’apprentissage comportant de nombreux exemples. Nous avons tout d’abord avec l’aide d’analystes ISR construit une liste de mots-clés pour chaque ODD (par exemple sur l’ODD 3 en Figure 2). Puis pour chaque mot-clé, nous avons listé des pages Wikipédia reliées. De ces pages, nous avons ensuite extrait des paragraphes (définis comme un petit ensemble de phrases) que nous associons ainsi à un ODD.

Figure 2 : Liste des mots-clés associés au ODD 3 (Santé)

Tous ces mots-clés peuvent être associés à une page Wikipédia. Cette méthodologie permet d’extraire environ 20.000 paragraphes à partir d’un peu plus de 250 mots-clés associés à 18 thèmes (17 pour les 17 ODDs et un thème relatif au vocabulaire financier ; voir Figure 3).

Figure 3 : Distribution du nombre de paragraphes par thématique.

Comme l’illustre la Figure 3, notre base d’apprentissage n’est pas parfaitement équilibrée : elle présente un biais notamment sur la thématique en lien avec les inégalités homme-femme (ODD 5). Les raisons de ce déséquilibre sont de deux ordres : un nombre de mots-clés un peu plus élevé et des pages Wikipédia associées plus fournies. Ce biais appelle à la prudence lors de la procédure d’apprentissage pour éviter que le modèle ne surpondère cette thématique.

Chaque paragraphe compte environ 75 mots (Figure 4).

Figure 4 : Distribution du nombre de mots par paragraphe

Source : Wikipédia et AXA IM Quant Lab

Problème de classification. C’est l’un des problèmes classiques en apprentissage supervisé. Il s’agit de trouver un estimateur qui prédit la classe à laquelle appartient un échantillon de données selon des caractéristiques associées à chaque observation. Il s’agit ici d’un problème multi-classe, avec une classe pour chaque ODD (donc 17), une relative au vocabulaire financier et une générée aléatoirement ayant vocation à repérer les paragraphes relevant d’erreurs d’extraction (possibles lors de l’étape de conversion automatisée des documents, images comprises, en texte).

Modèles. Nous avons entraîné différents modèles sur les paragraphes issus de Wikipédia.

Modèle 1 :

Caractéristiques : Vectorisation des paragraphes par « plongement de mots » (FastText)
Algorithme : FastText

Modèle 2:

Caractéristiques : Nombre de mots-clés divisés par le nombre de mots du paragraphe.
Algorithme : Régression Logistique (pondérée pour prendre en compte le caractère déséquilibré de la base d’apprentissage)

Modèle 1 x Modèle 2:

Caractéristiques : Sorties du modèle 1 et 2.
Algorithme : Moyenne géométrique des probabilités associées aux modèles 1 et 2.

Résultats et évaluation. Pour évaluer les différents modèles, nous avons utilisé un sous-ensemble de la base constituée des analyses effectuées par les analystes ISR. Ce sous-ensemble de validation est constitué de 47 documents d’une page pour 47 entreprises différentes. Chaque document est une analyse de l’entreprise au regard de l’impact qu’elle a sur les ODDs.

Dans notre évaluation, nous avons considéré chaque document comme un unique paragraphe. Pour chacun d’eux, les différents modèles associent la probabilité d’être en lien avec l’un des ODDs. A titre de comparaison, nous mettons les résultats d’un modèle purement aléatoire (qui attribuerait une probabilité de 1/17 à chacun des 17 ODDs).

Le critère d’évaluation retenu est que l’ODD principal identifié par l’expertise ISR soit dans les n ODDs les plus probables (où n varie de 1 à 4). Nous calculons, sur l’ensemble de la base de validation, le nombre de fois que le critère d’évaluation est vérifié (Figure 5), en mettant en évidence, pour chaque ligne, le ou les meilleurs modèles.

Figure 5 : ODD principal dans les n premiers ODDs prédits.

De manière rassurante, tous les modèles sont meilleurs que le modèle aléatoire. Par ailleurs, il apparaît que le modèle 2 n’est pas le plus efficace mais donne tout de même des résultats décents au vu de sa simplicité. Enfin, en mélangeant les modèles 1 et 2, les résultats s’améliorent, ce qui suggère de tester d’autres pistes et modèles pour ensuite les combiner.

Pistes d’amélioration. Au niveau des sources de données, nous pourrions étendre notre corpus de paragraphes à annoter avec des articles de presse. Au niveau de la structuration de la donnée textuelle, le processus d’extraction en paragraphes pourrait être amélioré par une meilleure analyse syntaxique (« parsing ») et un algorithme plus fin de découpes en paragraphes. Cette étape est loin d’être triviale et son importance dans la qualité des résultats ne doit pas être sous-estimée. Au niveau de la phase d’apprentissage, l’utilisation plus poussée d’un mécanisme d’apprentissage rétroactif permettrait d’accroître la quantité et la qualité des données d’entraînement et de tests pour notre algorithme.

Cet outil est ensuite raffiné par enrichissement de la base de paragraphes d’entraînement en labellisant (positivement ou négativement) les paragraphes extraits directement des rapports d’entreprises. Ainsi, en validant la labellisation de l’algorithme, les analystes lui permettent de s’améliorer par un nouvel apprentissage sur une base enrichie.

Intégration dans notre référentiel ODD

Un premier cas d’application concret d'un tel outil consiste à ajouter les résultats du modèle dans notre référentiel d’analyses propriétaire des ODDs. Les analystes ISR peuvent calibrer le modèle en supervisant et en validant la précision des résultats avant de les intégrer au cadre d’analyse quantitatif AXA IM.

Couverture. Cette combinaison d'analyse « machine » et de jugement humain fera gagner du temps aux analystes lors de l’analyse d'une entreprise spécifique. En effet, elle fournit un moyen efficace de naviguer dans les documents dans une perspective d’impact (ODD) et ce de manière non-linéaire. Des informations utiles peuvent notamment être trouvées dans des pages qui se trouvent au milieu d’une section sans lien évident avec les ODDs, et pas nécessairement au début des documents. De plus, les analystes dotés de cet outil peuvent couvrir davantage d’entreprises sur la même période.

Nouvelle dimension. Ces résultats permettront aux analystes d’ouvrir une réflexion autour des différents ODDs sélectionnés par l’algorithme sur les émetteurs sans biais subjectif. Par ailleurs, l’univers d'investissement peut être analysé avec une approche liée aux ODDs, en plus des classiques classifications sectorielles ou géographiques.

Un nouvel ensemble de variables pourrait émerger de ces résultats, façonnant la conception de signaux améliorés pour identifier les entreprises « leaders » d’impact ou les retardataires potentiels.

Propriété. Avoir une compréhension complète des données d’entrée utilisées dans le modèle nous donnera un meilleur éclairage sur les résultats. Un ensemble de données propriétaire augmente notre pouvoir explicatif des scores / notations pour les clients.
Avec cet outil, nous continuer à diversifier notre ensemble de données propriétaires, déjà existant pour certaines classes d'actifs spécifiques comme les obligations vertes et sociales, avec de nouvelles informations en lien avec les ODDs sur les entreprises. Alors que les gestionnaires d'actifs pairs utilisent les mêmes ensembles de données provenant du même ensemble de fournisseurs de données ESG externes, l’utilisation de données propriétaires diversifie potentiellement le message.

Réactivité. Cet outil permet aussi de résoudre (en partie) certaines limitations, comme l’ancienneté des données, auxquelles sont confrontés la plupart des données ESG. En effet, certains points de données ESG reposent sur des informations annuelles, créant un certain retard dans une approche déjà rétrospective. L’application de méthodologies de traitement automatisé du langage aux flux d'actualités offre une plus grande réactivité dans l’analyse et, partant, dans les décisions d'investissement.

Ce document est exclusivement conçu à des fins d’information et ne constitue ni une recherche en investissement ni une analyse financière concernant les transactions sur instruments financiers conformément à la Directive MIF 2 (2014/65/UE) ni ne constitue, de la part d’AXA Investment Managers ou de ses affiliés une offre d’acheter ou vendre des investissements, produits ou services et ne doit pas être considérée comme une sollicitation, un conseil en investissement ou un conseil juridique ou fiscal, une recommandation de stratégie d’investissement ou une recommandation personnalisée d’acheter ou de vendre des titres financiers. Ce document a été établi sur la base d'informations, projections, estimations, anticipations et hypothèses qui comportent une part de jugement subjectif. Ses analyses et ses conclusions sont l’expression d’une opinion indépendante, formée à partir des informations disponibles à une date donnée.
Toutes les données de ce document ont été établies sur la base d’informations rendues publiques par les fournisseurs officiels de statistiques économiques et de marché. AXA Investment Managers décline toute responsabilité quant à la prise d’une décision sur la base ou sur la foi de ce document. L’ensemble des graphiques du présent document, sauf mention contraire, a été établi à la date de publication de ce document.
Par ailleurs, de par la nature subjective des opinions et analyses présentées, ces données, projections, scénarii, perspectives, hypothèses et/ou opinions ne seront pas nécessairement utilisés ou suivis par les équipes de gestion de portefeuille d’AXA Investment Managers ou ses affiliés
Ce document a été édité par AXA INVESTMENT MANAGERS SA, société de droit français, dont le siège social est situé Tour Majunga, 6 place de la Pyramide, 92800 Puteaux, immatriculée au registre du commerce et des sociétés de Nanterre sous le numéro 393 051 826. Dans d'autres juridictions, ce document est émis par les filiales d'AXA Investment Managers SA dans ces pays.
Au Royaume-Uni, ce document est destiné exclusivement aux investisseurs professionnels, tels que définis à l'annexe II de la directive 2014/65 / UE sur les marchés d'instruments financiers («MiFID»). La circulation doit être restreinte en conséquence.

© AXA Investment Managers 2020. Tous droits réservés