spinoza_testing / assets /source_information.md
Qdonnars's picture
updates license, source description and prompt loi
154cd40

A newer version of the Gradio SDK is available: 5.15.0

Upgrade

Voici une brève introduction aux sources de données accessibles par les différents agents.

  1. Science : cet outil est composé des rapports du GIEC et de l'IPBES.

  2. Loi : cet outil est basé sur le droit français et regroupe 21 des "codes" qui ont été modifiés par la "loi climat" de 2021.

  3. Organismes Publics : cet outil interroge la politique nationale française de la stratégie bas carbone (SNBC).

  4. ADEME : cet outil est dédié aux données de l'ADEME, et nous avons sélectionné différentes catégories de rapports :

    • Guides mis à disposition du grand public
    • Rapports d’expériences sur les nouvelles technologies
    • Études et recherches sur les impacts locaux, documents institutionnels (analyses commandées par la France & rapports d'activité)
    • Plans de transition sectoriels pour les secteurs industriels les plus émetteurs (verre, papier, ciment, acier, aluminium, chimie, sucre)
  5. Presse : En 2023, des centaines de milliers d'articles provenant de 212 titres de presse ont été analysés pour repérer ceux consacrés à la Transition Écologique. Une requête documentaire de plus de 300 mots-clés a permis de sélectionner les articles mentionnant ces termes dans le titre, le chapo, les intertitres ou plusieurs fois dans le texte. Les articles choisis étaient spécifiquement axés sur la transition écologique et non de simples mentions. Une fois dédupliqués et répartis proportionnellement entre les groupes de médias, des articles ont été tirés aléatoirement, sans se baser sur des critères de taille, de format ou de contenu pour arriver à un total de 28450 artivles

  6. AFP : Plus de 700 documents de l'AFP ont aussi été collectées :

    • Repères et encadrés : Ces formats pédagogiques contiennent en moyenne entre 400 et 600 mots. Structurés en 3 à 5 sous-parties, leur objectif est d’expliquer de manière claire et concise un fait d’actualité.
    • Dépêches : Ces articles sont rédigés par l’AFP et traitent de l’actualité en temps réel, selon une approche de pyramide inversée (les informations essentielles en premier). Leur longueur varie de quelques mots ("alerte") à environ 600 à 700 mots pour les articles plus détaillés ("papier général").
    • Fact-checking : Vérification des faits en lien avec l’actualité.
    • Papiers généraux

Voici quelques informations sur ce qu’est le score de pertinence. Le score de pertinence est une mesure utilisée pour évaluer la pertinence des documents récupérés par rapport à une requête donnée dans un vectorstore. Lorsqu’un document est stocké sous forme de vecteur, le score de pertinence indique à quel point ce document est proche de la requête en termes de similarité vectorielle.

Voici comment cela fonctionne généralement :

  • Représentation vectorielle : Les documents et la requête sont convertis en vecteurs dans un espace vectoriel.
  • Calcul de similarité : Une mesure de similarité (comme le produit scalaire ou la distance cosinus) est utilisée pour comparer les vecteurs des documents avec celui de la requête.
  • Score de pertinence : Le résultat de cette comparaison est le score de pertinence, qui indique à quel point chaque document est pertinent par rapport à la requête.

Un score plus élevé signifie que le document est plus pertinent pour la requête. Cela permet de classer les documents récupérés en fonction de leur pertinence.