Atelier Analyse Textuelle - Journées Droit & Analyses de données

Grégoire Le Campion

UMR CNRS 5319 PASSAGES

SO-MATé

Solenne Roux

UR4139 LabPsy - Université de Bordeaux

SO-MATé

Les données qualitatives

Entretiens

Profession de foi

L’analyse de données qualitatives

  • Qualitativement : Analyse de contenu
  • Quantitativement : Analyse textuelle

L’analyse de données qualitatives

  • Qualitativement : Analyse de contenu « les analyses de contenu étudient et comparent les sens des discours pour mettre à jour les systèmes de représentations véhiculés par ces discours » P89, (blanchet et gotman, 2015).

    -> Analyse par thèmes, chronologie, etc.

  • Quantitativement : Analyse textuelle

L’analyse de données qualitatives

  • Qualitativement : Analyse de contenu
  • Quantitativement : Analyse textuelle
    « la fréquence des mots et de la structure formelle de leurs co-occurrences dans les énoncés d’un corpus donné » (blanchet et gotman, 2015 ; Reinert, 1993)

-> Fréquence des mots et de leurs associations

Rappel Historique

En France

Explosion de l’analyse de données qualitatives dans les années 1970

  • Explosion de la communication
  • Beaucoup de contenu à traiter
  • Importance de formaliser des techniques d’analyse

Réaliser des analyses textuelles

Alceste, Iramuteq, Rtemis, Cortext Manager et bien d’autres

Iramuteq

IRaMuTeQ est une Interface de R pour les Analyses Multidimensionnelles de Textes et de Questionnaires.

Un logiciel libre (Licence GNU GPL) construit avec des logiciels libres par Pierre Ratinaud (Laboratoire LERASS) en 2008.

Iramuteq repose sur Python et sur R

Téléchargement et installation

  • Iramuteq fonctionne sur l’ensemble des systèmes d’exploitation (Windows, Mac, Linux)
  • Installer R est indispensable
  • Une fois Iramuteq installé, il est indispensable de vérifier l’installation des packages…

Préparation du corpus

Préparation du corpus - différents textes

Préparation du corpus - différents textes

Différentes analyses

  • Statistiques descriptives
  • Recherche de classes - CDH
  • Liens selon hypothèses spécifiques
  • Représentations visuelles - nuage de mots

Quelques exemples

l’article écrire la rue (Marpsat, 2010)

l’article écrire la rue (Marpsat, 2010)

l’article Parents d’un enfant en situation de handicap : quelles difficultés, quels besoins ? (Perier et al. 2021)

l’article «Empty Lands» ? Social representations of contaminated brownfields in France (Tendero & Bazart, 2018)

l’article «Empty Lands» ? Social representations of contaminated brownfields in France (Tendero & Bazart, 2018)

Mise en pratique - Statistiques descriptives

  • Nombre de textes = Nombre d’entretiens
  • Nombre d’occurrences = Nombre de mots au total
  • Nombre de formes = Nombre de mots différents
  • Nombre d’Hapax : forme unique

Mise en pratique - Lemmatisation

Lemme : Processus de lemmatisation : Rêver, rêver, rêve, rêves, Rêve représentent le même lemme

Les verbes sont ramenés à l’infinitif, les noms au singulier et les adjectifs au masculin singulier. Iramuteq réalise la lemmatisation à partir de dictionnaires.

Mise en pratique - les formes

  • Formes actives : Formes d’intérêt
  • Formes supplémentaires : Mots outils (Exemple : Avoir, être, on, et, je, de…)

Mise en pratique - les segments de texte

Les textes sont découpés en segments de texte (de même taille)

Un segment de texte contient 40 occurences (par défaut)

Mise en pratique - Classification

Classifications (Méthode Reinert) : Iramuteq reproduit la méthode de classification décrite par Reinert (1983, 1991) Méthode Reinert : Tableau croisant des segments de textes (= unités de contexte élémentaires «UCE») et des formes

Points d’alerte

  • Analyse textuelle va et vient interactif entre les données et leur interprétation (Demazière, 2006)

  • La lexicométrie n’est pas la seule méthode d’analyse des discours. Elle n’empêche pas aussi de lire le corpus ! (Pélissier, 2016)

Références bibliographiques

  • Bardin, L., (1977 1ère ed), L’analyse de contenu, PUF
  • Baril, E., Garnier, B., Utilisation d’un outil de statistiques textuelles, IRaMuteQ 0.7 alpha 2 - Interface de R pour les Analyses Multidimensionnelles de Textes et de Questionnaires, avril 2015
  • Blanchet, A., Gotman, A., (2015) L’entretien, Armand Colin ed 128.
  • Marpsat, M., (2010), Ecrire la rue : De la survie physique à la résistance au stigmate. Une analyse textuelle et thématique du journal d’Albert Vanderburg, sans domicile et auteur de blog, Sociologie, N°1, vol. 1, 95-120.
  • Daniel Pélissier, “Comment préparer l’analyse de textes de sites Web grâce à la lexicométrie et au logiciel Iramuteq ?,” dans Présence numérique des organisations, 14/04/2016, https://presnumorg.hypotheses.org/187.
  • Perier, S., Callahan, S., Séjourné, N., (2021),¨Parents d’un enfant en situation de handicap : quelles difficultés, quels besoins ?, Psychologie française, 66 (2021), 55-69, https://doi.org/10.1016/j.psfr.2020.01.002
  • Tendero, M., & Bazart, C., (2018) Emptylands”? Social representations of contaminated brown-fields in France 2018 halshs-01709548

Ressources en ligne

Ressources logicielles :

Tuto Iramuteq :

Présentation du corpus de travail

Professions de foi élections présidentielles en France entre 1965 et 2012 (Site du CEVIPOF).

Nettoyage et préparation des données très importants