Data visualization and analysis

Description de l’éditeur

Data visualization and analysis in second language research Cette introduction aux techniques de visualisation des données et modèles statistiques se concentre sur trois types de données, notamment : les données continues, binaires, et scalaires. L’objectif est d’aider les chercheurs à comprendre pleinement les modèles de régressions, et à les utiliser dans leurs recherches. Garcia offre une couverture avancée sur l’analyse bayésienne, des données simulées, ainsi que des exercices, des scripts exécutables, et des conseils pratiques sur les dernières extensions pour R.

En démontrant les avantages des modèles statistiques pour les études sur l’acquisition d’une langue seconde, le livre est aussi une ressource pour les étudiants et les chercheurs dans la linguistique appliquée et la linguistique de corpus qui s’intéressent à l’analyse des données quantitatives.

Fichiers

Accéder aux fichiers du livre sur http://osf.io/hpt4g.

Points principaux

Introduction à la programmation en R
Concentration sur la visualisation des données
Régressions linéaire, logistique, et ordinale
Modèles hiérarchiques (effets mixtes)
Chapitre sur l’analyse bayésienne
Codes en R qui peuvent être reproduits par le lecteur
Organisation des fichiers avec RProjects

Critiques

Highly recommended as an accessible introduction to the use of R for analysis of second language data. Readers will come away with an understanding of why and how to use statistical models and data visualization techniques in their research.

Lydia White, James McGill Professor Emeritus, McGill University

Curious where the field’s quantitative methods are headed? The answer is in your hands right now! Whether we knew it or not, this is the book that many of us have been waiting for. From scatter plots to standard errors and from beta values to Bayes theorem, Garcia provides us with all the tools we need—both conceptual and practical—to statistically and visually model the complexities of L2 development.

Luke Plonsky, Professor, Northern Arizona University

This volume is a timely and must-have addition to any quantitative SLA researcher’s data analysis arsenal, whether you are downloading R for the first time or a seasoned user ready to dive into Bayesian analysis. Guilherme Garcia’s accessible, conversational writing style and uncanny ability to provide answers to questions right as you’re about to ask them will give new users the confidence to make the move to R and will serve as an invaluable resource for students and instructors alike for years to come.

Jennifer Cabrelli, Associate Professor, University of Illinois at Chicago

[…] this book’s strength lies in giving readers just enough to enable them to quickly apply their newly acquired knowledge and skills to their own data in order to produce complex, journalworthy analyses. The book is timely, with increasing expectations for more refined accounts of the diverse populations and intricate results stemming from studies of second language acquisition and bi/plurilingualism, as well as other fields of linguistic research.

Senécal & Sabourin (2023)

Nouvelles et mises à jour

Voici quelques mises à jour et informations supplémentaires concernant le code utilisé dans le livre. Certaines de ces informations sont basées sur les questions que je reçois au sujet dudit code. Cette page sera modifiée de temps en temps pour refléter les mises à jour des extensions et fonctions utilisées dans le livre. (e.g., mutate_...(); voyez ici).

La fonction mutate_if() a été remplacée par across().

Avant : mutate_if(is.character, as.factor)
Maintenant : mutate(across(where(is_character), as_factor))

En plus d’utiliser scale_x_discrete(label = abbreviate) pour abréger le texte sur les axes d’un graphique, vous pouvez aussi utiliser scale_x_discrete(labels = ...)), qui vous permet de choisir comment le texte sera abrégé.
Pour en savoir plus sur la manière de rapporter des analyses bayésiennes, voyez cette publication récente de Kruschke : Bayesian Analysis Reporting Guidelines.
À partir de R 4.1+, le pipe natif |> peut remplacer le pipe de magrittr %>% (lisez plus ici).
guide = FALSE a été remplacé par guide = "none".
Au lieu d’utiliser select(vars), où vars est un vecteur avec des colonnes (variables) d’intérêt, vous devez maintenant utiliser select(all_of(vars)).
Consultez les nouvelles modifications apportées aux fonctions de vecteurs dans dplyr 1.1.0 ici
Vous pouvez utiliser read_csv() et bind_rows() (avec list.files() et full.names = T) pour combiner plusieurs fichiers csv dans un même répertoire (ce qui évite l’utilisation d’un for-loop) — merci à Natália B. Guzzo de l’avoir signalé.
Lorsque vous travaillez avec des facteurs, la fonction fct_relevel() de l’extension forcats offre beaucoup plus de flexibilité que la fonction relevel().

Des extensions utiles non discutées dans le livre

dtplyr offre le pouvoir de l’extension data.table avec la syntaxe familière du tidyverse. Vérifiez-le ici.
case_when() (de dplyr) est une excellente fonction pour éviter d’utiliser if_else() plusieurs fois. Voyez la documentation ici.
sample_n() affiche quatre (par défaut) lignes aléatoires d’un tableau de données.
dplyr 1.1.0+ offre maintenant le groupage avant opération avec l’argument .by dans des fonctions telles que mutate(), summarize(), etc. Un avantage clé est que nous n’avons plus besoin de dégrouper() les variables après avoir appliqué la fonction. Consultez mon blog (en anglais) sur le nouveau groupage et sur la possibilité de créer un snippets pour automatiser son utilisation.

# Avant :
my_data |> 
  group_by(group, condition) |> 
  mutate(new_column = mean(number_column)) |> 
  ungroup()

# Maintenant :
my_data |> 
  mutate(new_column = mean(number_column), .by = c(group, condition))

R 4.2.0 et R 4.3.0 fournissent également quelques fonctionnalités intéressantes, comme l’utilisation de _ comme placeholder pour le pipe natif |> (en fait, l’équivalent de . lorsque vous utilisez %>%). De plus, vous pouvez extraire des valeurs spécifiques qui sont produites dans un pipeline d’une manière propre et élégante. Par exemple, le code ci-dessous extrait les coefficients d’un modèle linéaire.

data |> lm(response ~ predictor, data = _) |> _$coef

Errata et clarifications

Faute de frappe à la page 152, paragraphe 2 : “we already know the probability”.
Faute de frappe à la page 218. Pour une raison mystérieuse, la version publiée du livre contient « Monte Carlos Markov Chain » (premier paragraphe), qui devrait évidemment se lire « Markov Chain Monte Carlo ». C’est en fait ce qui figure dans le glossaire à la fin du livre, à la page 254.
Clarification à la page 225, paragraphe 2 (l’interpretation du code block 55) : “First, we have our estimates and their respective standard errors”. N’oubliez pas que dans les modèles bayésiens, l’erreur type des coefficients correspond à l’écart type de la probabilité a posteriori.
Clarification sur la fonction mean_cl_boot mentionnée à la page 95 (paragraphe 1) : cette fonction (de l’extension Hmisc) calcule (bootstrap) l’intervalle de confiance, défini par $\bar{x} \pm z \cdot \frac{s}{\sqrt{n}}$ (où $z$ est le niveau de confiance souhaité, p. ex., 1.96). Par conséquent, bien que les erreurs-types résultantes soient calculées dans le processus, les barres d’erreurs représentent les intervalles de confiance (qui seront, par définition, toujours plus larges que les barres représentant les erreurs-types).
À la page 20 : “Simply go to RStudio > Preferences (or hit Cmd + , on a Mac)”. Dans les versions les plus récentes de RStudio, cela a changé vers “Tools > Global Options…” (même raccourci).
- Chapitre 10 (Going Bayesian) : Notez que l’output d’un modèle brm() montre les intervalles crédibles bilatéraux à 95 % (IC l-95% et IC u-95%) basés sur les quantiles. Si la distribution a posteriori est symétrique (c’est-à-dire approximativement normale), cet intervalle coïncidera pratiquement avec l’intervalle de densité le plus élevé, HDI (c’est le cas dans le chapitre). Cependant, dans le cas de distributions asymétriques, l’intervalle indiqué dans l’output du brm() ne coïncidera pas avec les HDIs.

Traduit avec DeepL.com (version gratuite)

Garcia, G. D. (2021). Data visualization and analysis in second language research. New York, NY: Routledge.

@book{garcia_2021_dvaslr,
    title = {Data visualization and analysis in second language research},
    author = {Garcia, Guilherme Duarte},
    year = {2021},
    address = {New York, NY},
    publisher = {Routledge},
    isbn={9780367469610}}

Subvention pour le projet

Une partie de ce projet a reçu le ASPiRE Junior Faculty Award à l’université Ball State (2020–2021).

Les références

Senécal, A., & Sabourin, L. (2023). Review of "Data Visualization and Analysis in Second Language Research" by Guilherme D. Garcia. Canadian Journal of Linguistics/Revue canadienne de linguistique, 1‑4. https://doi.org/10.1017/cnj.2023.25