Data visualization and analysis
Description de l’éditeur
Cette introduction aux techniques de visualisation des données et modèles statistiques se concentre sur trois types de données, notamment : les données continues, binaires, et scalaires. L’objectif est d’aider les chercheurs à comprendre pleinement les modèles de régressions, et à les utiliser dans leurs recherches. Garcia offre une couverture avancée sur l’analyse bayésienne, des données simulées, ainsi que des exercices, des scripts exécutables, et des conseils pratiques sur les dernières extensions pour R.
En démontrant les avantages des modèles statistiques pour les études sur l’acquisition d’une langue seconde, le livre est aussi une ressource pour les étudiants et les chercheurs dans la linguistique appliquée et la linguistique de corpus qui s’intéressent à l’analyse des données quantitatives.
Disponible sur Routledge et Amazon.
Accéder aux fichiers du livre sur http://osf.io/hpt4g
.
Points principaux
- Introduction à la programmation en R
- Concentration sur la visualisation des données
- Régressions linéaire, logistique, et ordinale
- Modèles hiérarchiques (effets mixtes)
- Chapitre sur l’analyse bayésienne
- Codes en R qui peuvent être reproduits par le lecteur
- Organisation des fichiers avec RProjects
Highly recommended as an accessible introduction to the use of R for analysis of second language data. Readers will come away with an understanding of why and how to use statistical models and data visualization techniques in their research.
Lydia White, James McGill Professor Emeritus, McGill University
Curious where the field’s quantitative methods are headed? The answer is in your hands right now! Whether we knew it or not, this is the book that many of us have been waiting for. From scatter plots to standard errors and from beta values to Bayes theorem, Garcia provides us with all the tools we need—both conceptual and practical—to statistically and visually model the complexities of L2 development.
Luke Plonsky, Professor, Northern Arizona University
This volume is a timely and must-have addition to any quantitative SLA researcher’s data analysis arsenal, whether you are downloading R for the first time or a seasoned user ready to dive into Bayesian analysis. Guilherme Garcia’s accessible, conversational writing style and uncanny ability to provide answers to questions right as you’re about to ask them will give new users the confidence to make the move to R and will serve as an invaluable resource for students and instructors alike for years to come.
Jennifer Cabrelli, Associate Professor, University of Illinois at Chicago
[…] this book’s strength lies in giving readers just enough to enable them to quickly apply their newly acquired knowledge and skills to their own data in order to produce complex, journalworthy analyses. The book is timely, with increasing expectations for more refined accounts of the diverse populations and intricate results stemming from studies of second language acquisition and bi/plurilingualism, as well as other fields of linguistic research.
Senécal & Sabourin (2023)
Nouvelles et mises à jour
Voici quelques mises à jour et informations supplémentaires concernant le code utilisé dans le livre. Certaines de ces informations sont basées sur les questions que je reçois au sujet dudit code. Cette page sera modifiée de temps en temps pour refléter les mises à jour des extensions et fonctions utilisées dans le livre. (e.g., mutate_...()
; voyez ici).
- La fonction
mutate_if()
a été remplacée paracross()
.
- Avant :
mutate_if(is.character, as.factor)
- Maintenant :
mutate(across(where(is_character), as_factor))
- En plus d’utiliser
scale_x_discrete(label = abbreviate)
pour abréger le texte sur les axes d’un graphique, vous pouvez aussi utiliserscale_x_discrete(labels = ...))
, qui vous permet de choisir comment le texte sera abrégé. - Pour en savoir plus sur la manière de rapporter des analyses bayésiennes, voyez cette publication récente de Kruschke : Bayesian Analysis Reporting Guidelines.
- À partir de R 4.1+, le pipe natif
|>
peut remplacer le pipe demagrittr
%>%
(lisez plus ici). -
guide = FALSE
a été remplacé parguide = "none"
. - Au lieu d’utiliser
select(vars)
, oùvars
est un vecteur avec des colonnes (variables) d’intérêt, vous devez maintenant utiliserselect(all_of(vars))
. - Consultez les nouvelles modifications apportées aux fonctions de vecteurs dans
dplyr
1.1.0 ici - Vous pouvez utiliser
read_csv()
etbind_rows()
(aveclist.files()
etfull.names = T
) pour combiner plusieurs fichierscsv
dans un même répertoire (ce qui évite l’utilisation d’un for-loop) — merci à Natália B. Guzzo de l’avoir signalé. - Lorsque vous travaillez avec des facteurs, la fonction
fct_relevel()
de l’extensionforcats
offre beaucoup plus de flexibilité que la fonctionrelevel()
.
Des extensions utiles non discutées dans le livre
-
dtplyr
offre le pouvoir de l’extensiondata.table
avec la syntaxe familière dutidyverse
. Vérifiez-le ici. -
case_when()
(dedplyr
) est une excellente fonction pour éviter d’utiliserif_else()
plusieurs fois. Voyez la documentation ici. -
sample_n()
affiche quatre (par défaut) lignes aléatoires d’un tableau de données. -
dplyr 1.1.0+
offre maintenant le groupage avant opération avec l’argument.by
dans des fonctions telles quemutate()
,summarize()
, etc. Un avantage clé est que nous n’avons plus besoin dedégrouper()
les variables après avoir appliqué la fonction. Consultez mon blog (en anglais) sur le nouveau groupage et sur la possibilité de créer un snippets pour automatiser son utilisation.
- R
4.2.0
et R4.3.0
fournissent également quelques fonctionnalités intéressantes, comme l’utilisation de_
comme placeholder pour le pipe natif|>
(en fait, l’équivalent de.
lorsque vous utilisez%>%
). De plus, vous pouvez extraire des valeurs spécifiques qui sont produites dans un pipeline d’une manière propre et élégante. Par exemple, le code ci-dessous extrait les coefficients d’un modèle linéaire.
data |> lm(response ~ predictor, data = _) |> _$coef
- Faute de frappe à la page 152, paragraphe 2 : “we already know the probability”.
- Faute de frappe à la page 218. Pour une raison mystérieuse, la version publiée du livre contient « Monte Carlos Markov Chain » (premier paragraphe), qui devrait évidemment se lire « Markov Chain Monte Carlo ». C’est en fait ce qui figure dans le glossaire à la fin du livre, à la page 254.
- Clarification à la page 225, paragraphe 2 (l’interpretation du code block 55) : “First, we have our estimates and their respective standard errors”. N’oubliez pas que dans les modèles bayésiens, l’erreur type des coefficients correspond à l’écart type de la probabilité a posteriori.
- Clarification sur la fonction
mean_cl_boot
mentionnée à la page 95 (paragraphe 1) : cette fonction (de l’extensionHmisc
) calcule (bootstrap) l’intervalle de confiance, défini par \(\bar{x} \pm z \cdot \frac{s}{\sqrt{n}}\) (où \(z\) est le niveau de confiance souhaité, p. ex., 1.96). Par conséquent, bien que les erreurs-types résultantes soient calculées dans le processus, les barres d’erreurs représentent les intervalles de confiance (qui seront, par définition, toujours plus larges que les barres représentant les erreurs-types). - À la page 20 : “Simply go to RStudio > Preferences (or hit Cmd + , on a Mac)”. Dans les versions les plus récentes de RStudio, cela a changé vers “Tools > Global Options…” (même raccourci).
- Chapitre 10 (Going Bayesian) : Notez que l’output d’un modèle
brm()
montre les intervalles crédibles bilatéraux à 95 % (ICl-95%
et ICu-95%
) basés sur les quantiles. Si la distribution a posteriori est symétrique (c’est-à-dire approximativement normale), cet intervalle coïncidera pratiquement avec l’intervalle de densité le plus élevé, HDI (c’est le cas dans le chapitre). Cependant, dans le cas de distributions asymétriques, l’intervalle indiqué dans l’output dubrm()
ne coïncidera pas avec les HDIs.
- Chapitre 10 (Going Bayesian) : Notez que l’output d’un modèle
Traduit avec DeepL.com (version gratuite)
Copyright © 2024 Guilherme Duarte Garcia
Comment citer
Garcia, G. D. (2021). Data visualization and analysis in second language research. New York, NY: Routledge.
Une partie de ce projet a reçu le ASPiRE Junior Faculty Award à l’université Ball State (2020–2021).