Data visualization and analysis

Description de l’éditeur

Cette introduction aux techniques de visualisation des données et modèles statistiques se concentre sur trois types de données, notamment : les données continues, binaires, et scalaires. L’objectif est d’aider les chercheurs à comprendre pleinement les modèles de régressions, et à les utiliser dans leurs recherches. Garcia offre une couverture avancée sur l’analyse bayésienne, des données simulées, ainsi que des exercices, des scripts exécutables, et des conseils pratiques sur les dernières extensions pour R.

En démontrant les avantages des modèles statistiques pour les études sur l’acquisition d’une langue seconde, le livre est aussi une ressource pour les étudiants et les chercheurs dans la linguistique appliquée et la linguistique de corpus qui s’intéressent à l’analyse des données quantitatives.

Fichiers

Accéder aux fichiers du livre sur http://osf.io/hpt4g.

Disponible sur Routledge et Amazon.


Points principaux

  • Introduction à la programmation en R
  • Concentration sur la visualisation des données
  • Régressions linéaire, logistique, et ordinale
  • Modèles hiérarchiques (effets mixtes)
  • Chapitre sur l’analyse bayésienne
  • Codes en R qui peuvent être reproduits par le lecteur
  • Organisation des fichiers avec RProjects

Critiques

Highly recommended as an accessible introduction to the use of R for analysis of second language data. Readers will come away with an understanding of why and how to use statistical models and data visualization techniques in their research.

Lydia White, James McGill Professor Emeritus, McGill University.

Curious where the field’s quantitative methods are headed? The answer is in your hands right now! Whether we knew it or not, this is the book that many of us have been waiting for. From scatter plots to standard errors and from beta values to Bayes theorem, Garcia provides us with all the tools we need—both conceptual and practical—to statistically and visually model the complexities of L2 development.

Luke Plonsky, Associate Professor, Northern Arizona University

This volume is a timely and must-have addition to any quantitative SLA researcher’s data analysis arsenal, whether you are downloading R for the first time or a seasoned user ready to dive into Bayesian analysis. Guilherme Garcia’s accessible, conversational writing style and uncanny ability to provide answers to questions right as you’re about to ask them will give new users the confidence to make the move to R and will serve as an invaluable resource for students and instructors alike for years to come.

Jennifer Cabrelli, Associate Professor, University of Illinois at Chicago.


Nouvelles et mises à jour

Voici quelques mises à jour et informations supplémentaires concernant le code utilisé dans le livre. Certaines de ces informations sont basées sur les questions que je reçois au sujet dudit code. Cette page sera modifiée de temps en temps pour refléter les mises à jour des extensions et fonctions utilisées dans le livre. (e.g., mutate_...(); voyez ici).

  1. La fonction mutate_if() a été remplacée par across(). Par exemple, l’équivalent à ... mutate_if(is.character, as.factor) est ... mutate(across(where(is_character), as_factor)).
  2. En plus d’utiliser scale_x_discrete(label = abbreviate) pour abréger le texte sur les axes d’un graphique, vous pouvez aussi utiliser scale_x_discrete(labels = ...)), qui vous permet de choisir comment le texte sera abrégé.
  3. Pour en savoir plus sur la manière de rapporter des analyses bayésiennes, voyez cette publication récente de Kruschke : Bayesian Analysis Reporting Guidelines
  4. À partir de R 4.1+, le pipe natif |> peut remplacer le pipe de magrittr %>% (lisez plus ici).
  5. guide = FALSE a été remplacé par guide = "none".
  6. Au lieu d’utiliser select(vars), où vars est un vecteur avec des colonnes (variables) d’intérêt, vous devez maintenant utiliser select(all_of(vars)).
  7. Consultez les nouvelles modifications apportées aux fonctions de vecteurs dans dplyr 1.1.0 ici
  8. Vous pouvez utiliser read_csv() et bind_rows() (avec list.files() et full.names = T) pour combiner plusieurs fichiers csv dans un même répertoire (ce qui évite l’utilisation d’un for-loop) — merci à Natália B. Guzzo de l’avoir signalé

Des extensions utiles non discutées dans le livre

  • dtplyr offre le pouvoir de l’extension data.table avec la syntaxe familière du tidyverse. Vérifiez-le ici.
  • case_when() (de dplyr) est une excellente fonction pour éviter d’utiliser if_else() plusieurs fois. Voyez la documentation ici.
  • sample_n() affiche quatre (par défaut) lignes aléatoires d’un tableau de données.

Errata et clarifications

  • Faute de frappe à la page 152, paragraphe 2 : “we already know the probability”.
  • Clarification à la page 225, paragraphe 2 (l’interpretation du code block 55) : “First, we have our estimates and their respective standard errors”. N’oubliez pas que dans les modèles bayésiens, l’erreur type des coefficients correspond à l’écart type de la probabilité a posteriori.
  • Clarification sur la fonction mean_cl_boot mentionnée à la page 95 (paragraphe 1) : cette fonction (de l’extension Hmisc) calcule (bootstrap) l’intervalle de confiance, défini par \(\bar{x} \pm z \cdot \frac{s}{\sqrt{n}}\) (où \(z\) est le niveau de confiance souhaité, p. ex., 1.96). Par conséquent, bien que les erreurs-types résultantes soient calculées dans le processus, les barres d’erreurs représentent les intervalles de confiance (qui seront, par définition, toujours plus larges que les barres représentant les erreurs-types).

Comment citer

Garcia, G. D. (2021). Data visualization and analysis in second language research. New York, NY: Routledge.

@book{garcia_2021_dvaslr,
    title = {Data visualization and analysis in second language research},
    author = {Garcia, Guilherme Duarte},
    year = {2021},
    address = {New York, NY},
    publisher = {Routledge},
    isbn={9780367469610}}
Subvention pour le projet

Une partie de ce projet a reçu le ASPiRE Junior Faculty Award à l’université Ball State (2020–2021).



Copyright © 2023 Guilherme Duarte Garcia