Ressources
Vous trouverez ci-dessous une sélection d’outils, de jeux de données, de tutoriels et de ressources que j’ai développés ou que j’utilise dans le domaine de la linguistique, de la préparation de documents, de l’analyse de données et, plus largement, de la vie académique.
“Pensar es olvidar diferencias, es generalizar, abstraer” (Borges)
Outils principaux
- phonokit (bibliothèque Typst pour la phonologie). Elle permet de créer facilement une grande variété de représentations phonologiques : SPE, OT, MaxEnt, géométrie des traits, prosodie, trapèzes vocaliques, dispersion vocalique, tableaux consonantiques, et plus encore.
- synkit (bibliothèque Typst pour la syntaxe et la sémantique). Elle permet de créer des arbres syntaxiques avec soutien natif pour l’annotation sémantique, les gloses et les exemples numérotés. Les fonctions sont intuitives et la bibliothèque utilise aussi des étiquettes intelligentes.
- Fonology (bibliothèque R). Elle permet d’extraire des variables phonologiques à partir de données écrites. Aussi disponible : la conversion graphème-phonème pour l’anglais, le français, l’italien, le portugais et l’espagnol.
Général
Vous trouverez ci-dessous différents scripts que j’ai développés avec R, ainsi que des informations sur les outils que j’utilise normalement (Ma méthode de travail). Ces scripts sont là pour compléter les tutoriels R que j’ai conçus au fil des années.
Données
Le Portuguese Stress Lexicon est un projet que j’ai développé pendant mon doctorat. Il s’agit d’un lexique complet des non-verbes du portugais codés pour un certain nombre de variables phonologiques. Grâce à son format tidy data, le lexique peut être analysé facilement. Le Talian corpus project est un projet en cours avec Natália B. Guzzo. Le talian est une langue sous-étudiée parlée dans le sud du Brésil. Notre objectif est de rendre ces données codées accessibles afin que d’autres chercheurs puissent utiliser le corpus dans leurs propres projets.
Méthodes de recherche en linguistique
Vous trouverez ci-dessous Comment visualiser les voyelles en R, un bref tutoriel sur la visualisation des voyelles avec ggplot2 en R. Ce tutoriel est mis à jour de temps en temps. Vous trouverez aussi des tutoriels sur le web scraping, la syllabation avec Regex, ainsi que Automating Praat experiments, un script Praat que j’ai développé pour combiner des réponses à des questionnaires, des fichiers de données et des fichiers d’expériences Praat. L’objectif est de générer des fichiers csv prêts pour l’analyse. J’ai utilisé ce script plusieurs fois, et il m’a fait gagner des heures de travail.
- Comment visualiser les voyelles en R
- Comparaisons multiples avec des modèles bayésiens
- Web scraping avec R
- Syllabation avec Regex
autoPraat: automatiser les expériences Praat- Analyse de données avec R
- Modèles ordinaux en R (HLS 2022), avec Scott Perry
Si vous cherchez où apprendre R de manière plus générale, ma première recommandation pour R est R for Data Science de Wickham. Ma première recommandation pour la statistique en général est Statistical Rethinking de McElreath (voir ci-dessous, dans les chaînes YouTube utiles).
L’objectif de ces applications est de rendre des concepts abstraits plus conviviaux et intuitifs. Je les utilise normalement dans les cours de méthodes de recherche.
Préparation de documents
En matière de préparation de documents, mon outil principal a été \(\LaTeX\) pendant environ quinze ans. Ensuite, je suis passé à Typst. Par conséquent, les deux entrées ci-dessous ne reflètent pas vraiment ce que j’utilise actuellement. Je pense toujours qu’il est important d’apprendre \(\LaTeX\), puisque de nombreuses revues n’acceptent pas Typst, même si beaucoup n’acceptent pas non plus les fichiers tex. Mais il est difficile de revenir à \(\LaTeX\) après avoir utilisé Typst. Vous trouverez quelques billets de blog sur ce sujet ici.
- LaTeX et phonologie. Il n’existe pas beaucoup de packages pour les phonologues en \(\LaTeX\), au-delà de
tipaet de quelques autres. Ce tutoriel explique essentiellement comment faire de la phonologie avectikz. Comme vous le verrez, ce n’est pas idéal. C’est pourquoi j’ai créé phonokit. - Mise en forme de vos documents
Langue portugaise
Ma langue maternelle est le portugais du Brésil. Voici les deux plus anciennes grammaires du portugais.
- Première grammaire du portugais (1536)
- Fernão Doliueira; depuis la Biblioteca Nacional de Portugal
- Deuxième grammaire du portugais (1540)
- João de Barros; depuis la Biblioteca Nacional de Portugal
Études supérieures
Il y a beaucoup de choses à savoir sur les études supérieures et le marché du travail universitaire avant d’entreprendre ce parcours. Il existe de nombreux articles utiles en ligne, et je recommande fortement le livre ci-dessous.
- Lisez ce livre de Jason Brennan
- Quelques conseils généraux pour les étudiant·es des cycles supérieurs
Voici une liste de bons outils, sites web, livres et projets développés par des gens remarquables. Les sujets vont du plus général au plus spécifique, mais le thème principal est évidemment la linguistique.
- Sophismes et biais cognitifs
- Regression Modeling for linguistic data : livre numérique de Sonderegger (McGill)
- Improving your statistical inferences : livre numérique de Daniël Lakens
- R for Data Science : ouvrage complet sur R par Wickham et ses collègues
- Detexify : dessinez le symbole \(\LaTeX\) que vous cherchez
- L’alphabet phonétique international
- Carte IPA interactive
- Carte IPA interactive plus détaillée
- Seeing Speech (carte IPA)
- IPAify par K. Ryan (conversion en API étroit)
- Pink Trombone : synthèse vocale
- Carte des langues selon le nombre de locuteurs
- Familles de langues (Europe)
tidygutenbergr(fonctionne avec Project Gutenberg)- All Things Linguistic
- Language Log
- Omniglot: The online encyclopedia of writing systems and languages
- Native Land Digital
- World Atlas of Linguistic Structures
- Grambank
- Dictionnaire CMU
- Buckeye Corpus
- Atlas sonore des langues régionales de France
- Phoible
- Fonds de données linguistiques du Québec
- Friends Don’t Let Friends Make Bad Graphs
Je suis abonné à trop de chaînes YouTube, donc j’ai toujours plusieurs recommandations, peut-être trop. La liste ci-dessous est divisée par thèmes qui m’intéressent.
Statistique
- Statistical Rethinking (playlist avec les cours de Richard McElreath). C’est, à mon avis, le meilleur cours de statistique que vous puissiez suivre si vous avez déjà quelques bases. De même, son livre, du même nom, est ma principale recommandation lorsqu’il s’agit de statistique et de la manière de vraiment penser le sujet.
Langage et linguistique
Général
- McGill Office for Science and Society
- La chaîne de Simon Clark sur le doctorat
- VSauce (poser des questions et explorer les réponses)
- 3Blue1Brown (si vous aimez les maths et les visuels)
- Physics Girl (excellentes vidéos de physique)
- Great Art Explained (excellentes vidéos)
- Half as Interesting (des choses intéressantes que vous ne connaissez normalement pas)
- Wendover (semblable à Half as Interesting, mais plus long et plus détaillé)
- ASAP Science (courtes vidéos sur des sujets intéressants)
- MKBHD (tests de matériel tech)
- Overleaf (si vous voulez quitter Word et utiliser \(\LaTeX\) à la place)
- The Nerdwriter (essais sur divers sujets)
Copyright © Guilherme Duarte Garcia