petit projet qui me démange depuis quelques temps : avoir la parité de genre des articles nécro du monde.
code : https://github.com/taniki/lemonde-parite-disparitions
viz : https://observablehq.com/@taniki/lemondefr-parite-disparitions
aujourdd'hui : 19%
c'est qu'un début et déso pour le code de data analyste pour les puristes 🙈
par chance, wayback machine archive le fil rss depuis 2014. j'ai tout récupéré et compilé dans le repo.
le fichier final du backfill : https://flatgithub.com/taniki/lemonde-parite-disparitions/blob/main/articles.backfill.csv?filename=articles.backfill.csv&sha=06b188bec44560586c91d1095178661f80118185
bon exercice de machine learning et de nlp si y en a qui cherchent un cas pratique.
avant de faire du NLP et du machine learning. je vais refaire la même technique j'avais utilisé, il y a 9 ans, pour détecter le genre des rues :
- regarder s'il y a une occurence du nom dans wikipedia
- regarder si c'est " née" ou " né" qui apparait ensuite
j'ai une certaine affection pour cette méthode car elle favorise l'intelligence collective. je pourrai aussi avoir au passage une métrique sur la présence dans wikipedia et commencer à mesurer les biais.