Follow

petit projet qui me démange depuis quelques temps : avoir la parité de genre des articles nécro du monde.

code : github.com/taniki/lemonde-pari

viz : observablehq.com/@taniki/lemon

aujourdd'hui : 19%

c'est qu'un début et déso pour le code de data analyste pour les puristes 🙈

avant de faire du NLP et du machine learning. je vais refaire la même technique j'avais utilisé, il y a 9 ans, pour détecter le genre des rues :
- regarder s'il y a une occurence du nom dans wikipedia
- regarder si c'est " née" ou " né" qui apparait ensuite

j'ai une certaine affection pour cette méthode car elle favorise l'intelligence collective. je pourrai aussi avoir au passage une métrique sur la présence dans wikipedia et commencer à mesurer les biais.

par chance, wayback machine archive le fil rss depuis 2014. j'ai tout récupéré et compilé dans le repo.

le fichier final du backfill : flatgithub.com/taniki/lemonde-

bon exercice de machine learning et de nlp si y en a qui cherchent un cas pratique.

Sign in to participate in the conversation
après la nuit

The social network of the future: No ads, no corporate surveillance, ethical design, and decentralization! Own your data with Mastodon!