retour vers Enquête Twitter
Données attendues
I. Données statiques
Obtenues par extraction des profils des utilisateurs, de leurs attributs et de leurs contacts (followers et followees), mais sans la date de mise en relation avec les contacts.
II. Données dynamiques sur l'historique des messages
Extraction de l'ensemble des twits, avec l'auteur, le contenu, et la date. Un pré-traitement de chaque message peut permettre de disposer d'informations supplémentaires :
- langue du message (cf. Jean Veronis) ;
- extractions de codages (RT, @, #, liste exacte à fixer ...) ;
- extraction des url, en les développant (conversion des tinyurl et consor) et en les canonisant (cf RTGI ?).
III. Données dynamiques sur les nouveaux messages
Extraction des nouveaux twits publics (par suivi du flux RSS général) et éventuellement mise à jour (hebdomadaire ?) de la liste des utilisateurs et de leur liste de contacts.
Formats de données et requêtes sur la base de données
Pour ne pas être limité après coup dans les possibilité de traitement, il faudrait que toutes les informations de la base de données soient associées dans les requêtes à un identifiant unique (numérique) :
- identifiant de compte utilisateur pour les informations relatives aux utilisateurs (messages, attributs...) ;
- paires d'identifiants pour les informations concernant des relations (contacts, @, nombre de messages échangés...). Si possible, avoir un numéro unique pour chaque paire d'identifiants orientés ? ;
- les hashtag (#) et les url canonisées devraient aussi avoir un identifiant unique numérique pour faciliter le traitement global de ces données.
Les extractions de graphes pourraient se faire au format suivant, sous forme d'un fichier gdf par exemple :
- liste des sommets avec leur degré (éventuellement degré non orienté / degré entrant / degré sortant ?);
- liste d'adjacence (paires de sommets [+ identifiant de la paire ?]).
Comme les relations sont dirigées (distinction followers / followees), on peut envisager que l'extraction ne propose que des graphes orientés (quitte à les considérer comme non orientés pour certains traitements) ?
Traitements envisagés
Les analyses peuvent être menées à différentes échelles, en considérant par exemple le graphe dans son ensemble ou en s'intéressant par exemple aux communautés linguistiques (comparaison du Twitter francophone et anglophone...).
I. Sur graphe statique
- Évaluations générales : composantes connexes, centralités, périphérie, structure des ilots ? (cf. Kumar et Tomkins).
- Extraction des réseaux égo-centrés (Alina ?).
- Calculs de communautés (est-ce intéressant sur une telle taille ? - cf. Leskovec).
- Décompositions : en fonction de la structure ou des attributs des sommets.
- Calculs de popularité : hub/autorités, pagerank ...
II. Sur statique et historique des messages
- Pas de réelle possibilité d'analyse de réseau dans ce contexte, puisqu'on ne dispose pas des dates de mise en relation entre les contacts, et que la diffusion sur Twitter se fait en grande partie par "broadcast" (envoi de message à tous les contacts en même temps, voire à tout le réseau).
- Éventuellement, analyse des réseaux bipartis utilisateurs / URL / hashtags / reply qui peuvent permettre d'étudier des phénomènes de cooccurence, mais l'analyse linguistique devrait être plus intéressante à ce sujet ?
III. Sur dynamiques des nouveaux messages et des nouveaux contacts
- Phénomènes de diffusion : comment la topologie et la diffusion sont elles liées ?
- Étude de la dynamique des contacts :
- Apparition / disparitions de contacts et impact éventuel sur l'activité de l'utilisateur
- Croisements entre structure des contacts et hashtags / url / reply utilisés dans les messages.
Mapping the twittosphere : Une étude du réseau social Twitter
En interrogeant l'API de Twitter, il est possible de récupérer des données et de les visualiser avec un graphe. La méthode utilisée est l'analyse des réseaux sociaux qui est née de la rencontre entre des sociologues, des psychologues et des mathématiciens. Jacob Moreno (1937) en est un des points de départ : il représente sur une feuille les membres d'un groupe par un point et leurs liens par des ligne entre les points. Il appelle cette représentation un sociogramme. En 1956, Cartwright et Haray montrent que ces sociogramme peuvent être décrits par les mathématiques en termes de graphe. A la fin des années 60, Stanley Milgram popularise l'idée des degrés de séparation par une expérience ingénieuse. Il donne des lettre a des habitants de Omaha (Nebraska) et leur demande qu'elle soit acheminée a Wichita (Texas) : plus quart des lettres arrivent a destination en 5 ou 6 "bonds" alors que l'expéditeur et le destinataire ne se connaissent pas directement. L'idée d'un "petit monde" trouve la une nouvelle figure. En 1973, Marc Granovetter montre l'importance des "liens faibles" c'est à dire des contacts occasionnels lorsqu'un individu ou un groupe est confronté à un changement important (recherche d'un nouvel emploi, mobilisation d'une communauté contre un plan de rénovation urbaine). En 1998, Watts et Strogatz, montrent que les petits mondes sont caractérisés par la présence aléatoire de liens qui connectent deux nœuds distants. Albert-Laszo Barabasi (2003) montre de son coté que dans un réseau certains noeuds sont mieux connectés que les autres. Leur suppression fragilise le réseau
A partir de là, plusieurs études sont possibles * Etudier les galaxies de certains grands comptes : Barak Obama, Loic Lemeur, Scobble... Quelle est la morphologie de ces comptes ? Sont ils homogènes ? Sont ils constitués de communautés ? Sont ils comparables ? Loic Lemeur vient de rebooter son compte twitter. Une étude longitudinale serait intéressante
* Etudier la communauté francophone Identification des hubs (max liens sortants) Identification des Autorities (max liens entrants) Quelle est la cohésion de la communauté et de ses sous-ensemble Ou est le centre de la communauté ? Quelles sont les personnes les plus exposées a la circulation de l'information (degree, closeness centrality) Quelles sont les personnes ples plus centrales (betweenness)
Plus ambitieux: comment fonctionne la dynamique du réseau : par exemple, en suivant un RT
Mon hypothèse est que twitter, comme la blogosphère, sont régies par quelques noyaux durs. C'est de là qu'émerge l'information, et c'est vers là qu'elle repart. Si cette hypothèse était vérifiée, on serait loin de l'idéal libertaire qui nous est chanté si souvent !

.