Réunion du 7 avril 2009
Ordre du jour
Revenir sur la division des tâches
Problème
Aspiration de la base
- Organisation de la base : comment structurer les données ?
- L'aspiration va prendre du temps - Faire des aspirations spécialisées
- Faire des aspirations locales en attendant
Jean Véronis propose de travailler sur la base des tweets de Tim pour faire de la séparation linguistique (avec possibilité de faire des confirmations par la topologie du réseau). Comment utiliser le réseau pour faire de la détection de langue ?
Aspiration de tout Twitter va prendre 7 jours.
- Faut-il continuer à faire tourner l'aspiration au jour le jour ? Oui pour prendre l'évolution des followers/followees en horodaté. Comment stocker ces nouveaux messages
- Pouvoir faire des requêtes égocentrées : demander un individu sur la base et avoir les réseau autour de l'individu à n+x
- faux champ date de création de compte sur chaque profil correspondant à la date du premier Tweet.
- Pourcentage de profil fermé.
- Travail de catégorisation de la base qui vont créer des métadonnées il faudrait les grouper pour faire une seule passe dans la base
- Format de base de données : YML ; pour le réseau : format gdf
- Identifier les Tweets issus de mobile.
- Mettre sur le wiki des questions orientées requête pour TIM sur les 3 dimensions : Profil, Réseau, Messages : Stephane, Alina, Jean et Thomas (pour social Networks et analyse du texte)
- Séparation des hashtags, @, liens URL
- Interconnexion entre blogosphère (Wikio et RTGI) et Twiwtersphère
- Réseau du @reply - table des messages envoyés et reçu par quelqu'un
Etudes des usages
Estimation actuelle du nombre d'utilisateurs : 6 millions d'utilisateurs
Analyse la thématique des Tweets et regarder les localisations thématiques en fonction des types d'usages
Faire un archivage des tweets et des blogs au même moment : les tweets servent de 'tambour des blogs"
Visualisation
Rendre visible la diffusion des informations sur la topologie du réseau
Prévoir une réunion de discussion autour des problèmes de format de données pour la visualisation
Répartition des tâches
O. Extraction : Tim
1. Analyse des réseaux : LIAFA, Orange - Stephane (LIAFA)
2. Usages - Even, UMD, Orange (Dominique)
3. Littéraire, linguistique - Jean Véronis, Orange -
4. Écosystème et innovation - Pierre
5. Expérimentations -
6. Visualisation - Aymeric, Tim
Visualisation de nos données

.