Réunion du 7 avril 2009

Ordre du jour

Revenir sur la division des tâches

Problème

Aspiration de la base

  • Organisation de la base : comment structurer les données ?
  • L'aspiration va prendre du temps - Faire des aspirations spécialisées
  • Faire des aspirations locales en attendant

Jean Véronis propose de travailler sur la base des tweets de Tim pour faire de la séparation linguistique (avec possibilité de faire des confirmations par la topologie du réseau). Comment utiliser le réseau pour faire de la détection de langue ?

Aspiration de tout Twitter va prendre 7 jours.

  • Faut-il continuer à faire tourner l'aspiration au jour le jour ? Oui pour prendre l'évolution des followers/followees en horodaté. Comment stocker ces nouveaux messages
  • Pouvoir faire des requêtes égocentrées : demander un individu sur la base et avoir les réseau autour de l'individu à n+x
  • faux champ date de création de compte sur chaque profil correspondant à la date du premier Tweet.
  • Pourcentage de profil fermé.
  • Travail de catégorisation de la base qui vont créer des métadonnées il faudrait les grouper pour faire une seule passe dans la base
  • Format de base de données : YML ; pour le réseau : format gdf
  • Identifier les Tweets issus de mobile.
  • Mettre sur le wiki des questions orientées requête pour TIM sur les 3 dimensions : Profil, Réseau, Messages : Stephane, Alina, Jean et Thomas (pour social Networks et analyse du texte)
  • Séparation des hashtags, @, liens URL
  • Interconnexion entre blogosphère (Wikio et RTGI) et Twiwtersphère
  • Réseau du @reply - table des messages envoyés et reçu par quelqu'un

Etudes des usages

Estimation actuelle du nombre d'utilisateurs : 6 millions d'utilisateurs

Analyse la thématique des Tweets et regarder les localisations thématiques en fonction des types d'usages

Faire un archivage des tweets et des blogs au même moment : les tweets servent de 'tambour des blogs"

Visualisation

Rendre visible la diffusion des informations sur la topologie du réseau

Prévoir une réunion de discussion autour des problèmes de format de données pour la visualisation

Répartition des tâches

O. Extraction : Tim

1. Analyse des réseaux : LIAFA, Orange - Stephane (LIAFA)

2. Usages - Even, UMD, Orange (Dominique)

3. Littéraire, linguistique - Jean Véronis, Orange -

4. Écosystème et innovation - Pierre

5. Expérimentations -

6. Visualisation - Aymeric, Tim

Visualisation de nos données

Réunion du 7 avril 2009 (last edited 2009-04-07 10:27:00 by LMontsouris-152-63-1-112)

Edit and actions menu

  • Edit (Text)
  • Comments
  • Info
  • Attachments