Aller à l'en-tête Aller au menu principal Aller au contenu Aller au pied de page
Accueil - Recherche - Soutenances de Theses - Composantes géantes sur des flux de données

Composantes géantes sur des flux de données

Catégorie: 
Théses
Docteur :Monsieur Achraf LASSOUED
Date de la soutenance :16 Novembre 2020
Horaires :De 14h00 à 17h00
Adresse :Salle des conseils du centre Panthéon – 12, place du Panthéon - 75231 PARIS CEDEX 05
Discipline :Informatique
Ajouter au Calendrier 11/16/2020 14:00 11/16/2020 17:00 Europe/Paris Composantes géantes sur des flux de données Nous étudions des données de nature diverse sous forme de flux, en particulier :

Base de données ;
Réseaux sociaux ;
Données de texte.
Pour une base de données qui suit un schéma relationnel, un schéma d’analyse OLAP (Online Analytical Processing) définit une des tables de la base de données com...
Adresse :Salle des conseils du centre Panthéon – 12, place du Panthéon - 75231 PARIS CEDEX 05
false MM/DD/YYYY
Jury :

Monsieur Michel DE ROUGEMONT - Professeur des Universités (Université Paris 2), directeur de thèse

Monsieur Dominique LAURENT - Professeur émérite d'université (Université de Cergy-Pontoise), rapporteur

Madame Anne VILNAT - Professeur des Universités (Université Paris-Saclay), rapporteur

Madame Céline CHEVALIER - Maître de Conférences HDR (Université Paris 2)

Monsieur Nicolas SPYRATOS - Professeur émérite d'université (Université Paris-Saclay)

Nous étudions des données de nature diverse sous forme de flux, en particulier :

  • Base de données ;
  • Réseaux sociaux ;
  • Données de texte.

Pour une base de données qui suit un schéma relationnel, un schéma d’analyse OLAP (Online Analytical Processing) définit une des tables de la base de données comme une table d’analyse. Nous supposons que les tuples de la table d'analyse arrivent sous forme d’un flux. Nous étudions l’approximation des requêtes OLAP, en échantillonnant de manière non uniforme les tuples du flux sans stocker les données d’analyse et donnons un modèle de préférence dans ce cadre.

Dans le cas du réseau social Twitter, nous observons un flux de tweets qui contiennent un tag donné et le transformons en un flux d’arêtes d’un graphe. Nous souhaitons étudier l’existence des grands clusters dans le graphe ainsi obtenu. Nous proposons une méthode d’échantillonnage uniforme qui va associer au graphe un sous-graphe aléatoire et étudions les composantes géantes de ce sous-graphe aléatoire comme témoin des grands clusters du graphe d’origine.

Pour un flux de texte, nous considérons les paires de mots dans une phrase lemmatisée comme des arêtes d’un graphe où les nœuds sont les mots. Nous transformons le flux de texte en flux d’arêtes. Nous échantillonnons les arêtes proportionnellement à la similarité Word2vec des mots. Nous analysons ensuite les composantes géantes.
Nous étendons les vecteurs Word2vec en prenant en compte la morphologie d'une langue, en particulier la structure des préfixes et des suffixes d'un mot.

---

Le port du masque et le respect des gestes barrières sont obligatoires.
La tenue de l’événement est liée à l'évolution de la situation sanitaire, connectez-vous régulièrement pour vous tenir informé.