[Booby-Funkybeat-hugo]'s cahier de brouillons

Voici le nouveau support d'écriture de funkybeat qui lui permet de stocker les adresses des pages qu'il a lues, devrait, fait semblant d'avoir lues...

samedi, juin 06, 2009

Oh my God, it's full of stars !!

To get a closer idea of the MixNet algorithm behavior applied on hypertext documents, just take a look at the Exalead application "Constellations".



Enjoy !

lundi, septembre 15, 2008

MixNet software package

Estimates the parameters and hidden class variable of a Mixture of Erdös renyi Random Graphs. The estimation is performed for a Bernouilli Mixture. Packages also implement the previous post !

Code : native or R wrapper.

vendredi, août 22, 2008

Fast online graph clustering via Erdős–Rényi mixture

In the context of graph clustering, we consider the problem of simultaneously estimating both the partition of the graph nodes and the parameters of an underlying mixture of affiliation networks. In numerous applications the rapid increase of data size over time makes classical clustering algorithms too slow because of the high computational cost. In such situations online clustering algorithms are an efficient alternative to classical batch algorithms. We present an original online algorithm for graph clustering based on a Erdős–Rényi graph mixture. The relevance of the algorithm is illustrated, using both simulated and real data sets. The real data set is a network extracted from the French political blogosphere and presents an interesting community organization.

Read the Pattern Recognition paper.

lundi, décembre 03, 2007

Mathematics for Biological Networks

The "Mathematics for Biological Networks" Conference will be held on December 17-18 2007 at the Institut Henri Poincaré, Paris. It is a free access interdisciplinary conference in the field of network analysis focusing on applications in molecular biology. Students are encouraged to come and take part in discussions. No registration is required.

mardi, mai 23, 2006

Automated Metadata Hierarchy Derivation

L'article présente une méthode automatique pour construire une hierarchie de metadata d'un ensemble de sites web sans passer par utilisation de hierarchies externes déjà prédéfinies.

L'approche, dans nos expérimentation, confirme globalement les informations issues des analyses principalement topologiques (analyse de la connectivité entre les sites) du groupe rtgi : les sites appartenant aux mêmes clusters topologiques partagent en général la même hierarchie de concepts sémantiques.

De l'optimisation et des réglages sont en encore à étudier pour utiliser cette méthode sur des corpus plus importants. Il faudra donc attendre un peu avant de voir une version "flashy" sur l'observatoire présidentielle...

Bravo à Amjad pour son travail et sa présentation à Damas.

mardi, janvier 17, 2006

MapReduce : parallelisation et distribution

Que faire quand l'on doit traiter un grand nombre de données et que l'on dispose uniquement de milliers de CPUs ?
Google propose une architecture qui leur permet d'implémenter la parallelisation et la distribution de certaines de leurs tâches (machine learning, distributed sort, etc...). Le principe est de spécifier une fonction map qui calcule des paires de key/value pour générer un ensemble de valeures intermédiaires (paires de key/value) et une fonction reduce qui fusionne toutes les valeures intermédiaires associées aux mêmes clés intermédiaires.

lundi, novembre 28, 2005

Saturday Night Clever

Le old school projet CLEVER (Clientside Eigenvector Enhanced Retrieval) développé au laboratoire Almaden d’IBM a été la première tentative d’utilisation de HITS pour créer un moteur de recherche opérationnel. Deux papiers qui fixaient les bases : Mining the Web's Link Structure et Automatic Resource list Compilation by Analyzing Hyperlink Structure and Associated Text.