[Booby-Funkybeat-hugo]'s cahier de brouillons

Voici le nouveau support d'écriture de funkybeat qui lui permet de stocker les adresses des pages qu'il a lues, devrait, fait semblant d'avoir lues...

jeudi, septembre 29, 2005

A survey of eigenvector methods for web et autres curiosités

Un aperçu intéressant sur les trois algorithmes de classements topologiques [PageRank, Hits, Salsa] des pages/sites sur le web : http://meyer.math.ncsu.edu/Meyer/PS_Files/Survey.pdf. Les points positifs et négatifs sont également étudiés.

Dans le même genre, une présentation pour updater et trouver le vecteur stationnaire d'une chaîne irréductible de markov (PageRank et Salsa) .

Sinon, quelques liens qui donnent des idées...
http://www.comp.hkbu.edu.hk/
http://www.cs.utexas.edu/users/inderjit/courses/dm2000.html
http://genomenews.free.fr/bioinfo.html

vendredi, septembre 23, 2005

Bloom filter

Le Bloom filter, a été pensé par Burton H.Bloom en 1970. C'est une structure de données, probabiliste, compacte en mémoire, qui est utilisée pour renseigner si un élément est présent ou non dans un ensemble. Les false positives sont possibles mais pas les false negatives. Les élements peuvent uniquement être ajoutés au set, ils ne peuvent pas être enlevés. Plus il y a d'élements dans le set, plus la probablilité d'avoir des false positives est grande.

Le Bloom filter peut être utilisé ainsi dans de nombreuses situations : détection de la langue en vérifiant l'appartenance à un dictionnaire, marquage d'urls pour les crawlers afin de ne pas visiter deux fois les mêmes pages, etc.

lundi, septembre 19, 2005

trier et manipuler les listes et scalaires en perl

  • Le module Sort::Maker permet d'une manière simple et efficace de concevoir des fonctions de tris. L'article de l'auteur Uri Guttman.
  • Pour les traitements rapides de listes List::Util et List::MoreUtils.
  • Le petit frère de List::Utils, pour les scalars Scalar::Util.
  • Le module Sort::Radix permet de trier en O(n * k) avec k la taille fixe des éléments à trier.
  • Le module Sort::External permet de trier des listes ne pouvant pas tenir en mémoire vive en stockant les listes sur différents fichiers temporaires puis en les fusionnant.
  • Finalement le module qui tue : Sort-Key-0.13

Mining the Web: Discovering Knowledge from Hypertext Data

La page de Soumen Chakrabarti, auteur du livre Mining the Web, apporte des compléments sur ses recherches en mettant à disposition ses publications et quelques logiciels. Les transparents de ses cours sont également disponibles.

samedi, septembre 17, 2005

I'm back on the web

physically and mentally...