Liens
"The very aim of the science of complexity is to discover patterns in complex net works of all kinds and to learn how we might use this understanding to better ourserlves and our world." Mark Buchanan in Nexus
Cette section est une petite mémoire de nos explorations sur et hors du Web. Elle regroupe des liens menant aux différents acteurs du web mining et des network sciences en France et dans le monde, une sélection d'articles scientifiques ainsi que des ouvrages nous paraissant fondamentaux.

N'oubliez pas, beaucoup plus de liens sont disponibles sur le forum !
Acteurs anglophones
- SantaFe Institute
- L'université du futur ! Environnement ouvert de recherche et d'éducation pluridisciplinaire : Physics of Complex Systems, Emergence, Innovation & Robustness in Evolutionary Systems, Information Processing & Computation in Complex Systems, Dynamics & Quantitative Studies of Human Behavior, Emergence, Organization & Dynamics of Living Systems
- Cyberinfrastructure for Network Science Center
- Infrastructure de recherche, de partage d'outils et de données annoncé il y a environ un an par les Etats-Unis. C'est, comme espéré, une véritable mine d'or !
- Center for Complex Network Research (ancien site)
- Le site de l'équipe de recherche de Barabasi, beaucoup de publications...
- Le site de Barabasi
- cf. Network Science depuis sept. 2007
- Network Science
- Committee on Network Science for Future Army Applications, National Research Council (USA), regroupe plusieurs chercheurs de haut vol dont J. Kleinberg, A.L. Barabasi et D. Watts. Voir impérativement la note d'information publiée par WebAtlas.
- Web Science Research Initiative (WSRI)
- Programme de recherche partagé entre le MIT et l'Université de Southampton (Angleterre) à l'initiative, entre autre, de Tim Berners-Lee.
- Publications de Réka Albert
- Travaux de recherche sur les réseaux biologiques essentiellement
Acteurs francophones
- WebAtlas
- Projet de recherche et d'expérimentation qui associe des chercheurs et des ingénieurs, quelles que soient leurs « disciplines ». Le web est son objet d’investigation, comme terrain d’exploration mais aussi comme contexte de développement de projets expérimentaux.
- ComplexNetworks
- Le site des publications de l'équipe ComplexNetworks de Matthieu Latapy, du LIP6
- Master Web Sciences
- Master expérimental interdisciplinaire à Paris autour des sciences du web, créé à l'initiative du Centre de Recherche Interdisciplinaire, Orange, Paris Montagne et La Cantine par Silicon Sentier (voir le programme 2008/2009)
Articles scientifiques
- Hendler J, Shadbolt N, Hall W, Berners-Lee T, Weitzner D, Web science: an interdisciplinary approach to understanding the web
- Article détaillant la naissance d'une "Web science" et les besoins d'un champ inter-disciplinaire de recherche. Une référence.
- Barabasi A-L., Mapping the Human 'Diseasome'
- Cartographie des maladies reliées par les gènes impliqués, ouvrant une nouvelle approche dans la recherche de traitements pour les maladies "génétiquement proches" de maladies déjà traitées.
- Bush V., As we may think, The Atlantic Monthly, 1945
- L'un des "monuments" théoriques incontrournables de la littérature sur les réseaux et les technologies numériques réparties.
- Bergman M.K., The deep web: surfacing hidden value, The Journal of Electronic Publishing, 2001
- Où pourquoi les moteurs de recherche d'indexent à peine qu'1% du Web...
- Gulli A., Signorini A., The indexable Web is more than 11.5 billion pages, Proc of WWW 2005 conference, ACM, Chiba, Japan, 2005
- Une tentative pour évaluer la taille du Web (qui a du bien croître depuis...)
- Kleinberg J., Authoritative sources in an hyperlinked environment, Proc of the ACM-SIAM Symposium on Discret Algorithms, ACM Press, 1998
- Les recherches ayant abouties à l'algorithme HITS (Hyperlinked Induced Topic Search, projet CLEVER d'IBM).
- Kleinberg J., Bursty and Hierarchical Structure in Streams, 2002
- Procédures d'analyse des phénomènes dynamiques ("bursty phenomenons").
- Bennouas T., Bouklit M., De Montgolfier F., Un Modèle Gravitationnel du Web
- Cet article fournit un nouveau modèle du Web, permettant de détecter les cybercommunautés, de visualiser l'ensemble des pages hypertextes, et d'avoir une mesure d'audience. Il s'inspire du modèle PageRank, les pages étant modélisées commes des particules massives et les liens hypertextes comme des forces gravitationnelles.
- Latapy M., Analyse des grands graphes
- Site des publications de M. Latapy.
- Revue Lexicometrica et JADT
- Travaux théoriques en Lexicométrie / statistique textuelle, linguistiques de corpus, extraction d'informations à partir de corpus de texte, acquisition de connaissances...
- Catégorisation automatique de textes et cooccurrence de mots provenant de documents non étiquetés
- Simon Réhel - Université Laval - 2005
- Réseaux de neurones pour le traitement automatique du langage : conception et réalisatiion de filtres d'informations
- Mathieu Stricker - Thèse de Doctorat de l'Université Pierre et Marie Curie - Paris VI (Décembre 2000).
Ouvrages
- Barabasi A.L., Linked : The News Science of Networks, Perseus Publishing, ISBN 978-0452284395, 2002
- LE livre fondateur pour la première génération de web-miners
- Buchanan M., Nexus: Small Worlds and the Groundbreaking Science of Networks, W. W. Norton & Company, ISBN 978-0393041538, 2002
- Contenu à peu près équivalent à Linked bien que s'attardant plus sur les small worlds de Watts et Strogatz, il est aussi bien plus facile à lire.
- Watts D., Six Degrees: The Science of a Connected Age, W. W. Norton & Company, ISBN 978-0393325423, 2004
- Traite essentiellement des phénomènes dynamiques.
- Johnson S., Emergence: The Connected Lives of Ants, Brains, Cities, and Software, Scribner Book Company, ISBN 978-0684868769, 2002
- Introduction grand public sur les phénomènes dynamiques et l'émergence d'intelligence de groupe.
- Huberman B., The Laws of the Web : Patterns in the Ecology of Information, MIT Press, ISBN 978-0262083034, 2001
- Fondation de la théorie des agrégats.
- Chakrabarti S., Mining the Web, Morgan-Kaufmann Publishers, ISBN 1-55860-754-4, 2003
- Démarche en web-mining, notamment sur les focus crawlers
- Johnson S., Interface Culture: How New Technology Transforms the Way We Create and Communicate, ISBN 978-0062514820, 1997
- "What is interface ? The grey zone between medium and message"
- Lynch K., L'image de la cité, ISBN 978-2100037162
- Ce livre examine les qualités visuelles de la ville américaine en en étudiant la représentation mentale chez ses habitants.
Datasets
- Jure Leskovec
- Très grands graphes et SNAP, une bibliothèque en C++ pour les traiter
- Barabasi lab
- Alex Arenas
- Mark Newman
- Indiana University Databases
Crawlers
- IssueCrawler
- Un crawler en ligne pour effectuer des explorations du Web. Il génère des visualisations sous différents formats de fichier, dont le SVG.
- Heritrix
- Heritrix, le crawler open-source en Java développé par Alexa, utilisé par Internet Archive (archive.org)
- Yacy
- Un crawler open-source, distribué sur un réseau peer-to-peer.
- Terrier
- Un crawler Java open-source axé indexation d'information, classification, recherche de mots.
- Datapark
- Un crawler open-source axé crawl multi-langue, pour SQL, intranet, local etc.. ou internet. Utilise un réseau de neurones pour estimer la popularité d'une page. Programmé en C.
Technologie du data-mining
- Pièges à webcrawlers
- Un site listant des ressources pour webmasters souhaitant se protéger des spambots. Une bonne lecture pour savoir ce qu'il faut et ne faut pas faire : ne pas abuser des ressources des serveurs web, lire les robot.txt, ne pas se laisser attraper par les pièges destinés aux robots spammeurs, etc...
Moteurs de recherche
- CiteSeer
- Littérature scientifique anglophone.
- mémSIC
- Mémoires de 3ème cycle en Science de l'Information et de la Communication
- Exalead
- Moteur de recherche français, leader européen.
- Google Scholar
- Littérature scientifique
- Intelways
- Méta-moteur de recherche
- oSkope
- Recherche visuelle sur Amazon, eBay, Flickr et YouTube
Interfaces / visualisation
- Cybergeography
- Le site de Martin Dodge, mine d'or de la représentation des réseaux et du mapping de l'information en général
- Information Aesthetics
- Superbe site sur la visualisation de données
- VisualComplexity
- La complexité mise en image. Incontournable !
- Toute l'Europe.fr
- La cartographie de la Toile européenne en 2007 dans une interface navigable. Réalisée par RTGI.
- Blogopole.fr
- La cartographie de la blogosphère politique durant la campagne présidentielle française de 2007, couplée avec le moteur de recherche Exalead.
Technologies du web
- Planète Xulfr.org
- L'aggrégateur XULfr
- Mozilla Developer Resource Kit
- Unification des ressources pour développer sur la plateforme Mozilla.
Autres liens
- [en] Wikipedia : définition du Web mining
- [en] Wikipedia : définition du Data mining (version française)
- [en] Wikipedia : définition du Text mining (version française)
- OpenCourseWare
- Tous les cours du MIT (Massachusetts Institute of Technology)
- Watts and Strogatz model
- Algorithme de génération de clusters
- Liste des Algorithmes
- Les principaux algorithmes dans tous les domaines
- Polymorphe
- Cours d'informatique de haut niveau à télécharger. Français et Anglais.




Flux général