• GEPHI
  • LINKFLUENCE
  • MAGELLAN
  • WEBATLAS

Web-mining.fr

  • forum
  • technologies
  • méthodes
  • liens
  • science
Web-mining.fr, le portail francophone en web mining et network science qui héberge vos projets.
  • : Function split() is deprecated in /var/www/web-mining.fr/htdocs/modules/filter/filter.module on line 895.
  • : Function split() is deprecated in /var/www/web-mining.fr/htdocs/modules/filter/filter.module on line 895.
  • : Function split() is deprecated in /var/www/web-mining.fr/htdocs/modules/filter/filter.module on line 895.
  • : Function split() is deprecated in /var/www/web-mining.fr/htdocs/modules/filter/filter.module on line 895.

Le web scientifique européen cartographié

Sébastien Heymann — jeu, 06/25/2009 - 11:29

Quels sont les sites internet qui parlent de science ? A quoi ressemble la toile scientifique ? Est-elle dense, éclatée, peuplée d'îlots perdus dans internet ? Quelles sont les interactions entre institutions, associations, médias ou blogs sur les questions de science ?

Le projet européen Eurosis a tenté d'y répondre en menant des études dans 12 pays*. Le résultat est un ensemble de points plus ou moins gros, reliés par des fils de plusieurs couleurs. Chacun de ces points est un acteur possédant un site internet (université, journal, musée...). Chaque fil indique que les pages web d'un nœud pointent vers le nœud voisin. Au centre sont représentés les nœuds majeurs recueillant beaucoup de liens. En périphérie se trouvent les sites internet isolés, peu cités et citant peu. Ces cartes ne mesurent donc pas la popularité ou l'activité d'un site mais les connections existantes ou non entre les différents acteurs des relations science et société. Elles sont une manière de visualiser le tissu, invisible jusqu'à présent, structurant ce domaine.

Carte générale EuroSiS

Il apparaît d’emblée que les pays sont peu liés entre eux, barrière de la langue oblige. Les frontières virtuelles reproduisent donc les frontières géographiques.

Quant aux toiles scientifiques nationales elles n'ont pas toutes la même allure. Le réseau italien est peu dense et très faiblement connecté. Les réseaux finlandais, belges ou français sont bien plus compacts avec bon nombre de nœuds vers lesquels beaucoup de sites pointent. En France, la Cité des Sciences, Agrobiosciences et le portail du ministère de la recherche (science.gouv.fr) font partie des acteurs majeurs selon les critères de cette méthode. Le réseau italien paraît fragile: la suppression de quelques nœuds isolerait d'autres sites les uns des autres. Le Portugal est également peu dense mais plus solide avec donc plus de nœuds jouant le rôle de carrefour vers les autres.

Pour obtenir ces cartes, des responsables ont dressé dans chaque pays la liste de sites estampillés "science et société". Puis des robots explorateurs du web sont partis à la découverte de nouveaux sites à partir de cette première liste, répertoriant les liens entre tous les nœuds. La nouvelle liste a ensuite été validée par les responsables nationaux. Au total 1750 sites ont été recensés dont 200 en France.

Ensuite, des algorithmes de visualisation ont positionné tous les nœuds afin de dresser une carte lisible. Les sites les moins liés aux autres se retrouvent en périphérie et les gros carrefours, souvent cités, au centre. Un code couleur différencie aussi l'origine des sites qui peuvent être des musées, des universités, des médias, des associations...

Les logiciels utilisés pour l'exploration et la visualisation ont été développés par l'association webatlas partenaire du projet, co-fondée par Franck Ghitalla, de l'Institut national de l'information scientifique et technique (Inist), et Mathieu Jacomy, ingénieur de Paris Tech Telecom. L'ensemble a enfin été aggloméré pour proposer une carte d'Europe comprenant ces douze pays. Tous ces résultats viennent d'être mis en ligne (voir le site d'Eurosis).

Cette cartographie révèle que le rôle des associations ou ONG n'est pas identique selon les pays. Absentes d'Italie ou du Portugal, elles sont très structurantes en France ou en Belgique. Autre enseignement, les colonnes vertébrales de ces réseaux sont essentiellement fournies par les universités, les centres de vulgarisation et les médias.

"Ces cartes ne fournissent pas de résultats fermes, résume Mathieu Jacomy. Elles permettent d'observer une situation, de découvrir des propriétés, de faire des hypothèses... Finalement elles posent plus de questions qu'elles n'apportent de réponses".

Parmi ces questions, on peut ainsi s'étonner, en France, de l'absence d'organismes de recherche comme le CEA ou l'Inserm. Ou bien de celle de Greenpeace alors que sur les mêmes terrains on trouve les Amis de la Terre ou France Nature Environnement. La forte présence sur la carte des musées et autres centres de vulgarisation scientifique soulève également des interrogations.

David Larousserie
Sciences-et-Avenir.com
25/06/09

Repris de l'article du NouvelObs

Accéder aux cartes

*Arménie, Belgique, Bulgarie, Estonie, Finlande, France, Hongrie, Italie, Montenegro, Pologne, Portugal, République Tchéque.

  • carte
  • EuroSiS
  • science
  • Web
  • WebAtlas
  • Le blog de Sébastien Heymann
  • 1 commentaire

CPAN-Explorer : la cartographie de l'univers Perl

Sébastien Heymann — ven, 06/12/2009 - 14:30

CPAN-Explorer est un projet de visualisation et d'analyse des relations entre développeurs et entre packages du langage de programmation Perl, très utilisé en administration système et développement web. Porté par RTGI SAS et Julian Bilcke (Gephi), ceux-ci présent leurs travaux aujourd'hui au FPW'09 (slides).

CPAN community

Lien : http://cpan-explorer.org/

  • Le blog de Sébastien Heymann
  • 2 commentaires

Nouvel article de méthodologie : Entités nommées

Sébastien Heymann — jeu, 06/04/2009 - 12:14

Notre second article de méthodologie concerne les entités nommées, qui traitent des noms d'individus et d'organisations, de lieux, d'expressions temporelles et numériques.

Appliquées à la veille technologique ou à la recherche d'informations en génétique, elles font depuis peu l'objet d'un intérêt particulier pour améliorer les moteurs de recherche en corpus ouvert (Web), devenir des systèmes robustes et performants pour traiter de grandes quantités de documents en flux continue, ou encore automatiser la génération de contenus pour les technologies liées au Web Sémantique.

Accéder à l'article

  • entité nommée
  • information retrieval
  • Named Entities
  • TALN
  • Le blog de Sébastien Heymann
  • Vous devez vous identifier ou créer un compte pour écrire des commentaires

RTGI / Linkfluence lance la Wikiopole

Sébastien Heymann — mer, 05/06/2009 - 13:59

RTGI met sa technologie de cartographie web au profit du Wikio Labs dirigé par Jean Véronis. La carte interactive librement accessible permet d'explorer les blogs du Top 1500 de Wikio.

Accéder à la carte

Vous pouvez sélectionner les seules catégories qui vous intéressent et cliquer sur les points pour faire apparaître les noms des blogs et leur réseau de liens, et également rechercher par url un blog en particulier afin de voir son “réseau d’influence”. Plus un blog reçoit de liens, plus le point qui le représente est grand. (merci presse-citron pour le paragraphe)

Les explications en vidéo par Guilhem Fouetillou, directeur scientifique d'RTGI :

wikiopole par wikio & linkfluence from linkfluence on Vimeo.

  • blogosphère
  • carte
  • interfaces
  • liens
  • Wikio
  • Le blog de Sébastien Heymann
  • Vous devez vous identifier ou créer un compte pour écrire des commentaires

Portail d'information sur Hadopi

glebourg — lun, 05/04/2009 - 14:33

Hadopithèque

Démarche

Alors que la contestation enfle en défaveur du projet de loi Hadopi, l'association Projet Magellan a pris l'initiative de profiter de son expertise du web pour proposer à ses concitoyens une véritable bibliothèque numérique autour de la polémique. Afin que les internautes puissent bénéficier d'une information riche et ciblée, un portail a été mis à leur disposition sur http://hadopi.magellan-project.com.

Territoire Numérique

Le web est un territoire, qu'il est difficile d'appréhender. Pour faciliter l'approche de l'internaute, le Projet Magellan a sélectionné un sous-espace du web correspondant aux sites parlant de la loi HADOPI, et les a indexés pour proposer au grand public un moteur de recherche thématisé. Les recherches effectuées le sont donc dans un contexte précis, augmentant considérablement la pertinence des résultats. La dynamicité de l'information est également prise en compte à travers l'aggrégation des flux d'informations des sites majeurs du domaine, permettant des recherches à la fois sur du fond et sur l'actualité.

Dimension collaborative

Partage

Le portail Hadopithèque met également l'accent sur la dimension collaborative, permettant aux internautes de partager leurs découvertes et leurs créations pour mieux appréhender le débat. Ils ont ainsi la possibilité de mettre en ligne des liens vers des articles dignes d'intérêt, des documents de tous types, et peuvent ajouter des fiches au sujet des personnalités gravitant autour de la polémique.

Responsabilité

Nous avons fait le choix d'offrir aux internautes un système totalement ouvert et auto-organisé, en tablant sur leur responsabilité et le respect qu'ils auront pour le portail mis à leur disposition. Tout visiteur est donc en capacité non seulement de s'informer, mais aussi de partager des bribes de savoir avec le reste de la communauté.

Un outil complet

En prenant en compte toutes les dimensions de l'information du web, que ce soit les articles de fonds, les pages d'actualités, ou les contributions des citoyens, le portail HADOPI de l'association Projet Magellan met à disposition du grand public un portail documentaire novateur et d'une pertinence inégalée.

  • communauté
  • Hadopi
  • Portail
  • Blog de Magellan
  • Le blog de glebourg
  • 1 commentaire

Gephi au Google Summer of Code 2009

Sébastien Heymann — lun, 03/23/2009 - 10:26

Gephi, le logiciel libre d'exploration et de manipulation de réseaux, fait parti des 150 projets choisis par Google pour être organisation mentor au Summer of Code 2009.

Le principe : des étudiants payés par Google travaillent sur un projet open source durant 3 mois sur un sujet défini en accord avec les mentors.

Gephi propose 3 sujets : http://gephi.org/google-summer-of-code-2009/

Si vous souhaitez participer, enregistrez-vous sur le site du GSoC puis suivez ces instructions !

Lien vers Gephi au Gsoc

  • étudiant
  • gsoc
  • Blog de Gephi
  • Le blog de Sébastien Heymann
  • Vous devez vous identifier ou créer un compte pour écrire des commentaires

Sortie de Gephi 0.6 beta2

Sébastien Heymann — mar, 03/03/2009 - 10:36

La dernière version stable de Gephi, le logiciel d'exploration des graphes, vient de voir le jour ! Vous pouvez la télécharger sur gephi.org que vous soyez sous Windows, MacOSX ou Linux.

Article complet sur gephi.org

La version online a été également mise à jour, rendez-vous sur la page demo du site pour lancer Gephi sans besoin de l'installer.

Note: la beta3 est sortie, corrigeant beaucoup de bugs !

  • Gephi
  • graphe
  • Blog de Gephi
  • Le blog de Sébastien Heymann
  • Vous devez vous identifier ou créer un compte pour écrire des commentaires

Extraction d'information : stop words

Sébastien Heymann — lun, 02/16/2009 - 19:29

Voici le retour sur web-mining.fr des anti-dictionnaires de mots et d'expressions disponibles en plusieurs langues dont le français, l'anglais, le roumain et l'arabe. Ces listes permettent d'éliminer les "mots outils" (de, la, avec, car...) des textes analysés, et font ainsi office de filtres de pré-traitement en text-mining.

Accéder aux stop lists

  • information retrieval
  • stop word
  • TALN
  • Le blog de Sébastien Heymann
  • Vous devez vous identifier ou créer un compte pour écrire des commentaires

Gephi : Démo vidéo en HD de fonctionnalités avancées

Sébastien Heymann — ven, 02/06/2009 - 19:09

Voici une vidéo d'utilisation des fonctionnalités avancées de visualisation dans Gephi. La démonstration se déroule en 5 étapes :

  1. Spatialisation d'un graphe sémantique sur la génétique provenant d'une étude de cas réel
  2. Changement du style du fond et des arcs
  3. Filtre sur les noeuds (ordre selon un attribut) pour améliorer la lisibilité
  4. Paramétrage de l'affichage des labels et optimisation de leur positionnement
  5. Exploration du graphe en 3D

Cette vidéo est disponible en haute définition sur la plateforme Vimeo. Accéder à la vidéo HD.

Gephi - Advanced features demo from gephi on Vimeo.

  • 3D
  • Gephi
  • graphe
  • Blog de Gephi
  • Le blog de Sébastien Heymann
  • Vous devez vous identifier ou créer un compte pour écrire des commentaires

Nouvel article de méthodologie : Spatialisation

Sébastien Heymann — ven, 02/06/2009 - 17:30

Voici un premier article de méthodologie.

La spatialisation est l'étape permettant d'associer des coordonnées spatiales aux nœuds d'un graphe en vue de produire une visualisation. Elle s'effectue via un "algorithme de spatialisation", généralement un "force vector" appliquant des principes physiques d'attraction et de répulsion des nœuds en fonction de leurs liens. Voici un tutoriel en image de la spatialisation d'un graphe sous Gephi (merci à Mathieu Jacomy). Vous y verrez aussi comment affiner la visualisation par l'application de filtres.

Accéder à l'article

  • Gephi
  • graphe
  • Le blog de Sébastien Heymann
  • Vous devez vous identifier ou créer un compte pour écrire des commentaires
  • « premier
  • ‹ précédent
  • 1
  • 2
  • 3
  • suivant ›
  • dernier »

Syndiquer le contenu Syndiquer le contenu

Connexion utilisateur

  • Créer un nouveau compte
  • Demander un nouveau mot de passe

Tags

blogosphère carte communauté crawling design Firefox Flem Gephi Google graphe information retrieval interface graphique Internet Navicrawler science search engine Social Network Analysis système d'information web sémantique TALN visualisation Web WebAtlas Wikipedia
plus de tags

Recherche

Actu blog

  • Introduction de Gephi 0.7 en vidéo
  • Cours UTC-IC05 : Analyse Exploratoire de Données Numériques
  • DevWeb, moteur de recherche spécialisé pour les développeurs
  • WebCSTI Rencontres OCIM 2009
  • gexf.net, un nouveau site web pour le format de fichier de graphe GEXF
  • Konodeo - Les Maîtres de l'Arctique
  • Konodeo - Portail de démonstration Arctique
  • Livre blanc WebAtlas : Du Nuage aux Abymes
  • Communautés de logiciel libre : un écosystème des motivations
  • Le web scientifique européen cartographié
en savoir plus

Actu forum

  • jeu de données
  • compatibilité avec firefox > 3.5
  • Une autre base de données orientée graphe
  • Détection de communautés dans les réseaux sociaux
  • libellés
en savoir plus

Partenaires


WebAtlas, le projet de recherche dirigé par Franck Ghitalla, qui a vu naître le Navicrawler de Mathieu Jacomy, une petite merveille pour l'exploration du Web.


Linkfluence, dont l'Observatoire Présidentielle 2007 a fait beaucoup de bruit, avec notamment sa blogopole cartographiant la blogosphère politique, et désormais aux Etats-Unis.


Gephi, le logiciel libre d'exploration et de manipulation des réseaux, permet de représenter et d'interpréter des structures complexes. Il est téléchargeable gratuitement.

Syndication

  • Flux général
  • Flux général des commentaires
  • Flux du Forum

Network Sciences, web mining, data mining, text mining, crawling, scrapping, graph viz, data viz, small worlds, clustering, social networks, social network analysis, link analysis, maps, cartographie, indexation, moteurs de recherche, Firefox, Web 2.0

Flux RSS

Syndiquer le contenu
sitemap
  • forum
  • technologies
  • méthodes
  • liens
  • science