• GEPHI
  • MAGELLAN
  • RTGI
  • WEBATLAS

Web-mining.fr

  • forum
  • technologies
  • méthodes
  • liens
  • science
Accueil

crawling

Portail de recherche sur les nanotechnologies

Sébastien Heymann — sam, 01/17/2009 - 20:36

L'équipe Magellan a travaillé en collaboration avec WebAtlas sur le domaine des nanotechnologies pour proposer un portail du domaine, ouvert au public.

Il est volontairement simplifié en fonctionnalités, mais permet de donner un aperçu de l'efficacité d'un moteur de recherche à l'échelle d'une communauté.

Vous y trouverez donc un moteur de recherche au sein du corpus, un aggrégateur de flux des sites du corpus, et une cartographie réalisée par WebAtlas. Le crawl a été effectué avec focus, c'est à dire que seules ont été retenues les pages qui parlaient effectivement de nanotechnologies.

Il s'agit encore d'un prototype, qui peut accuser quelques faiblesses, et les retours utilisateurs sont donc bien évidemment bienvenus.

Image

Lien : http://nanotech.magellan-project.com

  • crawling
  • Magellan
  • nanotechnologie
  • search engine
  • Blog de Magellan
  • Le blog de Sébastien Heymann
  • Vous devez vous identifier ou créer un compte pour écrire des commentaires

VizCrawler

archive — ven, 12/26/2008 - 00:31

Discussion d'archives, les auteurs initiaux ont été perdu durant le transfert...

Bonjour,

Pour ceux qui étaient présents en ic05 ce matin, je n'ai malheureusement pas pu faire la démonstration de mon projet.. un pdf c'est pas mal mais une vidéo c'est mieux..


http://vincent.pomageot.free.fr/UTC/ic05/VizCrawler.ogg

  • crawling
  • graphe
  • visualisation
  • Soutiens de vos projets
  • 3 commentaires

Facecrawl

archive — jeu, 12/25/2008 - 23:30

Discussion d'archives, les auteurs initiaux ont été perdu durant le transfert...

Bonjour à tous

J'ai réalisé une extension firefox pour crawler facebook et tracer le graphe du réseau des étudiants UTCéens.
Pour cela, il faut :
- Avoir un compte sur facebook et appartenir au réseau de l'UTC (sinon, faut crawler un autre network)
- Avoir firefox  :D
- Installer l'extension :http://paulpoirel.is-a-geek.org/~canard/facecrawl/facecrawl.xpi
(soyez indulgents, je me suis mis à XUL ce matin, tout était en HTML/javascript avant, et je n'y connais pas grand chose)
- Lancer l'URL chrome://facecrawl/content/facecrawl.xul
- Renseigner le network et l'utilisateur (par défaut, c'est moi et le réseau de l'UTC, les ids sont dans les liens, faut chercher un peu ...)
- Lancer le crawl et aller boire un café (désactiver les images pour accelerer)
- Appuyer sur output pour générer le code gdf, qui peut donner un fichier visualisable sous guess.

Là j'ai un souci, mon PC plante dès qu'il y a un peu trop de noeuds dans guess. J'espère que vous aurez plus de chance ...

A venir :
- Export du fichier gdf directement
- Enregistrement et réouverture de session
- Un lien dans le menu de firefox dès que j'aurais appris les overlays en xul

Enjoy !

Paul

  • crawling
  • Facebook
  • Firefox
  • Soutiens de vos projets
  • 21 commentaires

Data-mining des sites de psychanalyse

archive — jeu, 12/25/2008 - 23:19

Discussion d'archives, les auteurs initiaux ont été perdu durant le transfert...

Bonjour tout le monde
Je souhaite utiliser navicrawler pour explorer la webosphère psychanalytique.
Je me concentre uniquement sur les sites institutionnels, c'est à dire sur les sites des principales associations de psychanalyse. 14 sites ont été retenus Je me limite également au domaine francophone. Je cherche à comprendre comment est ce que la psychanalyse diffuse sur l'Internet et plus exactement comment est ce que les discours institutionnels sont produits et diffusés sur l'Internet.

Je donnnerai une visualisation par site, et ensuite (si je le peux) un vision générale regroupant les 14 sites

La recherche porte sur plusieurs dimensions
1. Avoir une "photographie" des liens mis sur les pages d'accueil
2. Explorer les liens que les sites des associations de psychanalyse entretiennent avec d'autres domaines ou avec d'autres associations de psychanalyse

L'idée est d'utiliser ensuite Pajek pour construire une visualisation.

  • crawling
  • Navicrawler
  • Web
  • Soutiens de vos projets
  • 47 commentaires

Du Web à l'idée du Web : conception d'outils pour les sciences humaines

Date de publication: 
Octobre 2008
Auteurs: 
Sébastien Heymann
Mots clés: 
web mining, système d'information web, instrumentation scientifique, visualisation et manipulation d'informations, création de connaissance
Chapeau: 
Depuis près de deux ans, le partenariat entre le programme de recherche TIC-Migrations de Fondation Maison des Sciences de l'Homme et de l'association de recherche et d'ingénierie WebAtlas a donné naissance à des méthodologies, des protocoles et des outils visant à étudier les pratiques du Web. Ces éléments sont constitutifs de « briques » d'un Système d'Information Web (SIW) où des logiciels offrent une prise à l'exploration de cet immense réseau de plusieurs dizaines de milliards de pages, et permettent de collecter, de stocker des données indexées, de les traiter et de les analyser, et dont les informations produites sont rendues consultables et manipulables via des interfaces. Cette instrumentation est rendue nécessaire par la nature du Web, un réseau à la fois technique et culturel. Nous avons cependant le sentiment que cette approche ne reflète qu'imparfaitement, en tout cas pas complètement les usages de ces "briques" dans la Recherche en SHS : elles ne vont pas jusqu'à intégrer l'objectif final, qui est de construire de la connaissance. Pourtant, sur les cartographies que nous imprimons ou dans les articles que nous publions, ce ne sont pas de l'accumulation d'informations tel qu'un SIW en fournit que nous avons là, mais le fruit d'un travail d'analyse, d'interprétation et de synthèse. <br /><br /> Manquerait-il alors une "brique" supplémentaire au concept de SIW, une sorte de « chaîne éditoriale scientifique » ? Après avoir remis en cause la notion de donnée en provenance du Web en affirmant une vision plus constructiviste de celui-ci, nous montrerons comment les concepts du SIW peuvent s'assouplir vers des modalités de collecte et d'exploration inédites, se réarticuler, s'enrichir, et se généraliser pour traiter tout type « d'univers numérique ». Nous proposerons alors un nouveau cadre pour la conception de méthodes et de technologies, assumé comme un « cyber-laboratoire artisanal ».
Open publication - Free publishing - More shs
  • crawling
  • Navicrawler
  • SHS
  • Social Network Analysis
  • système d'information web
  • Web
  • Vous devez vous identifier ou créer un compte pour écrire des commentaires
  • 1 fichier attaché

Magellan

Le projet Magellan, qui est aujourd'hui une association loi 1901, est un projet qui a été initié par trois étudiants ingénieurs de l'UTC.

Présentation | Support utilisateur | Blog

  • communauté
  • crawling
  • indexation
  • Recherche
  • Vous devez vous identifier ou créer un compte pour écrire des commentaires

Navicrawler

Le Navicrawler est une extension pour le navigateur web Firefox. En l’installant, vous pourrez produire des graphes de l’ensemble des sites web sur lesquels vous aurez navigués, mais aussi classer ces sites et en faire des listes. Le Navicrawler collecte ces données pendant que vous naviguez et vous aide à faire le point sur votre exploration. Il produit des graphes comme format de données mais pour les visualiser, vous devrez utiliser un autre logiciel comme Guess ou Pajek.

Présentation | Support utilisateur | Wiki | Blog

  • crawling
  • Navicrawler
  • Vous devez vous identifier ou créer un compte pour écrire des commentaires

Crawling

Coming soûne...

  • crawling

Syndiquer le contenu Syndiquer le contenu

Connexion utilisateur

  • Créer un nouveau compte
  • Demander un nouveau mot de passe

Tags

blogosphère carte communauté crawling design Firefox Flem Gephi Google graphe information retrieval interface graphique Internet Navicrawler science search engine Social Network Analysis système d'information web sémantique TALN visualisation Web WebAtlas Wikipedia
plus de tags

Recherche

Actu blog

  • Cours UTC-IC05 : Analyse Exploratoire de Données Numériques
  • DevWeb, moteur de recherche spécialisé pour les développeurs
  • WebCSTI Rencontres OCIM 2009
  • gexf.net, un nouveau site web pour le format de fichier de graphe GEXF
  • Konodeo - Les Maîtres de l'Arctique
  • Konodeo - Portail de démonstration Arctique
  • Livre blanc WebAtlas : Du Nuage aux Abymes
  • Communautés de logiciel libre : un écosystème des motivations
  • Le web scientifique européen cartographié
  • CPAN-Explorer : la cartographie de l'univers Perl
en savoir plus

Actu forum

  • libellés
  • gephi et navicrawler
  • crawl sémantique ?
  • cartographie de réseau d'influence
  • citizen-boycott.org
en savoir plus

Partenaires


WebAtlas, le projet de recherche dirigé par Franck Ghitalla, qui a vu naître le Navicrawler de Mathieu Jacomy, une petite merveille pour l'exploration du Web.


RTGI SAS, dont l'Observatoire Présidentielle 2007 a fait beaucoup de bruit, avec notamment sa blogopole cartographiant la blogosphère politique, et désormais aux Etats-Unis.


Gephi, le logiciel libre d'exploration et de manipulation des réseaux, permet de représenter et d'interpréter des structures complexes. Il est téléchargeable gratuitement.

Syndication

  • Flux général
  • Flux général des commentaires
  • Flux du Forum

Network Sciences, web mining, data mining, text mining, crawling, scrapping, graph viz, data viz, small worlds, clustering, social networks, social network analysis, link analysis, maps, cartographie, indexation, moteurs de recherche, Firefox, Web 2.0

Flux RSS

Syndiquer le contenu
sitemap
  • forum
  • technologies
  • méthodes
  • liens
  • science