My favorites | Sign in
Project Home Wiki Issues Source
READ-ONLY: This project has been archived. For more information see this post.
Search
for
  Advanced search   Search tips   Subscriptions
Issue 1: que hem de fer?
1 person starred this issue and may be notified of changes. Back to list
Status:  Started
Owner:  ricard.c...@gmail.com


 
Project Member Reported by ricard.c...@gmail.com, Oct 22, 2010
la idea es realitzar un .sh que executi el WGET, Tidy, i tot el necessàri per:

1. Seleccionar una pàgina web de la qual es vulgui extreure informació. Ha de ser una pàgina web pública, accessible des d’un navegador web en un ordinador connectat a Internet.

2. Desenvolupar una primera versió del screen scraper que simplement es descarregui la pàgina web seleccionada a partir de la seva adreça URL i obtingui el seu HTML.

3. Per tal de poder processar la pàgina Web amb eines XML, cal garantir que aquest estigui ben formada. Una forma de fer-ho es mitjançant Tidy (http://tidy.sourceforge.net), que transforma HTML en XHTML, HTML que és XML ben format. Hi han versions de Tidy per Java, .Net, etc. Proveu de processar amb el Tidy el codi HTML descarregat en el pas anterior.

4. Per tal de definir l’estructura de la informació que s’extreaurà, per exemple per fer més fàcil que sigui reutilitzada per altres aplicacions, una bona opció és representar aquesta informació amb XML que segueixi una DTD. Definiu la DTD que seguiran el documents XML que generarà el screen scraper amb la informació extreta.

5. Per tal d’implementar l’extracció d’informació a partir de la pàgina Web es farà servir XSLT, que permet extreure el contingut a partir del XHTML. Desenvolupeu la XSLT que a partir de la Web generi l’XML desitjat (basat en la DTD anterior).

6. Feu servir la transformació des del screen scraper i retorneu el contingut extret com a  XML, amb referència a la DTD que aquest segueix.
Oct 22, 2010
Project Member #1 ricard.c...@gmail.com
(No comment was entered for this change.)
Labels: -Type-Defect Type-Other

Powered by Google Project Hosting