My favorites | Sign in
Project Home Downloads Wiki Issues Source
Checkout   Browse   Changes    
 
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200
201
202
203
204
205
206
207
208
209
210
211
212
213
214
215
216
217
218
219
220
221
222
223
224
225
226
227
228
229
230
231
232
233
234
235
236
237
238
239
240
241
242
243
244
245
246
247
248
249
250
251
252
253
254
255
256
257
258
259
260
261
262
263
264
265
266
267
268
269
270
271
272
273
274
275
276
277
278
279
280
281
282
283
284
285
286
#!/usr/bin/perl

#####################################################################
#
# wikipedia2enrich.pl
#
# Extrahierung relevanter Artikel und der darin genannten Literatur
# fuer eine Anreicherung per ISBN
#
# Dieses File ist (C) 2008-2011 Oliver Flimm <flimm@openbib.org>
#
# Dieses Programm ist freie Software. Sie koennen es unter
# den Bedingungen der GNU General Public License, wie von der
# Free Software Foundation herausgegeben, weitergeben und/oder
# modifizieren, entweder unter Version 2 der Lizenz oder (wenn
# Sie es wuenschen) jeder spaeteren Version.
#
# Die Veroeffentlichung dieses Programms erfolgt in der
# Hoffnung, dass es Ihnen von Nutzen sein wird, aber OHNE JEDE
# GEWAEHRLEISTUNG - sogar ohne die implizite Gewaehrleistung
# der MARKTREIFE oder der EIGNUNG FUER EINEN BESTIMMTEN ZWECK.
# Details finden Sie in der GNU General Public License.
#
# Sie sollten eine Kopie der GNU General Public License zusammen
# mit diesem Programm erhalten haben. Falls nicht, schreiben Sie
# an die Free Software Foundation, Inc., 675 Mass Ave, Cambridge,
# MA 02139, USA.
#
#####################################################################

use 5.008001;

#use warnings;
#use strict;

use utf8;
use Encode;

use Business::ISBN;
use Encode qw/decode_utf8/;
use Getopt::Long;
use Log::Log4perl qw(get_logger :levels);
use URI::Escape;
use XML::Twig;
use YAML;

use OpenBib::Config;
use OpenBib::Common::Util;

use vars qw($isbn_ref);
use vars qw($article_isbn_ref);
use vars qw($counter);

# Autoflush
$|=1;

my ($help,$importyml,$lang,$filename,$logfile);

my $lang2article_cat_ref = {
'de' => '4200',
'en' => '4201',
'fr' => '4202',
};

my $lang2isbn_origin_ref = {
'de' => '1',
'en' => '2',
'fr' => '3',
};

&GetOptions("help" => \$help,
"import-yml" => \$importyml,
"lang=s" => \$lang,
"filename=s" => \$filename,
"logfile=s" => \$logfile,
);


if (!$lang || !$filename || !exists $lang2article_cat_ref->{$lang} || !exists $lang2isbn_origin_ref->{$lang}){
print_help();
}

my $config = new OpenBib::Config;

$logfile=($logfile)?$logfile:"/var/log/openbib/wikipedia-enrichmnt-$lang.log";

my $log4Perl_config = << "L4PCONF";
log4perl.rootLogger=INFO, LOGFILE, Screen
log4perl.appender.LOGFILE=Log::Log4perl::Appender::File
log4perl.appender.LOGFILE.filename=$logfile
log4perl.appender.LOGFILE.mode=append
log4perl.appender.LOGFILE.layout=Log::Log4perl::Layout::PatternLayout
log4perl.appender.LOGFILE.layout.ConversionPattern=%d [%c]: %m%n
log4perl.appender.Screen=Log::Dispatch::Screen
log4perl.appender.Screen.layout=Log::Log4perl::Layout::PatternLayout
log4perl.appender.Screen.layout.ConversionPattern=%d [%c]: %m%n
L4PCONF

Log::Log4perl::init(\$log4Perl_config);

# Log4perl logger erzeugen
my $logger = get_logger();

# Verbindung zur SQL-Datenbank herstellen
my $enrichdbh
= DBI->connect("DBI:$config->{dbimodule}:dbname=$config->{enrichmntdbname};host=$config->{enrichmntdbhost};port=$config->{enrichmntdbport}", $config->{enrichmntdbuser}, $config->{enrichmntdbpasswd})
or $logger->error_die($DBI::errstr);

# Zuerst alle Anreicherungen loeschen
# Origin 30 = Wikipedia-DE
my $deleterequest = $enrichdbh->prepare("delete from normdata where category = ? and origin=30");
my $insertrequest = $enrichdbh->prepare("insert into normdata values (?,30,?,?,?)");

$article_isbn_ref = {};

if ($importyml){
YAML::LoadFile($filename);
}
else {
$deleterequest->execute($lang2article_cat_ref->{$lang});

my $twig= XML::Twig->new(
TwigHandlers => {
"/mediawiki/siteinfo" => \&parse_siteinfo,
"/mediawiki/page" => \&parse_page,
},
);

$isbn_ref = {};
$counter = 1;

$logger->info("Datei $filename einlesen");

$twig->safe_parsefile($filename);
#$twig->parsefile($filename);

$logger->info("In yml-Datei speichern");

YAML::DumpFile("wikipedia-isbn-$lang.yml",$isbn_ref);
}

$logger->info("In Datenbank speichern");

my $enrich_related_request = $enrichdbh->prepare("insert into related_isbn values (?,1)");
my $del_related_request = $enrichdbh->prepare("delete from related_isbn where origin=?");
$del_related_request->execute($lang2isbn_origin_ref->{$lang});

my %related_done = ();

foreach my $isbn (keys %$isbn_ref){
my $indicator=1;
my %related_isbn= ();

# Artikelnamen anreichern
foreach my $articlename (@{$isbn_ref->{$isbn}}){
%related_isbn = (%related_isbn,%{$article_isbn_ref->{"$articlename"}}) if (keys %{$article_isbn_ref->{"$articlename"}});
$insertrequest->execute($isbn,$lang2article_cat_ref->{$lang},$indicator,$articlename);
$indicator++;
}

# b) Related ISBNs anreichern

if (keys %related_isbn){
my $isbnstring=join(':',sort keys %related_isbn);

# Schon bearbeitet?
next if ($related_done{$isbnstring});

$enrich_related_request->execute($isbnstring);

$related_done{$isbnstring} = 1;
}
}


$logger->info("Ende und aus");

sub parse_page {
my($t, $page)= @_;

my $id = $page->first_child('id')->text() if ($page->first_child('id')->text());
my $title = $page->first_child('title')->text() if ($page->first_child('title')->text());

my $revision = $page->first_child('revision') if ($page->first_child('revision'));

my $content = $revision->first_child('text')->text() if ($revision->first_child('text')->text());

# Zuerst 10-Stellige ISBN's
while ($content=~m/(\d)-?(\d)-?(\d)-?(\d)-?(\d)-?(\d)-?(\d)-?(\d)-?(\d)-?([0-9xX])/g){
my @result= ($1,$2,$3,$4,$5,$6,$7,$8,$9,$10,$11,$12,$13);
my $isbn=join('',@result);

my $isbn10 = Business::ISBN->new($isbn);

if (defined $isbn10 && $isbn10->is_valid){
$isbn = $isbn10->as_isbn13->as_string;

}
else {
next;
}

$isbn = OpenBib::Common::Util::grundform({
category => '0540',
content => $isbn,
});

$article_isbn_ref->{"$title"}{"$isbn"}=1;

}

# Dann 13-Stellige ISBN's
while ($content=~m/(\d)-*(\d)-*(\d)-*(\d)-*(\d)-*(\d)-*(\d)-*(\d)-*(\d)-*(\d)-*(\d)-*(\d)-*([0-9xX])/g){
my @result= ($1,$2,$3,$4,$5,$6,$7,$8,$9,$10,$11,$12,$13);
my $isbn=join('',@result);

my $isbn13 = Business::ISBN->new($isbn);

if (defined $isbn13 && $isbn13->is_valid){
$isbn = $isbn13->as_isbn13->as_string;

}
else {
next;
}

$isbn = OpenBib::Common::Util::grundform({
category => '0540',
content => $isbn,
});

$article_isbn_ref->{"$title"}{"$isbn"}=1;
}

foreach my $isbn (keys %{$article_isbn_ref->{"$title"}}){
push @{$isbn_ref->{"$isbn"}}, $title;
}


if ($counter % 1000 == 0){
$logger->info("$counter done");
}

$counter++;

# Release memory of processed tree
# up to here
$t->purge();
}

sub parse_siteinfo {
my($t, $siteinfo)= @_;

my $sitename = $siteinfo->first_child('sitename')->text() if ($siteinfo->first_child('sitename')->text());

my $base = $siteinfo->first_child('base')->text() if ($siteinfo->first_child('base')->text());

$logger->info("Metadata: $sitename $base");

# Release memory of processed tree
# up to here
$t->purge();
}

sub print_help {
print << "ENDHELP";
wikipedia2enrich.pl - Einspielen von Wikipedia-Artikeln in Anreicherungs-DB

Optionen:
-help : Diese Informationsseite

--filename=... : Dateiname des wikipedia-Dumps im XML-Format
--logfile=... : Name der Log-Datei
--lang=\[de\|en\|fr\] : Sprache

Bsp:
1) Analyse eines Wikipedia Dumps

wikipedia2enrich.pl --filename=frwiki-20080305-pages-articles.xml --lang=fr

2) Einladen der generierten

wikipedia2enrich.pl -import-yml --filename=wikipedia-isbn-fr.yml --lang=fr
ENDHELP
exit;
}

Change log

r5701 by fl...@sigtrap.de on Dec 23, 2011   Diff
- Erweiterung: Literaturanalyse in der
Wikipedia. Verarbeitung von Wikipedia-
Dumps
               und Identifizierung von
ISBNs pro Artikel. Daraus Titellisten
ueber:
  1) Artikelnamen, in denen gegebene ISBN
genannt ist
  2) Zusammenfassungen aller genannten
ISBNs in den Artikeln aus 1)
  3) Rueckkopplung der gefundenen ISBNs
zur gegebener ISBN zur Anfragezeit mit
...
Go to: 
Project members, sign in to write a code review

Older revisions

r3932 by --- on Dec 20, 2009   Diff
This commit was manufactured by
cvs2svn to create branch 'devel-
2_4-branch'.
r3683 by flimm on Jul 19, 2009   Diff
- Merge des mod_perl2-Branches in den
Head-Branch. Damit ist die
Umstellung auf Apache2 mit mod_perl2
in OpenBib vollzogen.
r2354 by flimm on Apr 1, 2008   Diff
- Erweiterung um Sortierung der
Artikel-Namen
All revisions of this file

File info

Size: 7996 bytes, 286 lines

File properties

svn:mime-type
text/x-perl
svn:eol-style
native
svn:executable
*
svn:keywords
Author Date Id Revision
Powered by Google Project Hosting