Angelika Adam | 28 Jun 2012 13:17
Picon
Favicon

Wikipedia Historical Attributes Data Set online available for download

Hi all, 


Guillermo Garrido (NLP Group, UNED, Spain) and Enrique Alfonseca Google Research Zurich, one of our partners in the RENDER project [1] extracted a data set that contains all  attribute-value pairs of info boxes out of English Wikipedia articles since 2003.
This 5.5 GB large data set, which is called Wikipedia Historical Attributes Data (WHAD), is freely available on the download page of the RENDER toolkit [2]. 

More detailed information about the data set can be found at Enrique Alfonseca's website [3].
Enrique will attend the Wikipedia Academy 2012 [4] and is going to present his work during the Paper Session III: Analyzing Wikipedia Article Data [5] on Saturday.
A short preview of this paper was published in the current Research:Newsletter [6].

Best regards from Berlin,
Angelika

[2]  http://toolserver.org/~RENDER/toolkit/downloads/ 


-- 
Angelika Adam
Projektmanagerin

Wikimedia Deutschland e.V. | Obentrautstraße 72 | 10963 Berlin
Tel. (030) 219 158 260

http://www.wikimedia.de/

Stellen Sie sich eine Welt vor, in der jeder Mensch freien Zugang zu der
Gesamtheit des Wissens der Menschheit hat. Helfen Sie uns dabei!

Wikimedia Deutschland - Gesellschaft zur Förderung Freien Wissens e.V.
Eingetragen im Vereinsregister des Amtsgerichts Berlin-Charlottenburg unter
der Nummer 23855 B. Als gemeinnützig anerkannt durch das Finanzamt für
Körperschaften I Berlin, Steuernummer 27/681/51985.

_______________________________________________
Wiki-research-l mailing list
Wiki-research-l <at> lists.wikimedia.org
https://lists.wikimedia.org/mailman/listinfo/wiki-research-l
Felipe Ortega | 30 Jun 2012 13:29
Picon
Picon
Favicon
Gravatar

Re: Wikipedia Historical Attributes Data Set online available for download

>________________________________
> De: Angelika Adam <angelika.adam <at> wikimedia.de>
>Para: wiki-research-l <at> lists.wikimedia.org 
>CC: Enrique Alfonseca <ealfonseca <at> google.com>; Guillermo Garrido <ggarrido <at> lsi.uned.es> 
>Enviado: Jueves 28 de junio de 2012 13:17
>Asunto: [Wiki-research-l] Wikipedia Historical Attributes Data Set online available for download
> 
>
>Hi all, 
>
>
>Guillermo Garrido (NLP Group, UNED, Spain) and Enrique Alfonseca Google Research Zurich, one of our
partners in the RENDER project [1] extracted a data set that contains all  attribute-value pairs of info
boxes out of English Wikipedia articles since 2003.
>This 5.5 GB large data set, which is called Wikipedia Historical Attributes Data (WHAD), is freely
available on the download page of the RENDER toolkit [2]. 
>
>
>More detailed information about the data set can be found at Enrique Alfonseca's website [3].
>Enrique will attend the Wikipedia Academy 2012 [4] and is going to present his work during the Paper
Session III: Analyzing Wikipedia Article Data [5] on Saturday.
>A short preview of this paper was published in the current Research:Newsletter [6].
>

Hi, Angelika.

After Enrique's presentation this morning at Wikipedia Academy 2012 I tried to download the Wikipedia
Historical Attributes Data (WHAD) file from your second link. I'm afraid the link to the file is
incorrect, since it uses the wrong port:

http://ortelius.toolserver.org:83/~render/toolkit/downloads/20120323-en-updates.json.gz 
--> Should be: http://ortelius.toolserver.org:80/~render/toolkit/downloads/20120323-en-updates.json.gz

Very interesting work and dataset, by the way.

HTH.

Felipe.
>
>Best regards from Berlin,
>Angelika
>
>
>[1]  http://meta.wikimedia.org/wiki/RENDER
>[2]  http://toolserver.org/~RENDER/toolkit/downloads/
>
>[3] http://alfonseca.org/eng/research/whad.html
>[4] http://wikipedia-academy.de/
>[5] http://wikipedia-academy.de/2012/wiki/Schedule#Paper_Session_III:_Analysing_Wikipedia_Article_Data
>[6] https://meta.wikimedia.org/wiki/Research:Newsletter/2012-06-25
>
>
>
>-- 
>Angelika Adam
>Projektmanagerin
>
>Wikimedia Deutschland e.V. | Obentrautstraße 72 | 10963 Berlin
>Tel. (030) 219 158 260
>
>http://www.wikimedia.de/
>
>Stellen Sie sich eine Welt vor, in der jeder Mensch freien Zugang zu der
>Gesamtheit des Wissens der Menschheit hat. Helfen Sie uns dabei!
>
>Wikimedia Deutschland - Gesellschaft zur Förderung Freien Wissens e.V.
>Eingetragen im Vereinsregister des Amtsgerichts Berlin-Charlottenburg unter
>der Nummer 23855 B. Als gemeinnützig anerkannt durch das Finanzamt für
>Körperschaften I Berlin, Steuernummer 27/681/51985.
>
>
>_______________________________________________
>Wiki-research-l mailing list
>Wiki-research-l <at> lists.wikimedia.org
>https://lists.wikimedia.org/mailman/listinfo/wiki-research-l
>
>
>  
Angelika Adam | 3 Jul 2012 12:27
Picon
Favicon

Re: Wikipedia Historical Attributes Data Set online available for download

Hi Felipe,


thanks again for your notice. We fixed the problem. 
The data set is now available on http://toolserver.org/~RENDER/toolkit/downloads/

Best regards from Berlin,
Angelika


2012/6/30 Felipe Ortega <glimmer_phoenix <at> yahoo.es>
>________________________________
> De: Angelika Adam <angelika.adam <at> wikimedia.de>
>Para: wiki-research-l <at> lists.wikimedia.org
>CC: Enrique Alfonseca <ealfonseca <at> google.com>; Guillermo Garrido <ggarrido <at> lsi.uned.es>
>Enviado: Jueves 28 de junio de 2012 13:17
>Asunto: [Wiki-research-l] Wikipedia Historical Attributes Data Set online available for download
>
>
>Hi all, 
>
>
>Guillermo Garrido (NLP Group, UNED, Spain) and Enrique Alfonseca Google Research Zurich, one of our partners in the RENDER project [1] extracted a data set that contains all  attribute-value pairs of info boxes out of English Wikipedia articles since 2003.
>This 5.5 GB large data set, which is called Wikipedia Historical Attributes Data (WHAD), is freely available on the download page of the RENDER toolkit [2]. 
>
>
>More detailed information about the data set can be found at Enrique Alfonseca's website [3].
>Enrique will attend the Wikipedia Academy 2012 [4] and is going to present his work during the Paper Session III: Analyzing Wikipedia Article Data [5] on Saturday.
>A short preview of this paper was published in the current Research:Newsletter [6].
>

Hi, Angelika.

After Enrique's presentation this morning at Wikipedia Academy 2012 I tried to download the Wikipedia Historical Attributes Data (WHAD) file from your second link. I'm afraid the link to the file is incorrect, since it uses the wrong port:

http://ortelius.toolserver.org:83/~render/toolkit/downloads/20120323-en-updates.json.gz  --> Should be: http://ortelius.toolserver.org:80/~render/toolkit/downloads/20120323-en-updates.json.gz

Very interesting work and dataset, by the way.


HTH.

Felipe.
>
>Best regards from Berlin,
>Angelika
>
>
>[1]  http://meta.wikimedia.org/wiki/RENDER
>[2]  http://toolserver.org/~RENDER/toolkit/downloads/
>
>[3] http://alfonseca.org/eng/research/whad.html
>[4] http://wikipedia-academy.de/
>[5] http://wikipedia-academy.de/2012/wiki/Schedule#Paper_Session_III:_Analysing_Wikipedia_Article_Data
>[6] https://meta.wikimedia.org/wiki/Research:Newsletter/2012-06-25
>
>
>
>-- 
>Angelika Adam
>Projektmanagerin
>
>Wikimedia Deutschland e.V. | Obentrautstraße 72 | 10963 Berlin
>Tel. (030) 219 158 260
>
>http://www.wikimedia.de/
>
>Stellen Sie sich eine Welt vor, in der jeder Mensch freien Zugang zu der
>Gesamtheit des Wissens der Menschheit hat. Helfen Sie uns dabei!
>
>Wikimedia Deutschland - Gesellschaft zur Förderung Freien Wissens e.V.
>Eingetragen im Vereinsregister des Amtsgerichts Berlin-Charlottenburg unter
>der Nummer 23855 B. Als gemeinnützig anerkannt durch das Finanzamt für
>Körperschaften I Berlin, Steuernummer 27/681/51985.
>
>
>_______________________________________________
>Wiki-research-l mailing list
>Wiki-research-l <at> lists.wikimedia.org
>https://lists.wikimedia.org/mailman/listinfo/wiki-research-l
>
>
>  

_______________________________________________
Wiki-research-l mailing list
Wiki-research-l <at> lists.wikimedia.org
https://lists.wikimedia.org/mailman/listinfo/wiki-research-l



--
Angelika Adam
Projektmanagerin

Wikimedia Deutschland e.V. | Obentrautstraße 72 | 10963 Berlin
Tel. (030) 219 158 260

http://www.wikimedia.de/

Stellen Sie sich eine Welt vor, in der jeder Mensch freien Zugang zu der
Gesamtheit des Wissens der Menschheit hat. Helfen Sie uns dabei!

Wikimedia Deutschland - Gesellschaft zur Förderung Freien Wissens e.V.
Eingetragen im Vereinsregister des Amtsgerichts Berlin-Charlottenburg unter
der Nummer 23855 B. Als gemeinnützig anerkannt durch das Finanzamt für
Körperschaften I Berlin, Steuernummer 27/681/51985.

_______________________________________________
Wiki-research-l mailing list
Wiki-research-l <at> lists.wikimedia.org
https://lists.wikimedia.org/mailman/listinfo/wiki-research-l

Gmane