Hans Hehl | 12 Aug 10:29
Favicon

Re: InetBib] Neue Suchmaschine von Q-Sensei bietet

Lieber Herr Wolf, liebe Liste,

Herr Wolf schrieb:

"Die Datenbasis von 2 Mio. Dokumenten aus 2 (wenn auch sehr großen) Datenbanken ist natürlich im
Vergleich zu OAIster, BASE und Scientificcommons (alle deutlich über 10 Mio. Dokumente) noch sehr gering."
Warum erwähnen Sie nicht Google Scholar, das alle anderen frei zugänglichen Datenbanken wohl an
Bedeutung übertrifft bzw. auch OAIster mehr oder weniger miterfasst? 

Mit freundlichen Grüssen

Hans Hehl

Sebastian Wolf | 12 Aug 11:31

Re: InetBib] Neue Suchmaschine von Q-Sensei bietet

Lieber Herr Hehl, liebe Liste,

Hans Hehl schrieb:

> gering." Warum erwähnen Sie nicht Google Scholar, das alle anderen
> frei zugänglichen Datenbanken wohl an Bedeutung übertrifft bzw. auch
> OAIster mehr oder weniger miterfasst?

Man muss ja nicht immer Google erwähnen :) Ich habe zum Vergleich nur 
die Suchmaschinen erwähnt, die sich auf Open-Access-Dokumente 
konzentrieren. Natürlich übertrifft Google Scholar in der Gesamtmenge 
OAIster und BASE. Aber dass Google alle Daten aus OAIster erfasst hätte, 
kann ich aus eigener Erfahrung nicht bestätigen. Viele Dokumentenserver 
werden von Google Scholar mehr oder weniger gut erfasst, aber keineswegs 
immer vollständig.

Da wir mit BASE selbst eine wissenschaftlichen Suchmaschine betreiben,
haben wir schon recht viel Erfahrung mit dem Indexieren von
Dokumentenservern gesammelt und man kann nur sagen, dass die Indexierung
bei weitem nicht so problemlos ist, wie man sich das vielleicht denkt.
Oft sind manuelle Anpassungen nötig, um wirklich alle Dokumente zu 
bekommen - nicht nur bei den etwas "exotischen" Dokumentensservern. 
Google Scholar nimmt solche manuellen Anpassungen nicht vor, das wäre 
für Google viel zu aufwändig. Google verfährt nach dem Motto: Sollen die 
Repository-Betreiber doch dafür sorgen, dass ihre Daten gut indexierbar 
sind. Und den Standpunkt von GS kann man auch durchaus nachvollziehen. 
Hier haben einige Dokumentenserver wirklich Nachholbedarf.

Aber selbst wenn es die Dokumentenserver den Suchmaschinen einfach 
machen (z.B. über eine Indexseite mit allen Dokumenten), indexiert GS 
(Continue reading)

Alexander Wagner | 13 Aug 08:33
Favicon

Re: InetBib] Neue Suchmaschine von Q-Sensei bietet

Sebastian Wolf schrieb:

Guten Morgen!

[...]
> Aber selbst wenn es die Dokumentenserver den Suchmaschinen
> einfach machen (z.B. über eine Indexseite mit allen
> Dokumenten), indexiert GS längst nicht alles.

Wahrscheinlich schon "alles" aber die Zeitskala auf der das
passiert ist so, dass das "alles" laengst veraltet ist, will
sagen wieder nur einen kleinen Teil des Ganzen darstellt.

> Hier ein kleiner Vergleich für unseren Dokumentenserver
> BieSOn (OPUS-System inkl. einer Indexseite, über die
> Suchmaschinen alle Dokumente indexieren können).
> 
> Insgesamt:  995 Dokumente
> in BASE:    994 Dokumente
> in OAIster: 990 Dokumente
> in Google:  491 Dokumente (PDFs und PS)
> in Google Scholar: 444 (!) Dokumente
> 
> Also hat GS nicht mal 50% aller Dokumente indexiert - und ob es bei 
> anderen OPUS-Servern viel besser aussieht, bezweifele ich.

Aus meiner bescheidenen Erfahrung sieht das nicht anders
aus. Vielleicht kann man sogar recht einfach verstehen
warum. Soweit ich das sehe spielt einem hier der Pagerank
einen Streich. Google (aka <place your favourite search
(Continue reading)

Sebastian Wolf | 13 Aug 13:21

Google Scholar etc. (war: Re: InetBib] Neue Suchmaschine von Q-Sensei bietet)

Hallo Herr Wagner, liebe Liste,

vielen Dank für Ihre ausführliche Antwort. Hier nun meine ausführliche
Antwort.

Alexander Wagner schrieb:

> einen Streich. Google (aka <place your favourite search
> engine here>) muss irgendwie "das gesamte" Internet
> einsammeln. Irgendwie muessen die dabei priorisieren wie oft
> sie eine Seite neu indexieren. Soweit ich das verstehe setzt
> Google diese Prioritaet, zumindest auch, nach dem Pagerank,
> d.h. eine Seite die hoch ranked wird oft aufgerufen, ggf.
> oft geaendert und damit oft neu indexiert. Das ist auch
> vernuenftig. Meistens.

Damit hat es in diesem Fall aber nichts zu tun. Google hat auch Seiten
von unserem Repository indexiert, die erst kürzlich (Juni 2008) erstellt
wurden. Es ist also eine mehr oder weniger sinnfreie Auswahl an PDFs aus
unserem Repository, die in Google zu finden sind. Die OPUS-Indexliste
mit allen Links auf die HTML-Eingangsseiten ist auch von unserer
Repository-Startseite verlinkt (allerdings so, dass sie nur für
Suchmaschinen-Robots "sichtbar" ist).

> Man kann versuchen das zu verbessern, in dem man
> haendisch(!) nach jedem Freischalten neuer Dokumente Google

Die händische Methode empfiehlt sich allenfalls bei Seiten, die nicht
über "normale" Links zugänglich sind. Google, Yahoo & Co. bieten die
Möglichkeit an, eine spezielle "Sitemap"-Datei im XML-Format mit einer
(Continue reading)

Nils K. Windisch | 13 Aug 13:57
Favicon

Re: Google Scholar etc. (war: Re: InetBib] Neue Suchmaschine von Q-Sensei bietet)

Liebe Liste,

On 13.08.2008, at 13:21, Sebastian Wolf wrote:
> Google hat auch Seiten
> von unserem Repository indexiert, die erst kürzlich (Juni 2008)  
> erstellt
> wurden. Es ist also eine mehr oder weniger sinnfreie Auswahl an PDFs  
> aus
> unserem Repository, die in Google zu finden sind.

An dieser Stelle mal die Frage (in die Runde), wer denn (in Verbindung  
mit dem lokalen Repository) die Google Webmaster Tools nutzt, um zu  
prüfen, was Google eigentlich findet und in den Index aufnimmt  
(abseits so "bequemer" Angaben wie: Fehler, Crawling-Häufigkeit,  
genutzte Keywords uvm.)

Beste Grüße,
Nils K. Windisch

--
Nils K. Windisch
Telefon: +49 551 39 83 74
E-Mail: windisch@...

Niedersächsische Staats- und
Universitätsbibliothek Göttingen (SUB)
Platz der Göttinger Sieben 1
37073 Göttingen
http://www.sub.uni-goettingen.de/

(Continue reading)

Sebastian Wolf | 13 Aug 15:21

Re: Google Scholar etc. (war: Re: InetBib] Neue Suchmaschine von Q-Sensei bietet)

Hallo Herr Windisch, liebe Liste,

Nils K. Windisch schrieb:

> An dieser Stelle mal die Frage (in die Runde), wer denn (in Verbindung 
> mit dem lokalen Repository) die Google Webmaster Tools nutzt, um zu 
> prüfen, was Google eigentlich findet und in den Index aufnimmt (abseits 
> so "bequemer" Angaben wie: Fehler, Crawling-Häufigkeit, genutzte 
> Keywords uvm.)

Ich benutze sowohl die Google Webmaster Tools als auch den Yahoo Site 
Explorer (http://siteexplorer.search.yahoo.com/de/). Die GWT bieten 
einige ganz nette Funktionen, aber eine Funktion "um zu prüfen, was 
Google eigentlich findet und in den Index aufnimmt" konnte ich noch 
nicht finden (außer der normalen "site:"-Suche, die man aber auch über 
die reguläre Google-Suchmaske absetzen kann). Gibt es da noch mehr in 
den GWT?

Der Yahoo Site Explorer bietet in dieser Hinsicht übrigens noch mehr 
Funktionen, z.B. eine funktionierende Suche nach internen und externen 
Links. In den GWT werden mir zwar fehlerhafte Links auf Seiten aus 
meiner Domain angezeigt, aber leider nicht, von welcher Webseite der 
Fehler stammt (ist es ein Link von einer Seite aus meiner Domain oder 
von irgendwo im Web?). Die "Link"-Suche bei Google ist unbrauchbar (noch 
so eine Sache, die bei Google sehr schlecht ist). Hierfür benutze ich 
dann immer Yahoo, damit lässt sich dann meist auch der Ursprung eines 
Fehlers gut herausfinden.

Wann und warum eine Webseite allerdings von einer Suchmaschine indexiert 
wird und wann nicht, bleibt oft rätselhaft. Ich glaube, manchmal wissen 
(Continue reading)

Alexander Wagner | 14 Aug 08:34
Favicon

Re: Google Scholar etc. (war: Re: InetBib] Neue Suchmaschine von Q-Sensei bietet)

Sebastian Wolf schrieb:

Guten Morgen!

>> einen Streich. Google (aka <place your favourite search
>> engine here>) muss irgendwie "das gesamte" Internet
>> einsammeln. Irgendwie muessen die dabei priorisieren wie
>> oft sie eine Seite neu indexieren. Soweit ich das
>> verstehe setzt Google diese Prioritaet, zumindest auch,
>> nach dem Pagerank, d.h. eine Seite die hoch ranked wird
>> oft aufgerufen, ggf.  oft geaendert und damit oft neu
>> indexiert. Das ist auch vernuenftig. Meistens.
> 
> Damit hat es in diesem Fall aber nichts zu tun. Google hat
> auch Seiten von unserem Repository indexiert, die erst
> kürzlich (Juni 2008) erstellt wurden. Es ist also eine
> mehr oder weniger sinnfreie Auswahl an PDFs aus unserem
> Repository, die in Google zu finden sind.

Nun ja, wenn ich "das WWW" indexieren will, dann wird man
hier eine Auswahl treffen was, in welcher Reihenfolge wie
oft indexiert wird. Geht man davon aus, dass die
wesentlichen Informationen auf einem hoeheren Level liegen
wird man Links auf eine niedrigere Stufe niedriger
priorisieren, Seiten, die von Hause aus einen niedrigen Rang
haben kommen dann noch ein Stueckchen weiter nach unten. Und
es klingt plausibel, dass man die abgehenden Links einer
Seite nicht der Reihe nach abarbeitet sondern eine
zufaellige Auswahl trifft, und die restlichen in die
Warteschleife schickt. Wiederum mit entsprechend niedriger
(Continue reading)

Hans Hehl | 12 Aug 19:57
Favicon

Re: InetBib] Neue Suchmaschine von Q-Sensei bietet

lieber Herr Wolf, liebe Liste,

Herr Wolf schrieb:

"Man muss ja nicht immer Google erwähnen--"

Natürlich nicht. Aber vielleicht werden Google und Google Scholar im deutschen Bibliothekswesen immer
noch sehr unterschätzt, obwohl sie inzwischen fast die ganze neuere wissenschaftliche Literatur
erfassen, wenn auch mit einer nicht immer präzisen Erfassung und Darstellung von Zitaten, was für
Bibliothekare ein Hinder- oder Ärgernis ist. 

"wie auch eine kürzliche Studie von Peter Jasco
wieder gezeigt hat .."

Im folgenden Aufsatz
http://www.int-res.com/articles/esep2008/8/e008pp5.pdf
wird diese Studie als nicht ganz zutreffend kritisiert, dort wird Google Scholar verglichen mit Web of
Science und Scopus viel positiver beurteilt. 

Mit freundlichen Grüssen

Hans Hehl


Gmane