Wer profitiert von Open Data?

Dieser Blogbeitrag entstand zu dem Vortrag „Wikidata: Curating Data about the World with 17000 Volunteers“ (zu deutsch: Wikidata: Daten über die Welt kuratieren mit 17000 Freiwilligen), dem 6. Vortrag der Ringvorlesung Open Technology For An Open Society. Gehalten wurde er von Lydia Pintscher, Produktmanagerin von Wikidata.

Viele Menschen nutzen Wikipedia täglich. Sei es, um etwas nachzuschlagen, sich zu informieren oder um weiterführende Quellen zu einem Thema zu finden. Aber was ist Wikidata, wie kann Wikidata die Wikipedia verbessern und wer profitiert alles davon?

Was ist Wikidata?

Wie der Name andeutet, ist das Wikidata-Projekt eng mit der Wikipedia verknüpft. Es ist ein Projekt der Wikimedia-Foundation, der Non-Profit-Organisation, die sich um strukturelle Aufgaben wie Verwaltung, Softwareentwicklung und Spendenkoordinierung von Wikipedia und anderen Projekten kümmert. Sie verfolgt das Ziel, so vielen Menschen wie möglich multilinguales freies Wissen zugänglich zu machen und ihnen die Teilnahme an der Wissensbildung zu ermöglichen [1]. Den meisten ist sie wohl durch ihre jährlichen Spendenkampagnen-Banner in der Wikipedia bekannt.

Logo von Wikidata

Logo von Wikidata

Wikidata ist ein Datenbankprojekt und soll eine „Wikipedia für Daten“ [2] werden. Wie bei der Wikipedia können alle, die wollen, mitmachen. Das Projekt lebt und wächst durch die inzwischen über 18.000 [3] Freiwilligen.
Wikidata wurde in erster Linie gegründet, um die Wikipedia bei ihrem Ziel – Zugang zu Wissen zu schaffen – zu unterstützen. Dazu nimmt Wikidata Daten aus der Wikipedia wie Jahreszahlen, Koordinaten und Ortsnamen und speichert sie strukturiert und sprachunabhängig und somit auch maschinenlesbar ab, dazu später mehr.

Gegründet wurde das Wikidata-Projekt 2012 von Denny Vrandečić und Markus Krötsch [4], finanziert wurde es durch Spenden von unter anderem Google. Betreut wird es hauptsächlich von einem kleinen Team bei Wikimedia Deutschland e.V., dem deutschen Chapter (Bezeichnung der nationalen Organisationen) der Wikimedia Foundation mit Sitz in Berlin.
Zur ersten WikidataCon, einer Konferenz der Wikidata-Community, die vor einem Monat in Berlin stattfand, kamen aber 200 Menschen aus der ganzen Welt und feierten auch das fünfjährige Bestehen des Projekts. Die Finanzierung läuft heute, wie auch die der Wikipedia, über die Spendeneinnahmen der Wikimedia Foundation.

Veröffentlicht werden die Daten unter der Lizenz CC0 (Public domain), somit sind sie ohne Einschränkungen oder Auflagen gemeinfrei nutzbar, auch kommerziell.

Wikidata und Wikipedia

Infobox South Pole Telescope

Beispiel für eine durch Wikidata generierte Infobox, Ausschnitt Screenshot Wikipediaartikel South Pole Telescope [12]

Wikidata unterstützt die einzelnen Sprachversionen der Wikipedia durch einen zentralen Datenbestand, auf den alle Wikipedien zugreifen können, und vernetzt sie.
So war Wikidatas erster Beitrag zur Wikipedia die Automatisierung der Links zwischen Wikipedia-Artikeln zum selben Thema in unterschiedlichen Sprachen, die sich am linken Rand eines jeden Wikipedia-Artikels befinden [5].

Es gibt Wikipedien in fast 300 Sprachen [6]. Jede Sprachversion hat ihre eigene Community und ihre eigenen Regeln, wie zum Beispiel eigene Relevanzkriterien. Es gibt große Wikipedien mit großen, aktiven Communitys und vielen, aktuell gehaltenen Artikeln, wie zum Beispiel die deutschsprachige Wikipedia mit 2.126.864 Artikeln, und kleinere, wie zum Beispiel die albanischsprachige Wikipedia mit 70.593 Artikeln [6].
Daraus ergeben sich große Qualitätsunterschiede in Inhalt und Umfang sowie widersprüchliche Informationen zwischen verschiedensprachigen Wikipedien. Das können zum Beispiel unterschiedliche Einwohner*innenzahlen für eine Stadt in jeder Sprachversion sein.
Durch automatisch generierte Infoboxen [7], die aus Wikidata gespeist werden, können die aktuellen Daten sprachunabhängig eingebunden werden. Ist ein Artikel in einer Sprache noch nicht vorhanden, gibt es den Article Placeholder [8], der stattdessen alle in Wikidata verfügbaren Daten zu diesem Thema anzeigt, somit informiert und dazu anregen soll, einen Artikel zu verfassen. Beide Funktionen sollen besonders kleine Wikipedien unterstützen.

Auf dem Weg sind außerdem automatisch generierte Listen [9] [10]; ein Beispiel wäre eine Liste aller Raumsonden, die ins All gestartet sind, die durch automatische regelmäßige Abfragen aktuell gehalten wird. Mit dem Query Service [11] lassen sich solche Abfragen an Wikidata bereits stellen und grafisch darstellen, zum Beispiel als Balkendiagramm, Zeitstrahl oder, falls Geokoordinaten vorhanden, Punkte auf einer Karte.

Die Welt lässt sich nicht in kleine Schubladen stecken – Eine besondere Datenstruktur

Daten aus einem Fließtext zu ziehen, ist keine leichte Aufgabe für eine Maschine. Noch schwieriger wird es, wenn sie einen Text auch interpretieren soll. Dies ist nur möglich, wenn die Daten und ihre Zusammenhänge einer Struktur folgen, die die Maschine lesen kann.
Die Besonderheit an Wikidatas Daten ist, dass sie semantisch durchsuchbar sind. Sie lassen also Suchen nach Bedeutung und Kontext der Suchanfrage zu, im Gegensatz zu einer reinen Suche nach Schlüsselwörtern [13]. Die Beziehungen zwischen einzelnen Daten lassen sich in der Form Subjekt, Prädikat, Objekt darstellen, zum Beispiel [Douglas Adams | ist oder war ein | Mensch] [14].
Da andersherum Menschen meist keine Datenbankabfragesprache beherrschen, sondern auch ihre Suchanfragen semantisch mehr oder weniger verklausulieren, ist dieses Format besonders interessant für künstliche Intelligenzen. Diese sollen mit Menschen interagieren können, wie zum Beispiel die Google-Suche, Siri (Apple), Alexa (Amazon) oder Watson (IBM).

Erläuterung Datenstruktur von Wikidata am Beispiel von Douglas Adams

Erläuterung Datenstruktur von Wikidata am Beispiel von Douglas Adams (Vollständiger Wikidata-Eintrag hier), Lizenz: CC0

Die Subjekte werden Items genannt und entsprechen in etwa je einem Wikipediaartikel. Um sprachunabhängig benutzt werden zu können, bekommt jedes Item eine eindeutige Nummer zugewiesen. Die Namen des Items, die meist von Sprache zu Sprache verschieden sind, heißen Label. So ist das Label für Item Q515 im Deutschen „Stadt“, im Englischen „City“ [15].
Ein Item hat außerdem Eigenschaften wie zum Beispiel „ist ein“ (Mensch) oder „ausgebildet an“ (Universität XY, Grundschule YZ..).

Um die Komplexität der Welt wiedergeben zu können, sind die Einschränkungen, wie welche Daten verknüpft werden können, nur sehr locker. So kann eine Person auch mit einem Gebäude verheiratet sein [4]. Auch widersprüchliche Aussagen werden abgebildet und einer Eigenschaft können mehrere Werte und alternative Schreibweisen dieser Werte zugewiesen werden [16] [17], denn Wikidata soll nicht Wahrheitsfindung betreiben oder territoriale Konflikte entscheiden, sondern Daten und ihre Quellen abbilden und in Zusammenhang bringen.

Weitere Projekte um Wikidata sind die Verknüpfung der Wikidata-Struktur mit Wikimedia Commons und Wictionary und Wikicyte.
Wikimedia Commons ist das Medienarchiv, in dem alle Bilder, Videos und Audiodateien abgelegt sind, die in den einzelnen Wikipedien verwendet werden. Bei diesen Daten entstehen die gleichen Probleme wie bei den Wikipediaartikeln: Da die Metadaten unstrukturiert und in vielen verschiedenen Sprachen vorhanden sind, sind sie kaum maschinenlesbar und durchsuchbar. Mit der Struktur von Wikidata können den Dateien die sprachunabhängigen eindeutigen Bezeichner aus Wikidata zugeordnet werden. Dann können zum Beispiel alle Bilder mit Katzen im Vordergrund und Bäumen im Hintergrund gesucht werden. [18]
Bei Wictionary, dem Wörterbuchprojekt von Wikimedia, sieht es nicht anders aus. Verbunden mit dem Wictionary könnte Wikidata unter anderem zu automatischen Übersetzungen beitragen. [19]
Wikicyte möchte Quellenangaben in der Wikipedia und darüber hinaus unterstützen, indem es möglichst viele Metadaten über bibliographische Quellen wie Bücher oder wissenschaftliche Publikationen in Wikidata ablegt. Zum Beispiel: Wer sind die Autor*innen, welche Quellen wurden zitiert, zu welcher Institution gehören die Autor*innen usw. [20]

Ein Ökosystem aus Datenbanken

Auch außerhalb des Wikimedia-Universums spielt Wikidata bereits eine Rolle.
Museen, Archive, Bibliotheken und andere Datenbankprojekte verlinken ihre Datenbanken mit Wikidata, um ihre Inhalte zu vervollständigen und besser nutzbar zu machen [21]. Wikidata sieht sich dabei nicht als Instanz, in die alle Datenbanken übergehen sollen, sondern als ein Knotenpunkt in einem Ökosystem. Statt also eine Datenbank, die sich auf Metadaten zu Musik spezialisiert hat, komplett in Wikidata zu importieren, verlinkt Wikidata lieber auf diese Datenbank. Die Datenbanken können die eindeutigen Bezeichner von Wikidata übernehmen, um ihre Inhalte auszuzeichnen.

Viele Services benutzen Wikidata. Manche ganz offen, andere nicht so offiziell, wie zum Beispiel die künstliche Intelligenz Siri von Apple. Siri behauptete am 4. Oktober, die Nationalhymne von Bulgarien sei Despacito [22], das Lied mit dem derzeit erfolgreichsten Youtube-Video aller Zeiten. Die Nationalhymne von Bulgarien war in Wikidata häufiger Ziel von entsprechendem Vandalismus [23]. [24]

Google nutzt unter anderem Wikidata für den Google Knowledge Graph, Googles semantische Suchfunktion. Mit dem Ergebnis dieser Suche werden Infoboxen gespeist, die auf verwandte Wikipediaartikel und andere Ressourcen verweisen [25].
Früher nutzte Google dafür seine eigene öffentlich zugängliche Datenbank Freebase, die jedoch zugunsten von Wikidata eingestellt wurde, da auch Freebase auf Daten aus der Wikipedia beruhte und einen ähnlichen Ansatz verfolgte, Wikidata diesen Zweck aber besser erfüllen kann.
Google half aktiv bei der Migration der Freebase-Daten in Wikidata. Für den Migrationsprozess wurde ein Werkzeug entwickelt, das auch bei der Integration anderer Datensätze in Wikidata benutzt wird und somit nachhaltig von Nutzen ist. [26]

Wer profitiert also von Wikidata?

Wie beschrieben ist Wikidatas primäre Aufgabe, die verschiedenen Wikipedien zu unterstützen. Indem es die Übersichtlichkeit, die Datenqualität und die Nutzbarkeit von Wikipedia und verwandten Projekten wie Wikimedia Commons steigert, bringt es einen enormen Mehrwert für alle Menschen, die Wikipedia nutzen.
Die Zeit wird zeigen, ob gerade die kleineren Wikipedien dadurch aufholen und weitere Freiwillige gewinnen können, die sonst eventuell zur englischsprachigen Wikipedia abwandern würden.
Dass sich hinter diesen Verbesserungen Wikidata verbirgt, werden die meisten Menschen aber wohl nicht mitbekommen.
Vielleicht ist das Konzept von Wikidata zu abstrakt, um allgemein bekannt zu werden. Das könnte sich jedoch ändern, wenn, wie geplant, die Daten von Wikidata direkt in Wikipediaartikeln bearbeitet werden können.

Nutzen Unternehmen den Wissensschatz und die Menschen, die ihn erstellen, aus?

Google und andere große Unternehmen erwirtschaften Profit mit Wikidata und damit mit der Arbeit aller Freiwilligen, während kapitalistische Verwertbarkeit für Wikidata nur ein ungenutztes Nebenprodukt ist. Besonders Google verlinkt jedoch auch ausgiebig auf die Wikipedia, nicht nur in den Suchergebnissen, sondern auch im Knowledge Graph. Damit trägt Google erheblich zur Bekanntheit der Wikipedia bei, woraus auch hoffentlich mehr Teilnahme folgt.
Durch eine Änderung der Lizenz ließen sich die großen Unternehmen ausschließen, aber es ist sehr fraglich, ob sich diese öffentlichen Daten überhaupt anders lizenzieren lassen. Außerdem würden dann vermutlich auch viele andere Institutionen einer Zusammenarbeit kritischer gegenüberstehen. Und zumindest manche dieser Unternehmen sorgen mit für die Bekanntheit von Wikipedia und spenden an die Wikimedia Foundation. [27]
Google hat Freebase aufgegeben, weil Google anerkennt, dass Wikimedia größeres Knowhow im Bereich Community-Projekte hat und Wikidata den eigentlichen Zweck von Freebase besser erfüllen kann [17]. Freebase war aber nicht Googles einziges Datenbank-Projekt. Für Google, Apple, Amazon usw. ist es interessant, mehrere Datenbanken abgleichen zu können, um die Qualität ihrer Services zu erhöhen; sie sind jedoch keineswegs auf Wikidata angewiesen.

Angewiesen auf Open Data und offene Strukturen im Allgemeinen sind alle, die nicht auf eine eigene große Closed-Data-Datenbank als Ressource zurückgreifen können und darauf vertrauen müssen, dass Google ihnen auch ihre nächste Suchanfrage hilfreich beantworten wird, Facebook oder Twitter sie nicht morgen sperren werden und Siri bestimmt die richtige Antwort auf alle Fragen hat.
Gerade wer Monopolismus kritisch sieht, sollte also Wikidata unterstützen, um eine Alternative zu schaffen, die für alle offen ist.

Ein Projekt wie Wikidata lässt sich nicht abgeschottet vom Rest des Internets entwickeln, es lebt von der Offenheit und den dadurch entstehenden Symbiosen. Wichtig ist, dass es weiterhin unabhängig bleibt und sich nicht vereinnahmen lässt.
Und dass es möglichst offen bleibt, denn das Projekt lebt durch seine Community, also die Menschen, die die Daten nutzen und damit neue Projekte aufbauen.
Es wäre allerdings nur angemessen, wenn große Unternehmen mehr zurückgeben würden, nicht in Form von Spenden, sondern eher in Form von verlässlichen, bedingungslosen Beiträgen.

 

Weiterführende Links:
Videomitschnitt des Vortrags „Wikidata: Curating Data about the World with 17000 Volunteers“ http://medien.cedis.fu-berlin.de/cedis_medien/projekte/ma_inf/2017/os/ot4os_22_11_2017_pintscher.mp4
Radiobeitrag Chaosradio Folge 240, Fünf Jahre Wikidata https://chaosradio.ccc.de/cr240.html

Quellen:
[1] Selbstdarstellung in Blogpost von Megan Hernandez, Lisa Gruwell, offizieller Blog der Wikimedia Foundation, Abgerufen am 02.12.2017, https://blog.wikimedia.org/2017/11/28/donation-free-knowledge/
[2] Denny Vrandečić, Markus Krötzsch: Wikidata: A Free Collaborative Knowledge Base, http://korrekt.org/papers/Wikidata-CACM-2014.pdf
[3] Lydia Pintscher: „Wikidata: Curating Data about the World with 17000 Volunteers“, Videomittschnitt: http://medien.cedis.fu-berlin.de/cedis_medien/projekte/ma_inf/2017/os/ot4os_22_11_2017_pintscher.mp4
[4] Chaosradio Folge 240, Fünf Jahre Wikidata, https://chaosradio.ccc.de/cr240.html
[5] Phase 1 des Wikidata-Projektplans: Interwiki-Links, https://meta.wikimedia.org/wiki/Wikidata/Technical_proposal#Phase_1:_Interwiki_links
[6] List of Wikipedias, Meta-Wiki, Abgerufen am 29.11.2017, https://meta.wikimedia.org/wiki/List_of_Wikipedias
[7] Phase 2 des Wikidata-Projektplans: Infoboxen, https://meta.wikimedia.org/wiki/Wikidata/Technical_proposal#Phase_2:_Infoboxes
[8] Seite der Article-Placeholder-Extension im MediaWiki, Abgerufen am 02.12.2017, https://www.mediawiki.org/wiki/Extension:ArticlePlaceholder
[9] Phase 3 des Wikidata-Projektplans: Listen, https://meta.wikimedia.org/wiki/Wikidata/Technical_proposal#Phase_3:_Lists
[10] Listeria, Bot zum Erstellen Updaten von Listen in Wikipedia (noch nicht im Einsatz), Abgerufen am 02.12.2017, http://magnusmanske.de/wordpress/?p=301
[11] Query Service von Wikidata, besonders zu beachten die Beispiele zu verschiedenen Visualisierungen, https://query.wikidata.org/, zum Beispiel „Zeitleiste der Raumsonden“, Query Service, Abgerufen am 02.12.2017 (zum Anzeigen der Zeitleiste Strg+Enter oder „Play“-Button drücken) https://query.wikidata.org/#%23Zeitleiste%20der%20Raumsonden%0A%23defaultView%3ATimeline%0ASELECT%20%3Fitem%20%3FitemLabel%20%3Flaunchdate%20%28SAMPLE%28%3Fimage%29%20AS%20%3Fimage%29%0AWHERE%0A%7B%0A%09%3Fitem%20wdt%3AP31%20wd%3AQ26529%20.%0A%20%20%20%20%3Fitem%20wdt%3AP619%20%3Flaunchdate%20.%0A%09SERVICE%20wikibase%3Alabel%20%7B%20bd%3AserviceParam%20wikibase%3Alanguage%20%22en%22%20%7D%0A%20%20%20%20OPTIONAL%20%7B%20%3Fitem%20wdt%3AP18%20%3Fimage%20%7D%0A%7D%0AGROUP%20BY%20%3Fitem%20%3FitemLabel%20%3Flaunchdate
[12] South Pole Telescope, englischsprachige Wikipedia, https://en.wikipedia.org/wiki/South_Pole_Telescope
[13] Artikel zu semantischer Suche in der englischsprachigen Wikipedia, Abgerufen am 02.12.2017, https://en.wikipedia.org/wiki/Semantic_search
[14] [Douglas Adams | instance of | human], aus Eintrag in Wikidata für Douglas Adams (Q42), https://www.wikidata.org/wiki/Q42
[15] Eintrag in Wikidata für „Stadt“ (Q515), https://www.wikidata.org/wiki/Q515
[16] Wikidata-Hilfe-Seite zu Qualifiern, https://www.wikidata.org/wiki/Help:Qualifiers
[17] Blogpost von Andrew Lih und Robert Fernandez, offizieller Blog der Wikimedia Foundation, Abgerufen am 02.12.2017, https://blog.wikimedia.org/2017/10/30/wikidata-fifth-birthday/
[18] Sandra Fauconnier, Structured Commons and Wikidata, WikidataCon2017 https://media.ccc.de/v/wikidatacon2017-10038-structured_commons_and_wikidata
[19] Lydia Pintscher, WikidataCon2017, https://media.ccc.de/v/wikidatacon2017-10039-wikidata_and_wiktionary_lexicographical_data_for_everyone
[20] Dario Taraborelli, Lydia Pintscher, Daniel Mietchen, WikiCite: Wikidata as a structured repository of bibliographic data, WikidataCon2017 https://media.ccc.de/v/wikidatacon2017-10009-wikicite_wikidata_as_a_structured_repository_of_bibliographic_data
[21] Jason Evans, Wikidata Loves GLAMs, WikidataCon2017, https://media.ccc.de/v/wikidatacon2017-10018-wikidata_loves_glams
[22] ursprünglicher reddit-Post dazu https://www.reddit.com/r/iphone/comments/74atmu/you_learn_something_new_every_day/?st=j8dsdzvj&sh=b750b80a
[23] History von Item Q219 (Bulgarien) mit Vandalismusbelegen https://www.wikidata.org/w/index.php?title=Q219&action=history
[24] Lydia Pintscher, WikidataCon2017, Main problems and challenges of Wikidata https://media.ccc.de/v/wikidatacon2017-10028-main_problems_and_challenges_of_wikidata
[25] Artikel über Google Knowledge Graph in der englischsprachugen Wikipedia, Abgerufen am 02.12.2017, https://en.wikipedia.org/wiki/Knowledge_Graph
[26] Thomas Pellissier Tanon, Denny Vrandečić, Sebastian Schaffert, Thomas Steiner, Lydia Pintscher: From Freebase to Wikidata: The Great Migration https://research.google.com/pubs/archive/44818.pdf
[27] Großspenden Mitte 2016 bis Mitte 2017, https://wikimediafoundation.org/wiki/Benefactors/2016-2017

back to top