Freie Daten für alle

Herr Rogers, Sie leiten den Data Blog des „Guardian“. Was kann man da finden?

Simon Rogers: Als Nachrichtenredakteur hatte ich viel mit Grafiken zu tun, und beim Erstellen haben wir immer sehr viele Daten gesammelt. Als die „Guardian Open Platform“ startete, schien das ein logischer Zeitpunkt, auch die Datensammlungen freizugeben. Wir haben gemerkt, dass die Nutzer zunehmend daran interessiert sind, Zugang zu den Rohdaten zu bekommen. Im Netz gibt es eine Menge Rohdaten, aber wenn man danach sucht, erhält man eine verwirrende Flut von Informationen. Sagen wir, Sie suchen nach Kohlenstoffemissionen, da bekommen Sie Millionen von Treffern angezeigt. Woher sollen Sie dann wissen, welche Datensätze relevant sind? Diese Arbeit nehmen wir den Nutzern ab. Wir haben die Daten schon durchforstet und eine redaktionelle Auswahl getroffen. Wir dachten beim Start, dass wir vor allem Datensätze für Webprogrammierer bereitstellen würden. Tatsächlich wird das Data Blog aber genauso viel von ganz normalen Leuten genutzt, vielleicht sogar noch häufiger.

Was meinen Sie mit „ganz normalen Leuten“?

Leute, die einfach wissen wollen, was hinter einer Zahl steckt. Momentan ist zum Beispiel die Regierungsinitiative zum Bau neuer Schulen ein großes Thema – ein Plan, der noch von der alten Regierung aufgestellt und von der neuen Regierung wieder zusammengestrichen wurde. Wir haben die vollständige Liste der Schulen, der Wahlbezirke, in denen sie gebaut werden sollten, und Details zu den Projekten veröffentlicht. Dieses Angebot wird unheimlich viel genutzt. Die Leute demonstrieren auf der Straße gegen die Einsparungen. Ich würde sagen, 90 Prozent der Leute, welche die Daten ansehen, wollen wissen, was die echten Zahlen sind.

Geben Sie alle Daten heraus, die Sie von der Regierung bekommen?

Ja genau, allerdings versuchen wir, die Daten mit jeweils aktuellen Aufhängern zu versehen. Es gibt oft Verweise zu tagesaktuellen Berichten. Zum Teil, weil das dem Traffic hilft, aber auch, weil es an journalistische Gepflogenheiten andockt.

Können Sie ein konkretes aktuelles Beispiel schildern?

Okay, nehmen wir Afghanistan, das Thema ist seit einiger Zeit häufig an der Spitze der Abrufe. Es gibt eine vollständige Liste der gefallenen und verwundeten britischen Soldaten. Dann haben wir externe Daten von Timetric eingebunden. Diese Datenvisualisierungsagentur ist darauf spezialisiert, Grafiken mit Zeitverlauf zu erstellen. Wir nutzen Google Docs und Google Spreadsheets (Tabellenkalkulation), weil die Nutzer diese Dateien direkt herunterladen können, zum Beispiel als Monatsübersichten. Das macht sonst niemand.

Was heißt das?

Niemand sonst macht sich die Mühe, die Daten nach Monaten zusammenzufassen. Man bekommt zwar bei iCasualities Jahresübersichten, aber wir extrahieren die Daten auch separat für einzelne Monate. Man kann dann zum Beispiel sehen, welche Monate die schlimmsten waren in Bezug auf Todesfälle. Wir haben Namenslisten – eine Rarität. Und wir sammeln Statistiken zu afghanischen Verwundeten, die ohne unsere Aufbereitung ein einziges Durcheinander wären. Wir haben Informationen zu Amputierten, ein neuer Satz, den die Regierung bis vor kurzem noch nicht herausgab. Dafür hat einer unserer Reporter gesorgt. All das machen wir zugänglich, man kann diese Informationen in Form von Excel-, XML-, CSV-Datei und allen möglichen weiteren Formaten herunterladen. Und wir kümmern uns darum, dass zu jedem Eintrag ein Gesprächsfaden entsteht, eine Community rund um Daten und Informationen.

In welcher Form bekommen Sie die Daten?

Als PDF-Dateien. Die britische Regierung veröffentlicht alles als PDF. Bei den Schulen, zum Beispiel, haben wir aus den Berichten jeweils den Namen der Schule, die Schulart, die Adresse und die Postleitzahl extrahiert. Das sind gute Daten, die man leicht in ein Tabellenkalkulationsprogramm übernehmen kann.

Müssen Sie das alles manuell eintippen?

Nein, zum Glück nicht. Wir haben ein redaktionelles Support Team, das dank des Data Blogs mittlerweile sehr erfahren darin ist, Daten aus PDF-Dokumenten herauszulösen. Jede Regierung veröffentlicht Dokumente am liebsten nur als PDF. Sie können dann sagen, seht her, wir sind ganz offen, aber in der Form stimmt das natürlich nicht.

Das ist interessant, weil sich in Großbritannien und in den USA die Regierungen groß auf die Fahne heften, dass sie so viele Datensätze veröffentlichen.

Ja, aber sie veröffentlichen sie nur im traditionellen Sinn. Sie können sich nicht vorstellen, dass jemand aus den Daten vielleicht eine Tabelle erstellen möchte. Eine Menge Leute können sich das nicht vorstellen. Wir brauchen die Tabellen aber, um zum Beispiel zu zeigen, welche Schulen an dem Programm zur Umwandlung von Schulen in Akademien interessiert sind. Weil wir die Daten in Tabellenform aufbereitet haben, können wir zeigen, dass im Südwesten von England, in Kent, 99 Schulen mitmachen wollen. Und im ärmeren Londoner Bezirk Barking hat sich keine einzige beworben. Die Regierung hat immer gesagt, dass sich vor allem die benachteiligten Schulen bewerben würden. Tatsächlich ist es genau umgekehrt.

Das aufzuzeigen, ist die Aufgabe von Datenjournalismus. Wir benutzen Daten, um eine Geschichte zu recherchieren und zu erzählen. So war es auch beim Thema Schulneubauten. Wir wollten wissen, in welchen Wahlbezirken am meisten an diesem Programm gekürzt wurde. Das Bildungsministerium hat die Daten nicht herausgegeben, aber ein Abgeordneter hatte die Informationen in der Bibliothek des Unterhauses hinterlegt. Wir haben herausgefunden, dass Kürzungen in 40 Prozent der Wahlkreise von Labour-Abgeordneten vorgenommen wurden, aber nur in 27 Prozent der Wahlkreise von konservativen Abgeordneten. Und es gab nur 24 Prozent Kürzungen bei den Demokraten, die momentan mit den Konservativen die Regierungskoalitionen bilden. Umgekehrt hätten von diesem von Labour aufgelegten Programm vor den Kürzungen vor allem Schulen in Labour-Wahlkreisen profitiert. Das kann man beides aus den Daten herauslesen. Die Interpretation bleibt jedem selbst überlassen.

Wäre es korrekt zu sagen, dass Daten diese Geschichte vorangetrieben haben?

Daten haben sie verdeutlicht. Wir haben aber auch ganz andere Projekte. Wir haben zum Beispiel mal einen unterbeschäftigten Praktikanten damit beauftragt, eine Liste aller Bösewichter aus der TV-Serie „Doctor Who“ zu erstellen. Wir dachten, das bringt uns bestimmt ein paar Besucher ein. Tatsächlich ging der Traffic durch die Decke. Und wir hatten noch nie so viel Nutzerbeteiligung bei einem einzelnen Stück. Wir hatten 500 Retweets, normal sind 30 oder 40.

Was macht der „Guardian“ sonst noch mit Daten?

Wir haben ein zweites Datenprojekt, World Data Search, bei dem wir eine Suchmaschine mit weltweit über Open Government zugängliche Daten füttern. Und wir forschen sehr viel. Das machen wir eigentlich schon seit zehn Jahren – früher hieß das Studie, heute heißt es Datenjournalismus, und es wird zunehmend zu unserer Expertise. Immer häufiger kommen Journalisten des „Guardian“ in unsere Abteilung, um sich zu informieren, was sie aus Daten herauslesen können. Das war früher anders, da hatten die Journalisten richtig Angst vor Daten. Jetzt lernen sie, dass in Daten Geschichten stecken.

Das gilt bestimmt auch für andere Zeitungen und andere Redaktionen?

Ja, zumindest in Großbritannien. Man kann sagen, dass sich britische Journalisten so richtig damit gebrüstet haben, von Mathematik nichts zu verstehen.

Welche Fähigkeiten sollten Journalisten vor allem auch in kleineren Redaktionen mitbringen, um Datenströme zu verfolgen, zu sichten und daraus Geschichten zu machen?

Dazu sind keine großen Spezialkenntnisse nötig. Wir arbeiten vor allem mit Tabellenkalkulationsprogrammen. Excel ist einfach zu bedienen, aber jedes andere Programm tut es auch. Wir benutzen gängige Datenvisualisierungsprogramme wie ManyEyes oder Timetric. Und dann bauen wir die Ergebnisse zusammen. Ich glaube, die meisten Journalisten verste
hen unter Datenjournalismus – der Veröffentlichung von Daten – noch immer keinen richtigen Journalismus. Bislang war das einfach Forschung. Aber der Unterschied ist: Bisher waren Journalisten die Gatekeeper der Daten, die Rohdaten blieben unter Verschluss. Wir wollten nicht unsere Konkurrenz auf brisante Themen und gute Geschichten aufmerksam machen. Und wir dachten auch nicht, dass die Öffentlichkeit ein Interesse an den Rohdaten habe oder sie in irgendeiner Weise veredeln könnte. Das hat sich geändert. Wir haben gemerkt, dass nicht immer wir die Spezialisten sind. Ob „Doctor Who“ oder die Sache mit den academy schools – es gibt immer jemanden da draußen, der eine Menge mehr weiß als Du selbst, und der etwas beitragen kann. Man kann von der Community da draußen sozusagen Geschichten zurückbekommen, wir bekommen jetzt sehr viel mehr Informationen.

Lassen Sie uns über Besucherzahlen und Geschäftsmodelle reden. Wie kann der „Guardian“ mit Datenjournalismus Geld verdienen?

Noch ist das neu und ein Experiment für uns, aber in Bezug auf Besucherzahlen ist der Erfolg schon deutlich sichtbar. Während der Unterhauswahlen hatten wir eine Million monatliche Seitenaufrufe auf dem DataBlog. Das ist natürlich nicht viel im Vergleich zu den 36 Millionen Page Impressions der „Guardian“-Website insgesamt, aber als Einzelangebot stehen wir mit an der Spitze. Und es gibt uns ja erst seit einem Jahr.

Was bringt das dem „Guardian“?

Es ist gut für unsere Marke und gut für die Webseite. In der Zukunft können Medienorganisationen, die Daten organisieren und interpretieren können, wahrscheinlich Geld damit verdienen. Ich weiß noch nicht wie, aber wir wären ziemlich dumm, wenn uns dazu gar nichts einfallen würde. Außerdem glaube ich, dass journalistisch betrachtet Datenjournalismus genauso wichtig ist wie Berichte über eine Modenschau oder irgendein anderes Thema, mit dem wir Journalisten beauftragen. Vielleicht ist er sogar wichtiger, denn der „Guardian“ steht für freien Zugang zu Informationen. Datenjournalismus ist der ultimative Ausdruck dieser Haltung. Auf unserer Seite benutzen wir den Leitspruch „Fakten sind heilig“. Er kommt vom berühmten C. P. Scott, der immer sagte: „Meinung ist frei.“ Das ist der Leitspruch unserer Kommentarseite, aber „Fakten sind heilig“ ist der zweite Teil des Zitats. „Meinung ist frei, aber Fakten sind heilig“ – dafür steht der „Guardian“. Und das sagt eine Menge über das Internet und seinen Wandel aus. Bis vor einigen Jahren ging es vor allem um Meinung. Die Leute wollten mitteilen, was sie denken. Jetzt aber, glaube ich, wollen die Leute zunehmend herausfinden, was die Fakten sind.

Link:Tipps

Das Interview mit Simon Rogers wurde im Original von Jonathan Stray während eines Redaktionsbesuchs beim „Guardian“ in London für das amerikanische Blog Nieman Journalism Lab geführt und ist (engl., mit eingebettetem Video) hör- und nachlesbar unter:

www.niemanlab.org/2010/08/how-the-guardian-is-pioneering-data-journalism-with-free-tools

Zum Thema Wikileaks: Wie Simon Rogers zu Arbeitsweise seines Teams beim Sortieren Veröffentlichen der Dokumente erklärt:

www.guardian.co.uk/news/datablog/2010/jul/27/wikileaks-afghanistan-data-datajournalism

Zur Konferenz „Journalism meets Data“ des European Journalism Centre am 24. August 2010 in Amsterdam:

http://datadrivenjournalism.net/

Jonathan Stray ist freier US-Journalist und Computer-Experte

http://jonathanstray.com

Ulrike Langer ist freie Journalistin in Köln und „medium magazin“-Redaktionsmitglied.

mail@medialdigital.de

Erschienen in Ausgabe 09/2010 in der Rubrik „Medien“ auf Seite 30 bis 30 Autor/en: Interview: Jonathan Stray. Übersetzt und Bearbeitet von Ulrike Langer.. © Alle Rechte vorbehalten. Der Inhalt dieser Seiten ist urheberrechtlich geschützt. Für Fragen zur Nutzung der Inhalte wenden Sie sich bitte direkt an die Redaktion.