Datenschätze: Neuer Rohstoff für Journalisten

Texte, Bilder oder Töne: Datenberge in schier endloser Masse und verschiedenster Form sind zu einem neuen Rohstoff herangewachsen. Ein neuer Rohstoff bringt auch neue Produktnamen und Möglichkeiten mit sich. Bezeichnungen wie „Big Data“, „Data Driven Journalism“ oder „Open Data“ finden allmählich ihren festen Platz in der Welt des Journalismus.

Bild: jwyg / flickr Illustration by Kate Hudson CC-BY-SA

jwyg / flickr / Illustration by Kate Hudson CC-BY-SA

Big Data beschreibt die rapide und unaufhörlich wachsende Datenmasse, die darauf wartet, durchsucht, analysiert und visualisiert zu werden. Hier knüpft der Data Driven Journalism, wörtlich übersetzt Daten-getriebener Journalismus, an. Für Journalisten ergeben sich gänzlich neue Möglichkeiten der Recherche und neue Darstellungsformen. Gleichzeitig ist es eine enorme Herausforderung, die Übersicht über das Datenmeer zu bekommen und sich neue Arbeitstechniken anzueignen. Um dem Kind einen Namen zu geben, hat sich in Deutschland mittlerweile der Begriff Datenjournalismus etabliert. Der Ursprung des Datenjournalismus lässt sich einerseits in der computergestützten Recherche (Computer Assisted Reporting, kurz CAR) ableiten. Andere sehen die Entstehung durch die „war logs“ von Wikileaks. Das Neue am Datenjournalismus ist in jedem Fall: Während vorher Daten als Unterfütterung oder als Beweismittel einer Geschichte dienten, können sie heute, wie auch das Beispiel von Wikileaks zeigt, Gegenstand der Berichterstattung sein.

Informationen mit einem hohem Nachrichtenwert

Weiterhin nutzt der Datenjournalismus das Potenzial des Webs. Inhalte werden in verschiedensten Formen visuell aufbereitet, um sie dem Nutzer verständlicher zu machen oder ihn einzubeziehen. So kann er, indem er sich selbstständig durch Darstellungen klickt, Inhalte individuell erschließen oder sich an transparenten Rechercheschritten gar selbst beteiligen. Im Gegensatz zu Printmedien können im Web Zusammenhänge unbegrenzt und umfassend dargestellt werden.
Die ersten datenjournalistischen Projekte brachten 2009 der britische Guardian und die New York Times an den Start, indem sie eigens dafür Ressorts wie Datastores einrichteten. Seitdem ist die datenjournalistische Berichterstattung ein fester Bestandteil in den Medien der USA und Großbritannien geworden. Infolge der Datennutzung entstanden in den letzten Jahren Nachrichten mit einem hohem informellen Wert. Der endgültige Durchbruch des Data-Driven Journalismus (#ddj) gelang im Sommer 2010, als die Leaking-Plattform Wikileaks in Zusammenarbeit mit einigen Medienpartnern die Kriegstagebücher, „war logs“, der US-Armee aus Afghanistan veröffentlichte. Sogenannte Whistleblower veröffentlichten Hunderttausende von geheimen Dokumenten. Neben der New York Times und dem Guardian beteiligte sich auch der deutsche Spiegel an der Aufbereitung der Daten, die aus knappen technischen Informationen über Vorgänge oder Anschläge bestanden.

Datenjournalismus bedeutet Teamarbeit

Die Online-Angebote deutscher Leitmedien wie der Süddeutschen Zeitung, der Zeit oder dem Spiegel sind hierzulande federführend bei datenjournalistischen Projekten. Doch auch kleinere Redaktionen erkennen das Potenzial des Datendatenjournalismus. Beim Kölner Stadt-Anzeiger hat sich die Onlinejournalistin Daniela Jaschob darauf spezialisiert. Kleinere Projekte bearbeitet sie bisher allein, doch für ein aktuelles Vorhaben zum Thema Fluglärm wurde ihr ein Programmierer zu Seite gestellt. Die Daten dafür erhielten sie von den Kommunen und direkt von den Flughäfen. Anders als in den USA oder Großbritannien sind in Deutschland Rohdaten oft nicht in maschinenlesbarer Form verfügbar. Sie müssen dann erst zur weiteren Analyse aufbereitet und nutzbar gemacht werden. So bedeutet die Arbeit mit Daten auch Teamarbeit und Verständnis zwischen Programmierern, Journalisten oder Grafikern. „Wichtig ist, dass man zuerst feststellt, wie relevant ein Thema ist und ob eine ausreichende Datengrundlage zur Verfügung steht, aus der sich eine Anwendung bauen lässt“, erklärt Daniela Jaschob. Aber auch schon Einwohnerzahlen oder die Anzahl von Kitaplätzen in einzelnen Stadtteilen reichen für datenjournalistische Beiträge aus. Dafür nutzt sie beispielsweise kostenfreie Tools wie „Datawrapper“. Wer Programmierkenntnisse besitzt, kann sich die vielen Tools, die es auf dem Markt gibt, teilweise auf der Grundlage von HTML individuell programmieren oder bestimmte Frameworks nutzen. Daniela Jaschob geht davon aus, dass die Arbeit von Datenjournalisten mit der Zeit in die alltägliche Arbeit eines Onlinejournalisten integriert und zum festen Bestanteil werden wird. Als Onlinejournalist muss man kein Programmierer sein, aber ein Grundverständnis von HTML, CSS und Java ist Voraussetzung.

Big Data equals Big Opportunity

Voraussetzung für jeden datenjournalistischen Bericht ist vor allem die Verfügbarkeit von Daten. Auch hierbei spielen USA und Großbritannien die Vorreiterrolle. Die Behörden haben schon seit mehreren Jahren ihre Pforten für „Open Data“ geöffnet. Oft geht der Begriff mit „Open Government Data“ einher, was soviel wie „öffentliche Behördendaten“ bedeutet. Offene Daten sind maschinenlesbar und frei lizenziert, jedermann kann sie für jegliche Zwecke nutzen, weiterverarbeiten und publizieren. Hierbei gilt: personenbezogene oder sicherheitsrelevante Daten werden nicht veröffentlicht. Gerichte, Parlamente und andere öffentliche Verwaltungen erzeugen beispielsweise Umwelt-, Verkehrs- und Haushaltsdaten, Gesetze, Urteile oder Verordnungen. Diese Daten sind von öffentlichem Interesse und sollten deshalb zugänglich sein. Das kann zu mehr Pflichtbewusstsein bei den Amtsträgern führen, was wiederum das Vertrauen der Bürger in die Regierung stärken kann. Open Data verfolgt also einen Kulturwandel und stärkt transparentes Arbeiten, welches ein Mittel gegen Korruption darstellen kann.

Paradigmenwechsel bei der Stadt Köln

Um staatliche Stellen dabei zu unterstützen, ihre Daten zu öffnen und anzubieten, hat das World Wide Web Consortium (W3C) einen Leitfaden entwickelt. Dabei werden drei Schritte zur Veröffentlichung staatlicher Daten empfohlen. Zuerst sollten die Rohdaten veröffentlicht werden. In einem zweiten und dritten  Schritt sollten die Daten in einem Online-Verzeichnis sortiert werden und anschließend für Mensch und Maschine lesbar gemacht werden.
Die Stadt Köln hat sich 2010 das Ziel gesetzt, Open Data zu fördern. In dem Konzept zur „Internetstadt Köln“ heißt es: „Gleichzeitig ist im Ausbau des Internet-Angebotes durch eine Weiterentwicklung hin zu OpenData und mobilen Angeboten dem veränderten Nutzungsverhalten und den Ansprüchen der Bürgerinnen und Bürger Rechnung zu tragen (…) Überdies steht die Transparenz kommunalen Handelns ganz oben auf der Forderungsliste. (…) Um das ausreichende Maß an Zugänglichkeit zu erfüllen, müssen die Daten nach folgenden Prinzipien betrachtet werden: Vollständigkeit, Primärquellen, zeitliche Nähe, leichter Zugang, Maschinenlesbarkeit, Diskriminierungsfreiheit, Verwendung offener Standards, Lizenzierung, Dauerhaftigkeit und Nutzungskosten. Die größte Hürde der Umsetzung in den öffentlichen Verwaltungen besteht in den zu vollziehenden Paradigmenwechseln im Sinne von:
• Geheimhaltung – wobei bisher galt, dass alle Daten geheim sind, solange sie nicht ausdrücklich als öffentlich gekennzeichnet sind. Zukünftig gelten alle Daten als öffentlich, die nicht ausdrücklich als geheim gekennzeichnet sind.
• Umfang und Zeitpunkt der Veröffentlichung – wobei bisher galt, dass Daten von einzelnen Behörden selbstbestimmt veröffentlicht werden oder nur auf Anfrage Einsicht gewährt wird. Zukünftig werden alle Daten, die keiner berechtigten Datenschutz- oder Sicherheitsbeschränkung unterliegen, im vollen Umfang und zeitnah veröffentlicht.
• Nutzungsrechte – wobei bisher galt, dass Daten nur zum privaten Gebrauch zur Einsicht freigegeben werden und weitere Nutzungsrechte unter Vorbehalt von Fall zu Fall gewährt werden. Zukünftig sind alle Daten grundsätzlich für jedermann und für jeden Zweck (kommerziell, Weiterverarbeitung, Weiterverbreitung) ohne Einschränkungen kostenfrei nutzbar.“
Inzwischen hat die Stadt mit offenedaten-koeln.de eine Website an den Start gebracht, die einen Datenkatalog für jegliche Art von Daten aus dem Bereich der Stadtverwaltung bietet.

Nachrichten- und Nutzwert nicht außer Acht lassen

Marian Steinbach, seit zwei Jahren nebenberuflich im Datenjournalismus tätig, hat auf Grundlage von Daten des Ratsinformationssystems der Stadt Köln ein datenjournalistisches Projekt erschaffen. Auf seiner Website offeneskoeln.de kann der Nutzer Dokumente und Vorgänge finden, die mit Orten in seiner Umgebung zu tun haben. Dafür gibt man auf der Startseite einfach einen Ort von Interesse an. Das zugrundeliegende Ratsinformationssystem der Stadt ist nur schlecht durchsuchbar, zudem sind die Daten nicht maschinell auswertbar. Sie bieten weder einen Überblick, welche Themen in der entsprechenden Gemeinde oder Stadt gerade diskutiert werden, noch welche Dokumente zu welchen Vorgängen genau existieren. Mit seiner Website hat Marian Steinbach die Daten für Nutzer anwenderfreundlich aufbereitet und bietet außerdem eine Schnittstelle (API) für Programmierer. Zu der Entwicklung im Datenjournalismus sagt er: „Ich sehe natürlich schon ein Aufstreben der Nische, aber die Nische ist noch immer sehr klein.“ Er nimmt regelmäßig an den Treffen des „DDJNRW“ teil. Das ist ein loses, informelles Treffen von Datenjournalismus-Interessierten. „Bei unserem letzten Treffen waren wir 30 Interessierte aus unterschiedlichen Bereichen. Man spürt viel Bewegung in der Branche, aber bisher ist die Anzahl an offenen Datensätzen noch sehr überschaubar und man muss viel manuelle Aufbereitung in die Daten stecken.“
Wichtig ist vor allem, dass nicht einfach nur Rohdaten visualisiert werden, sondern eben auch eine Geschichte erzählt oder eine These aufgestellt wird. Es macht vielleicht Spaß, mit einer interaktiven Karte rumzuspielen, aber der Nachrichten- und Nutzwert muss an erster Stelle stehen. Ansonsten erschafft man allenfalls ein „Klickibunti“, was eine übertriebene grafische Gestaltung beschreibt, bei der Inhalte in den Hintergrund gedrängt werden. Es ist also nicht das Ziel, eine möglichst aufwändige Visualisierung zu gestalten, sondern Projekte können durchaus mit einem einfachen Balkendiagramm daherkommen. Gerade im Zeitalter der Digitalisierung leiden Konsumenten häufig an einem „Information Overload“. Unter diesem Aspekt nehmen Journalisten eine zunehmend wichtigere Rolle als „Gatekeeper“ ein.

Los Angeles Times

Gelungenes DDJ-Projekt: Krimalstatisiken von L.A. visuell und interaktiv aufbereitet. Screenshot ,Los Angeles Times‘ CC-BY-SA

Die Art, wie wir nach Information suchen, wird sich verändern

Das Phänomen des überforderten Konsumenten bestätigt auch Prof. Dr. Kristian Kersting. Er erforscht unter anderem die Gebiete „Data Mining“ und „Maschinellen Lernen“ und lehrt als Professor an der Fakultät Informatik der TU Dortmund. „Die Digitalisierung ist Fluch und Segen zugleich“, merkt er an. „So wird beispielsweise das Abhören einfacher, weil wir es gar nicht erst mitbekommen. Aber gerade deshalb brauchen wir Journalisten, die Dinge aufdecken können. Sie sind unser öffentliches Gewissen.“ Für ihn überwiegen auch klar die Vorteile der Techniken. Die Vision, die in der Informatik herrscht, ist der Weg von der Informationsgesellschaft in eine Wissensgesellschaft. Bisher fehlt es an Kompetenz, mit Filterwerkzeugen umzugehen, oder geeignete Werkzeuge existieren noch nicht. So versucht Google, Lösungen zur Datenanalyse bereits im Browser zu implementieren. „Trotzdem wird es immer eine Mixtur aus Technik und Mensch bleiben. Sowohl, was die Auswertung betrifft, als auch die Geschichten an sich,“ erklärt Kersting. Ergebnisse müssen auf Validität geprüft werden und persönliche Geschichten hinter den Daten bekommt man nur durch Befragung. Ob man öffentlichen Daten überhaupt trauen kann, sei die nächste Dimension.
Kersting sieht eine Lösung der bisher fehlenden Kompetenzen darin, schon in der Schule ein technisches Verständnis zu lehren und wie in den USA den „Data-Science-Unterricht“  zu stärken. Neben ethischen Fragen der Datennutzung spielen hier vor allem Verständnis für Statistik und Mathematik eine Rolle. „Wir werden neue Wege der Kommunikation feststellen und die Art, wie wir nach Information suchen, wird sich verändern“, prognostiziert Kersting. Da bieten auch Social-Media-Daten viele Möglichkeiten. So könnte sich beispielsweise durch Twitter schnell herausfinden lassen, wo gerade eine Grippewelle ausbricht. „Als damals das EHEC-Virus ausbrach und keiner wusste, wo der Ursprung liegt – ich glaube, durch Social Media Daten hätte es sich früher herausfinden lassen“, so Kersting. Auf lange Sicht sieht Kersting neue Berufszweige kommen. Datenanalysten können von Journalisten lernen und umgekehrt.
Egal ob Angaben zu verspäteten Zügen der Deutschen Bahn oder die Kriminalstatistiken von L.A. – Daten beherbergen ein beachtliches Potenzial und können dem mündigen Bürgern einen Mehrwert in der Demokratie bieten. Journalisten können, sofern die Kompetenzen bestehen, eigene Berechnungen vornehmen anstatt sich auf fremde Interpretationen zu verlassen. Die Recherche und Auswertung ist unabhängiger geworden und bietet gerade im investigativen Journalismus neue Chancen. Es braucht also das Berufsbild des Datenjournalisten. Tim Berners-Lee, der Begründer des World Wide Web, verfasste schon vor Jahren seine Vision von Datensätzen, die sich aufeinander beziehen können. Für ihn ist klar, dass aus Daten ein Treibstoff für Journalismus werden wird. Er empfiehlt: „Journalisten sollten datenaffin sein.“ Bisher ist der professionelle Umgang mit Daten ein Alleinstellungsmerkmal und nicht Voraussetzung. Wer sich damit auf dem Markt bewirbt, hat gute Chancen.

Nützliche Links:
Zanran – Suchmaschine für Daten und Statistiken
Kostenloser DDJ-Kurs
Video-Tutorial Offshore-Leaks

Rebekka Martin