Übernahme von Inhalten aus dem CoForum und anderen

Gerrit · 6. Dezember 2018 um 19:38

In den letzten Jahren sind eine Menge Inhalte in das CoForum eingetragen wurden. Die würde ich gerne strukturiert bewahrt haben. Bei der Gelegenheit vielleicht auch gleich ein bisschen aufgefrischt (etwa in Form von Linkprüfungen oder minimalen Formatierungen zur besseren Lesbarkeit) und kategorisiert beziehungsweise verschlagwortet um besseres Suchen und Finden zu ermöglichen.

Zusätzlich dazu gibt es noch weitere Datenschätze in den verschiedenen Sprachversionen der Anarchopedia und im Selbstorga-Wiki. Beide Projekte sterben aber bereits seit einiger Zeit einen langsamen Tod; Niemand scheint sich mehr so recht dafür zu interessieren oder es geriet in Vergessenheit. Inhaltlich gibt es keine oder kaum neue Beiträge, administrativ/technisch wird es offenbar auch nicht mehr betreut. Bei beiden Projekten habe ich vor langer Zeit die “Bürokraten” (= Super-Admins in der dort verwendeten Software MediaWiki, meistens mit Zugang zur Technik/Infrastruktur dahinter) angeschrieben, auf eine Antwort warte ich bis heute…

Zu allen 3 genannten Projekten sehe ich Verbindungen hierher, mindestens thematisch. Was haltet ihr davon wenn wir hier einen neuen Ort entstehen lassen, welcher übersichtlich schon vorhandenes Wissen/Material bündelt?

toka · 6. Dezember 2018 um 20:49

Das “upcycling” der Inhalte ist ein gutes langfristiges Ziel.

Nächste Schritte wären jedoch erst einmal:

Sicherung der Daten

(o:forum

Das liegt in meiner Hand. Eine Sicherung kann ich als Backup erstellen.

Anarchopedia und Selbstorga-Wik

Schau mal, ob es möglich ist, einen Datenbank-Dump zu ziehen.
Auch wenn die entsprechenden Plugins nicht verlinkt sind, könnte ein Zugriff möglich sein.
Alternativ müsste da ein Spider drüber laufen.

Zur Verfügungstellen der Daten

Dazu empfehle ich einen Export des aktuellen Stands ( nicht der Versionsgeschichte) in einfache Textdateien.
Diese können dann per Github oder ähnlichem zur Verfügung gestellt werden.

Entwerfen eines Taxonomiesystems

Das ist die interessante Aufgabe bei solch einer Unternehmung.
Ein Anliegen des (o:forums war es, solch ein “Topic-Net” zu erstellen.

Gerrit · 6. Dezember 2018 um 21:19

Was das Selbstorga-Wiki angeht, konnte ich mit der MediaWiki-eigenen Exportfunktion bereits den seinerzeit aktuellen Stand aller Artikel aus dem Hauptnamensraum (= Artikel ohne vorangestelltes “Datei:”, “Mediawiki:” oder anderes) sichern.

In der Anarchopedia ist das schwieriger. Da gibt es viele Fehler in der Zeichenkodierung, welche ich mit als Ursache dafür sehe, dass der gleichzeitige Export mehrerer Seiten fehlschlägt. Eine automatisierte Erzeugung von sogenannten dumps (= Kopien aktueller Datenbankinhalte) findet eventuell noch statt, aber sie sind nicht mehr unter den genannten Links verfügbar: Siehe hier

Mit welchen Begriffen finden wir einen geeigneten Spider? Oder kennst du einen? Wie funktioniert so etwas? Wir haben ja keine Moeglichkeit ein Plugin zu installieren oder sonst irgendwie in MediaWiki einzugreifen, handelt es sich dabei also um eine Browser-Erweiterung dem die Webseite und die Software mit der Sie erstellt und bearbeitet wird egal ist oder kann ich mir das als Script vorstellen, dass vorhandene Schnittstellen (API?) von MediaWiki nutzt?

toka · 6. Dezember 2018 um 21:30

Mediawiki Backup per Spider

Eine Liste aller Seiten gibt es mittels Special:AllPages (Beispiel).

Den Inhalt einer Seite kann man mit action=raw erhalten (Beispiel).

Nun könnte ein Programm alle Seitentitel auslesen (dazu gibt es auch eine gesonderte API) und dann alle Seitenquelltexte abrufen.

Eventuell gibt es sowas schon. Ich habe aber auf die Schnelle nichts gefunden.

toka · 8. Dezember 2018 um 10:29

Ich hatte ein wenig an einem Export der Anarchopedia gearbeitet. Leider ist die Website seit heute morgen kaputt. @Gerrit, falls Du das Beziehungen hast, bitte ich, Bescheid zu geben.

Gerrit · 8. Dezember 2018 um 11:47

Leider ist die Website seit heute morgen kaputt.

Mist mist mist, das habe ich befürchtet . Ich hoffe, dass die Seite bald wieder online geht und werde mal einem der Bürokraten eine E-Mail schreiben @toka.

Auch ich habe an einem Export gearbeitet und zumindest schon eine Liste mit allen Artikeln aus der meta-, der englisch- und deutschsprachigen Version zusammengestellt, die ich dann dieses Wochenende mittels action=raw und wget in einem bash-Script abarbeiten wollte. Bestenfalls wären dabei rund 12580 Dateien mit jeweils der letzten Artikelrevision als Inhalt und dem Artikelnamen als Dateinamen entstanden.

Gerrit · 8. Dezember 2018 um 12:19

Markdown zur Formatierung

toka · 8. Dezember 2018 um 22:43

Das ist nicht wirklich schlimm. Du bekommst wohl auch alle Inhalte aus der Wayback-Machine (Beispiel). Dazu gibt es auch eine API.

toka · 10. Dezember 2018 um 07:49

Die Website läuft wieder (ich habe ein Uptime_Robot Job dafür eingerichtet).

Magst Du das offen machen (github oder ähnliches) ?

Gerrit · 29. Dezember 2018 um 15:30

So. Es hat eine Weile gedauert, aber jetzt sind die wesentlichen Inhalte gesichert.

Selbstorgawiki – http://(dev.)autoorganisation.org

Export mit Hilfe der Mediawiki-eigenen Funktion. Eine einzige XML-Datei.
Schätzungen nach zu urteilen sind die Inhalte zu mindestens 90% deutschsprachig.
Die Inhalte waren, sind und bleiben unter den Regeln von Creative Commons „Namensnennung – nicht kommerziell – Weitergabe unter gleichen Bedingungen“ lizensiert (sofern nicht anders angegeben).
Bilder oder andere Dateien wurden nicht gesichert! Texte sind mit ihrem Stand vom 08.12.2018 (und nur diesem) gesichert. Versionsgeschichten sind nicht enthalten.
Download hier: https://utopia.in-berlin.de/ao-dump-20181208.tar.gz (etwa 1 MB)

Anarchopedia – http://anarchopedia.org

Export mit Hilfe einer manuell erstellten Liste, bestehend aus Artikelnamen, welche in eine URL eingebettet (zum Beispiel: http://meta/deu/eng.anarchopedia.org/index.php?title=Artikelname&redirect=no&action=raw)
automatisiert mit wget herunterladen wurden. Ein Artikel entspricht einer Datei.
Inhalte des Meta-Wikis in der Regel englischsprachig, die der englischsprachigen Version sowieso. Es wurden ebenfalls die deutschsprachigen Inhalte gesichert.
Jede Seite kann unterschiedlich lizensiert sein, entsprechende Hinweise sind auf den Seiten zu finden. Falls nicht, gilt eine Art Gemeinfreiheit. Siehe Seite “License”
Bilder oder andere Dateien wurden nicht gesichert! Texte sind mit ihrem Stand vom 28.12.2018 (und nur diesem) gesichert. Versionsgeschichten sind nicht enthalten.
Download hier: utopia.in-berlin.de/ap-dump-20181229-filenamefix-final.tar.gz (etwa 22 MB)

Gerrit · 29. Dezember 2018 um 17:02

Import von Textdateien in Mediawiki

https://www.mediawiki.org/wiki/Manual:ImportTextFiles.php

toka · 1. Januar 2019 um 21:18

In welcher Form willst Du die Daten weiter aufbereiten / nutzen ?

Mich interessiert in diesem Kontext, wie ein heterarchisches Themennetz kolaborativ entwickelt und auf solche Daten / Texte angewendet werden kann.