Viele Leute sehen ein Filter und eine Suchmaschine als zwei völlig getrennte, nicht mit einander verwandte technische Einrichtungen.
Tatsächlich sind sie dasselbe, wie leicht zu erkennen ist.

Suchmaschine

Die Informationsmenge E (Eingang) geht in die Suchmaschine hinein (wird z.B. von ihr indiziert oder eben bei Bedarf durchsucht). Ausserdem geben wir das Kriterium K ein, nach dem wir suchen wollen.

Die Suchmaschine gibt nun alle Informationseinheiten aus, die hinsichtlich des Kriteriums relevant sind. Sie muß also mit geeigneten Methoden die Relevanz jeder Informationseinheit im Index bezüglich K bewerten und gibt alle Relevanten als Suchergebnis zurück. Dieses Ergebnis kann noch irgendwie sortiert sein (z.B. nach Grad der Relevanz, falls diese nicht einfach binär bewertet wurde), aber das braucht uns hier nicht zu interessieren.

Filter

Ein Filter macht in der Tat exakt das gleiche, nur dass es die Inhalte, die für das Filterkriterium relevant sind, nicht ausgibt sondern eben weglässt und alles andere ausgibt.
Der Vorgang ist also offenbar genau derselbe, es werden nur die komplementären Teilmengen E(K) bzw. E(-K) unterdrückt bzw. ausgegeben, je nachdem, ob ein "Filter" oder eine "Suchmaschine" am Werk ist.

Dilemma

Die Krux ist aber folgende: ein Computer kann die Relevanz einer Informationseinheit bezüglich eines Kriteriums gar nicht bewerten. Filter und Suchmaschine können daher nicht funktionieren.

"Aber Google existiert" - in der Tat.
Doch Google macht nicht das, was man von einer Suchmaschine eigentlich erwartet sondern etwas ganz anderes: es vergleicht lediglich, ob bestimmte Wörter aus der Suchanfrage in der Informationseinheit enthalten sind.
Eine Seite mit dem Inhalt "Diese Seite hat mit Berlin nichts zu tun" (und sonst leer) wird von Automaten á la Altavista oder Google als "relevant" bezüglich der Suchanfrage K= ("Berlin") angesehen, obwohl jeder Depp lesen (und erkennen) kann, dass die Seite grad mit Berlin gar nichts zu tun hat.

Konsequenzen

Dennoch wird immer wieder behauptet, dass ein automatische Filterung möglich ist. Im Prinzip können zwei Wege beschritten werden, diese Möglichkeit herzustellen:

  • eine Filtersoftware wird entwickelt, die die Relevanz einer Information bezüglich des Filterkriteriums tatsächlich erkennen kann
  • die Klassifikation der Inhalte gemäß bestimmter Kriterien wird von Menschen vorgenommen und in maschinenverwertbarer Form bereitgestellt

Also anders formuliert

  • dem Computer wird beigebracht, selber Inhalte zu erkennen und auf semantischer Ebene zu verarbeiten, die oben dargestelle Einschränkung ("Krux") also aufgehoben; oder
  • die Bewertungsarbeit wird von Menschenhand einmal für jeden Inhalt erledigt, der Computer dann zur Automatisierung dieser Bewertungen in der Anwendung verwendet.

Letere Variante hat den Vorzug, dass sie offenkundig funktionieren kann. Sie muss nicht zwangsläufig funktionieren, aber sie kann im Prinzip funktionieren, auch wenn Software nicht schlauer wird als heute.
Wird ein beliebiger Inhalt z.B. als "jugendgefährdend" eingestuft, dann kann ein Coputerprogramm mit der Einstellung "nur jugendfreie Seiten darstellen" diese Inhalte ausfiltern; derlei machen Programme schon heute, das Anwenden der Bewertung kann der Computer in der Tat leicht automatisieren.

Dennoch filtert hier ein Mensch. Ein Mensch muss festlegen, welche Filterkriterien auf die Informationseinheit anwendbar sind und muss für jedes dieser Kriterien eine Bewertung abgeben.

Maschinelles Filtern

Offensichtlich wäre das eine Menge Arbeit, zumal täglich "im Internet" neue Informationen hinzukommen.
Eine Maschine, die allein die Relevanz einer Informationseinheit bezüglich eines Filterkriteriums bewerten kann, wäre also vorzuziehen, da sie auch den Vorgang der Bewertung mechanisierte.
Für diesen Weg gibt es immer wieder Erfolgsmeldungen, die sich dann aber schnell als Hoax oder als überoptimistisch herausstellen.

Ein typischer Fehler bei der Bewertung von Filtersystemen ist, dass nur auf False Negatives geprüft wird, also ob aus der Menge der Testdaten eine Informationseinheit das Filter passiert hat, die eigentlich gefiltert hätte werden müssen; das Filter hat hier dann fälschlich negativ entschieden, daher "False Negative".
Auf False Positives - also die fälschliche Filterung von Inhalten, die gar nicht dem Filterkriterium entsprechen, wird oft nicht geprüft. Die Filter werden dann gern unnötig nah am Extrem "alles ausfiltern" angesiedelt (oder "im Zweifel lieber filtern - darauf steht kein Knast"), das sich ja durch 0 False Negatives auszeichnet.

Für eine freiheitliche Gesellschaft sind aber auch die False Positives von automatisierten Filtern als bedrohlich einzustufen, da sie die Meinungs- oder Pressefreiheit einzuschränken neigen; diese Bedrohung kann man durchaus vergleichbar oder schlimmer als die durch bestimmte Inhalte ansehen.

Mechanisieren von Erkennen und Bewerten

Wie ist die Prognose für die noch relativ junge Zunft der automatisierten Filtersysteme zu sehen?
Das lateinische Verb | intellegere wird allgemein mit "erkennen" übersetzt, erst in einem übertragenen Sinne dann mit dem dabei mitschwingenden "verstehen". Das englische "intellect" und auch "intelligence" leiten sich direkt von da her, das deutsche "Intelligenz" ist bedeutungsmäßig weiter entfernt, da es mehr die Plastizität des Verhaltens bei sich ändernden Umweltbedingungen erfasst - es stammt mehr aus der Verhaltensforschung.
Insofern gewinnt den Jahrhundertpreis für die mislungenste Übersetzung eines Fachterminus ganz bestimmt das "Künstliche Intelligenz" als Übersetzung für "Artificial Intelligence", auch wenn die Zielstellung der Forschungen in dieser Disziplin ein wenig in beide Richtungen, also jene, die der englische und jene die der deutsche Begriff bedeuten, zeigt.

Dem Computer das Erkennen beizubringen oder zumindest ein Verhalten zu Erzeugen, das dem Erkennen zumindest sehr ähnlich ist, ist Ziel der AI - und das schon seit einiger Zeit.
Wie in der Robotik, wo alle 10 Jahre der Durchbruch der Haushaltsrobotoer in genau 10 Jahren vorhergesagt wird - seit mehreren Jahrzehnten, ist auch in der AI immer wieder der grosse Durchbruch verschoben.
Zu der Zeit, da Ihr Autor Informatik studierte, galt die mangelnde Rechenleistung als Hindernis, wirkliche Erkennens-Leistungen auch einfacher Art hervorzubringen. Der Computer, auf dem dieser Text gerade entsteht, hat die ca. 3000-fache Rechenleistung seiner Maschine von damals und stellt damit so manchen alten Grossrechner in den Schatten. Aber ausser Karl Klammer ist von künstlicherm Erkennen oder gar künstlicher Intelligenz nicht viel zu sehen.

Von dieser Erfahrung her kann die Prognose also nur lauten: solange ein Computerbolide der aktuellen Spitzenklasse nicht einmal die Erkennens- und Kommunikationsleistungen einer Honigbiene, geschweige die ebenfalls im Bienen"gehirn" erbrachten Leistungen zur Fluglagekontrolle, systematischen Gebietsdurchmusterung und "nach Hause finden", erbringt, so lange wird ein selbst die Inhalte eines Textes oder Bildes erkennendes Internetfilter reine Science-Fiction sein.

Sie sind sich sicher, dass Ihr Gamer-PC in der Lage wäre, zumindest das zu leisten, was so eine Biene kann?
Dann schauen Sie sich bitte die Kriterien der Grand Challenge einmal an. Zugegeben, ein Fahrroboter muss nicht einfach nur fliegen sondern auch das Terrain bezüglich Traktion und anderer Gefahren bewerten, aber der | notwendige Aufwand, um wenigstens mit Mofa-Tempo automatisch zu fahren, ist schon erheblich.

Na schön, die Honigbiene haben unsere Computer in den letzten 20 Jahren eingeholt.
Aber auch schon den Hund?

Menschen filtern

Auf eine Klassifikation von Menschenhand laufen diverse Verfahren hinaus, die heute diskutiert werden. Letztlich läuft auch die (vom Autor als romantisch-unrealistisch eingestufte) Idee eines semantischen Web, die u.a. von Tim Berners-Lee engagiert vertreten wird, hinaus.
Unrealistisch deshalb, weil wie oben angedeutet das maschinelle Erkennen nicht absehbar ist, das explizite Darstellen aller Bedeutungen eines Textes (Bild/Film/Ton etc. sind alle "Text" im Sinne der Informatik) mit den passenden Gewichten aber auf Datenmengen hinausläuft, die um mehrere Größenordnungen über dem Text selbst liegen und die immer alle mit verarbeitet werden müssten.

Aber ein klassifiziertes Web muss ja nicht gleich ein semantic Web sein.
In der Tat sind Klassifikationen immer wieder sehr erfolgreich angewendet worden. Klassifikationsschemata für die verschiedensten Anwendungsfälle existieren und werden von vielen Menschen erfolgreich verwendet - denn sie sind plastisch und nicht starr.
das soll heissen, die Klassifizierungsschemata werden während ihrer Verwendung verändert.

Die Rubrikenliste/Liste der Sachgebiete in der Stadtbücherei Zehlendorf hat sich im Laufe weniger Jahrzehnte z.B. im Umfang fast verdoppelt.
Als Ihr Autor sich für Computer und Programmierung zu interessieren begann, waren diesbezügliche Bücher noch in der Unterrubrik MA250 und MA255 zu finden (MA wie MAthematik), die Rubrik DV existierte noch nicht. Rechnerbau fand sich unter Elektronik und die Logik dieser Klassifikationen prägte mehrere junge Geister (nicht nur einen).

Für eine Klassifikation aller Inhalte des WWW wäre jedoch ein relativ starres Schema zu entwerfen, um eine konsistente Filterung zu erlauben. Dabei sind nicht nur aktuell vorhandene Inhalte zu klassifizieren sondern auch zukünftig hinzukommende.
Dieses könnte in der Tat gelingen, da für viele der Probleme, in deren Kontext Filtersysteme als Lösungsansätze diskutiert werden, relativ einfache Klassifikationen völlig ausreichen und die grobe Struktur dem zeitlichen Bestand zuträglich ist. Denn nur das Schema muss ja langlebig sein, nicht die Einordnung des konkreten Inhaltes in das Schema; so ist der Minirock bei seiner Einführung provokant gewesen, heutzutage normal und unverdächtig; seine Einordnung hat sich verändert, das Schema selbst ist unverändert geblieben.

Doch wer kann ein solches - dann auch rechtsverbindlich anwendbares - Klassifikationsschema aufstellen?
Und welche Zeit wird es in Anspruch nehmen, dieses Schema aufzustellen und allgemein anzuwenden?

Die Prognose ist also auch hier nicht besonders gut: ein verbidliches Schema zu etablieren, allgemeine Zustimmung (und sei es die Zustimmung zum geringeren zweier Übel) zu erhalten und breite Anwendung herzustellen dürfte schwer werden.
Denn beim Internet handelt es sich ja um ein globales, zumindest ein überregionales Phänomen, eine rein deutsche oder rein europäische Sonderlocke hätte wohl wenig Bestand.

Die Eigenschaft Verbindlichkeit werden wir für ein Klassifikationsschema wohl fordern müssen, soll eine Filterung vor (straf-)rechtlichen Konsequenzen schützen und nicht nur ein Feigenblatt sein.
Und auch die Einordnung der einzelnen Informationseinheiten in das Schema, die Klassifikation jedes Inhalts, wird wohl belastbar erfolgen müssen, was uns zu der Frage bringt, wer beides kontrolliert.


Page last modified by March 04, 2007, at 02:10 PM

PmWiki can't process your request

Cannot acquire lockfile

We are sorry for any inconvenience.