Suche
Voraussetzung für eine Suche in den Cache-Archiven mit dem WebAssistant
ist eine Indexierung.
Die Suche können Sie aufrufen:
Wählen Sie zunächst das zu verwendente Cache-Archive aus. Beachten Sie, dass nur indizierte Archive verfügbar sind. Sie können
nach Wörtern, Domains und URLs suchen. Geben Sie mehrere Kriterien an, werden diese mit UND verknüpft.
Suchbegriffe
Suche nach einem Wort
Beispiele
| Eingabe | Suche nach Seiten, die das Wort ... |
| archiv | Exakt enthalten: archiv |
webpage* | Am Anfang enthalten: webpage |
*website | Am Ende enthalten: website |
*mirror* | Enthalten: mirror |
Suche nach einer Domain
Anzugeben ist zusätzlich das Schlüsselwort: site
Beispiele
| Eingabe | Suche nach Seiten, die im Domainnamen die Zeichen ... |
| site:mm3tools | Exakt enthalten: mm3tools |
site:proxy* | Am Anfang enthalten: proxy |
site:*browser | Am Ende enthalten: browser |
site:*offline* | Enthalten: offline |
Suche nach Zeichen in einer URL
Anzugeben ist zusätzlich das Schlüsselwort: url
Beispiel
| Eingabe | Suche nach Seiten, die in der URL die Zeichen ... |
| url:download | Enthalten: download |
Ergebnis einer Suche
Die gefundenen Ergebnisse werden in einer übersichtlichen Trefferliste dargestellt. In dieser sind Dateien (Seiten) mit ihrer URL,
Größe, Archivierungsdatum sowie ca. 200 Zeichen Text aufgelistet.
Textdateien sind zusätzlich durch [TXT] gekennzeichnet.
Bei HTML-Dateien wird zusätzlich der Titel und die Zusammenfassung (Description) angegeben.
Die Reihenfolge der Dateien entspricht der alphabetischen Sortierung nach der URL. Mehrere Dateien aus der gleichen Domain werden
eingerückt dargestellt. Dateien mit rotem Archivierungsdatum wurden nach Erstellung des Index aktualisiert. Über den Link Marker
wird die Seite mit markierten Suchwörtern (Such-Wort) angezeigt. Diese Anzeige ist nicht bei allen Dateien möglich.
Information über den Index
Wort-Histogramm
Das Histogramm liefert eine Sortierung der Wörter und die Anzahl der Dateien, in denen das entsprechende Wort vorkommt.
Für eine alphabetische Sortierung verwenden Sie das Schlüsselwort: wordAlphabetical
Beispiele
| Eingabe | Histogramm über Wörter, die die Zeichen ... |
| wordAlphabetical:archiv | Exakt enthalten: archiv |
wordAlphabetical:webpage* | Am Anfang enthalten: webpage |
wordAlphabetical:*website | Am Ende enthalten: website |
wordAlphabetical:*mirror* | Enthalten: mirror |
wordAlphabetical:* | Beliebige Zeichen enthalten (alle Wörter) |
Für eine Sortierung nach Häufigkeit verwenden Sie das Schlüsselwort: wordFrequency
Für eine Sortierung nach der Wortlänge verwenden Sie das Schlüsselwort: wordLength
Domain-Histogramm
Das Histogramm liefert eine alphabetische Sortierung der Domains und die Anzahl der Dateien, die in der jeweiligen Domain enthalten sind.
Verwenden Sie hierfür das Schlüsselwort: siteAlphabetical
Beispiele
| Eingabe | Histogramm über Domains, deren Domainnamen die Zeichen ... |
| siteAlphabetical:mm3tools | Exakt enthalten: mm3tools |
siteAlphabetical:proxy* | Am Anfang enthalten: proxy |
siteAlphabetical:*browser | Am Ende enthalten: browser |
siteAlphabetical:*offline* | Enthalten: offline |
siteAlphabetical:* | Beliebige Zeichen enthalten (alle Domainnamen) |
Für eine Sortierung nach Häufigkeit verwenden Sie das Schlüsselwort: siteFrequency
Indexierung
Die Suche in den Cache-Archiven mit dem WebAssistant
setzt eine Indexierung voraus. Es werden Text- und HTML-Dateien (Seiten) indexiert. Der Algorithmus des Indexierer arbeitet weitgehend
sprachunabhängig. Dabei werden für Großbuchstaben immer die entsprechenden Kleinbuchstaben verwendet. Es werden das lateinische und russische Alphabet
sowie einige Sonderzeichen von europäischen Sprachen unterstützt.
Bitte informieren Sie Tools, falls
Sie eine andere Sprache benötigen.
Skript-Dateien
Sie starten die Indexierung mit einer der folgenden Skript-Dateien im Ordner: MM3-WebAssistantProfessional/script/
| Skript | Betriebssystem |
| MM3-Utility.bat | Windows von Microsoft |
| MM3-Utility.sh | Linux und UNIX |
| MM3-Utility.command | Mac OS X von Apple | Im ersten Dialog werden alle Utilities angezeigt.
Wählen Sie aus: Erstellen eines Index für die Suche über ein Cache-Archiv
Mit Weiter kommen Sie zu dem Konfigurationsdialog Indexer.
Einstellung des Indexierers
Für die Indexierung können Sie folgende Einstellungen vornehmen:
- Auswahl des zu indexierenden Cache-Archives
- Festlegung der minimalen Wortlänge.
In die Indexierung werden nur Wörter aufgenommen, die eine minimale Wortlänge besitzen. Vereinfacht besteht diese Wortlänge aus den Zeichen eines Wortes.
- Ansicht der postiven und negativen Wortliste
- Negativ Wortliste
Diese Wörter werden nicht in den Index aufgenommen.
Stop-Wörter für deutsch, englisch und russisch sind vorhanden.
Haben Sie zusätzliche STOP-Wörter erstellt, teilen Sie uns diese bitte mit.
- Positiv Wortliste
Diese Wörter werden aufgenommen, trotz Unterschreitung der minimalen Wortlänge.
Die entsprechenden Dateien positive.*.txt und negative.*.txt befinden sich im Ordner MM3-WebAssistantProfessional/config/search/.
Die Wortlisten können Sie an Ihren Bedarf anpassen. Das Zeichen * steht für eine sprachspezifische Wortliste, z.B. en für die englische und de für die
deutsche Sprache. Alle Dateien mit einem entsprechend strukturiertem Dateinamen werden verwendet. Empfohlen wird für die Kennzeichnung der Sprache, die
Abkürzungen nach ISO LanguageCode (ISO-639) zu verwenden.
Nach den vorgenommen Einstellungen starten Sie die Indexierung. Die benötigte Dauer ist abhängig von der Größe des Archivs und kann längere Zeit in
Anspruch nehmen. Vor einer Indexierung schließen Sie bitte den WebAssistant.
Ausgabe
Der Ausgabe des Indexer
können Sie entnehmen:
- Indexiertes Cache-Archive
- Anzahl der noch zu indexierenden Domains
- Zur Zeit indexierte Domain
- Bisher benötigte Zeit
- Fortschrittsbalken
- Zusammenfassende Statistik über die Indexierung
Speicherproblem
Der Speicherbedarf ist abhängig von der Größe des Archivs und der gewählten minimalen Wortlänge. Sie können für den Indexer
den verfügbaren Speicher in der Skriptdatei erhöhen, falls das Indeieren mehr Speicher benötigt. Alternativ können Sie das Cache-Archiv in mehrere Archive
unterteilen oder die minimale Wortlänge vergrößern.
|