Solr-Verbindung
OPUS4 benutzt für die Suche und das Browsing Apache Solr, das lokal installiert sein muss. Die
Standardwerte der Solr-Parameter für den Index (searchengine.index
) und für die Textextraktion
(searchengine.extract
) werden auf der Seite Apache Solr installieren
erläutert. Wird für Index und Textextraktion der gleiche Solr-Server benutzt, müssen auch für beide
Bereiche die gleichen Parameter eingetragen werden.
Die alten Konfigurationsparameter funktionierten weiterhin, so daß existierende config.ini
Dateien auch mit
OPUS 4.5 verwendet werden können. Die Kompatibilität zu den alten Parametern könnte in Zukunft abgeschaltet werden.
Bei der Installation einer neuen Instanz werden die neuen Parameter verwendet.
Neue Konfigurationsparameter
Die folgenden Parameter ersetzen die alten bekannten Parameter beschrieben oben. Der Service default setzt dabei die Parameter für alle Verbindungen, sofern nichts für die anderen Services angegeben ist. Der Service extract wird definiert die Verbindung für die Extraktion von Volltexten.
Die Verbindungen für die Suche bzw. die Indizierung können auch explizit gesetzt werden.
Unterstützte Services
Service | Beschreibung |
---|---|
default | Standardverbindung für alle Services |
index | Verbindung für Indizierung |
extract | Verbindung für die Extraktion von Volltexten |
search | Verbindung für die Suchfunktionen |
Timeouts bei der Extraction/Indexierung
Bei sehr grossen Dateien kann es bei der Volltextextraktion zu Timeouts kommen. Die Timeouts lassen sich konfigurieren.
Die Extraktion dauert wesentlich länger als die Indexierung. Daher wird ein Volltextcache verwendet, der verhindert, dass die Dateien bei jeder Indexierung erneut extrahiert werden müssen. Das hilft natürlich nicht bei der Indexierung von neu hinzugefügten Dokumenten, z.B. im Publish-Modul.
Um bei einer Neuindexierung mit SolrIndexBuilder.php
keine Probleme mit Timeouts zu haben,
können dieser für die Skripte auch komplett abgeschaltet werden in dem man die entsprechenden
Einträge zur Datei hinzufügt. Für den normalen Betrieb gelten dann immer noch
die Einstellungen aus der bzw. 5 Sekunden als Defaultwert.
Um Problem mit Timeouts im Betrieb, bei der Anzeige von Webseiten nach der Indexierung eines Dokuments zu vermeiden, kann die asynchrone Indexierung verwendet werden.