Benutzer-Werkzeuge

Webseiten-Werkzeuge


administration:suche

Unterschiede

Hier werden die Unterschiede zwischen zwei Versionen angezeigt.

Link zu dieser Vergleichsansicht

Beide Seiten der vorigen RevisionVorhergehende Überarbeitung
Nächste Überarbeitung
Vorhergehende Überarbeitung
administration:suche [2014/10/06 08:28] lulrichadministration:suche [2023/02/01 14:44] (aktuell) – [Seiten von der Suche ausschliessen (Neu v11)] paellig
Zeile 7: Zeile 7:
   * **Seiten:** Werden über den normalen Solr-Indexer-Scheduler-Task indexiert. Änderungen an Seiten und Inhalten werden über DataHandler-Hooks erkannt und bei einer Änderung wird das entsprechende Element zur Neuindexierung/Löschung terminiert.   * **Seiten:** Werden über den normalen Solr-Indexer-Scheduler-Task indexiert. Änderungen an Seiten und Inhalten werden über DataHandler-Hooks erkannt und bei einer Änderung wird das entsprechende Element zur Neuindexierung/Löschung terminiert.
   * **Dokumente:** Im Inhalt verlinkte Dokumente werden von der Extension "solrfal" (nur für EAP2-Kunden zugänglich, visol ist EAP2-Kunde) indexiert. Bei der Indexierung wird über SignalSlot der Tika-Dienst der Extension "tika" aufgerufen, welcher die Metadaten und den Inhalt der Datei ausliest und in der Tabelle sys_file_reference speichert (Feld "tika_content"). Der Inhalt dieses Feldes wird ebenfalls in die Datenbank geschrieben, sodass eine Volltextsuche aller Dokumente möglich ist. Der Titel aus sys_file_reference wird in ein separates Feld "falTitle_stringS" gespeichert und wird - falls gesetzt - anstelle des Dateinamens ausgegeben.   * **Dokumente:** Im Inhalt verlinkte Dokumente werden von der Extension "solrfal" (nur für EAP2-Kunden zugänglich, visol ist EAP2-Kunde) indexiert. Bei der Indexierung wird über SignalSlot der Tika-Dienst der Extension "tika" aufgerufen, welcher die Metadaten und den Inhalt der Datei ausliest und in der Tabelle sys_file_reference speichert (Feld "tika_content"). Der Inhalt dieses Feldes wird ebenfalls in die Datenbank geschrieben, sodass eine Volltextsuche aller Dokumente möglich ist. Der Titel aus sys_file_reference wird in ein separates Feld "falTitle_stringS" gespeichert und wird - falls gesetzt - anstelle des Dateinamens ausgegeben.
-  * **Personen:** Die proprietäre Extension useruniluaddress importiert täglich alle Adressen aus einem von der Uni automatisiert auf den Server (/home/www-data/externaldata) gestellten XML-File. Ist dieses File gültig, werden via DataHandler alle bestehenden Adressen gelöscht, was auch die Löschung aus dem Solr-Index triggert. Danach werden alle Adressen neu importiert. Für Personen gibt es eine spezielle Suchausgabe, die direkt Telefonnummer, E-Mail-Adresse und Links auf Visitenkarte und Website anzeigt. Personen werden mit einem boostQuery priorisiert, sodass z.B. bei der Suche nach "Portmann" das Personen-Resultat Lukas Portmann vor Seiten mit Portmann im Text erscheint.+  * **Personen:** Die proprietäre Extension useruniluaddress importiert täglich alle Adressen aus einem von der Uni automatisiert auf den Server (/home/www-data/externaldata) gestellten XML-File. Ist dieses File gültig, werden via DataHandler bestehende Adressen aktualisiert, entfernte gelöscht und neue hinzugefügt, was auch die entsprechenden Aktionen für den Solr-Index triggert. Für Personen gibt es eine spezielle Suchausgabe, die direkt Telefonnummer, E-Mail-Adresse und Links auf Visitenkarte und Website anzeigt. Personen werden mit einem boostQuery priorisiert, sodass z.B. bei der Suche nach "Portmann" das Personen-Resultat Lukas Portmann vor Seiten mit Portmann im Text erscheint.
  
 Für die Eingrenzung der Suche werden Facets verwenden. Die Facetten stehen bereits im Suchformular zur Verfügung: Für die Eingrenzung der Suche werden Facets verwenden. Die Facetten stehen bereits im Suchformular zur Verfügung:
Zeile 21: Zeile 21:
 **Berechtigung: Web-Administrator** **Berechtigung: Web-Administrator**
  
-Seiten, die nicht in der Suche erscheinen sollen, können für die Suche in den Seiteneigenschaften deaktiviert werden:+Seiten, die nicht in der Suche erscheinen sollen, können für die Suche in den Seiteneigenschaften deaktiviert werden. Die Funktion heisst **Bei Suchmaschinen und Seitensuche indexieren/Index in search engines and site searches**. Das Deaktivieren der Checkbox bedeutet auch, dass diese Seiten gleichzeitig auch für externe Suchmaschinen wie z.B. Google als "nicht zu indexierende Seiten" markiert werden:
  
-{{:administration:pasted:20140614-234938.png}}+{{:administration:pasted:20230201-143358.png}}
  
-Um dies für mehrere Seiten rekursiv zu machengibt es im Bereich Web > Funktionen ein Modul:+Die Bedeutung der weiteren Felder ist: 
 +  * **Dieser Seite folgen/Follow this page**: Instruktion an die Suchmaschiene, dass sie allen Links auf dieser Website  für die weitere Indexierung folgen soll. 
 +  * **Untereinträge in Indexsuche einbeziehen/Include sub entries in Search**: Wenn dieses Feld deaktiviert wirdwerden die Unterseiten **nicht** in die interne Suche der Website aufgenommen - egal wie die Konfiguration der Unterseite selbst ist. Dies ist z.B. bei einem Anmeldeformular mit einer untergeordneten Dankensseite praktisch. 
 +  * **Bilder aus Suche ausschliessen/Exclude images from search**: [[redaktion:f._bilder#bilder_aus_suche_zb_google_ausschliessen|Siehe Beschreibung]]
  
-{{:administration:pasted:20140614-233323.png}}+Um für mehrere Seiten gleichzeitig, rekursiv die Checkbox **Dieser Seite folgen/Follow this page** zu setzen, gibt es im Hilfsmenü einer Seite ein Modul. Das Hilfsmodul kann durck Rechtsklick auf das Seiten-Icon aufgerufen werden: 
 + 
 +{{:administration:pasted:20230201-153908.png}} 
 + 
 + 
 + 
 +===== Bilder von der Suche ausschliessen ===== 
 + 
 +Siehe [[redaktion:f._bilder#bilder_aus_suche_zb_google_ausschliessen|Anleitung]]
  
 ===== Setup von Solr & Troubleshooting ===== ===== Setup von Solr & Troubleshooting =====
Zeile 58: Zeile 69:
  
 Wichtiger Hinweis: Hier gemachte Änderungen beziehen sich nur auf die aktuelle Ausführung von Tomcat/Solr. Bei einem Neustart gehen die Änderungen verloren. Permanente Konfigurationsänderungen müssen in den Konfigurations-Dateien vorgenommen werden. Wichtiger Hinweis: Hier gemachte Änderungen beziehen sich nur auf die aktuelle Ausführung von Tomcat/Solr. Bei einem Neustart gehen die Änderungen verloren. Permanente Konfigurationsänderungen müssen in den Konfigurations-Dateien vorgenommen werden.
- 
-==== Tika überlastet Server ==== 
- 
-Tika extrahiert Inhalt und Metadaten aus allen Dokumenten, die auf der Website verknüpft sind. Offenbar kann Tika leaken; vermutlich, wenn es ein besonders grosses File oder ein fehlerhaftes File zu lesen versucht. Der Java-Prozess benötigt dann rund 100% CPU über längere Zeit, was den Server langsam macht. 
- 
-Durch ein "killall java" werden alle Java-Prozesse beendet, damit allerdings auch der Solr-Server, der neu gestartet werden muss. 
- 
-//ToDo: Dieses Problem ist seit der "Massenindexierung" der mehreren tausend Files zum Start nicht mehr aufgetaucht.// 
  
 ==== Solr-Server starten ==== ==== Solr-Server starten ====
Zeile 79: Zeile 82:
  
 {{:administration:pasted:20140705-123726.png}} {{:administration:pasted:20140705-123726.png}}
 +
 +Der Solr-Server wird bei jedem System-Neustart automatisch gestartet. Dafür sorgt folgender Eintrag in der Crontab:
 +
 +<code>
 +# Start Solr/Tomcat on Reboot
 +@reboot /home/www-data/solr-tomcat/tomcat/bin/startup.sh
 +</code>
 +
 +==== Logging-Konfiguration ====
 +
 +Die mitgelieferte Logging-Konfiguration führt zu sehr vielen und grossen Logs, da für den produktiven Betrieb nicht relevante Informationen (Log-Level INFO) geloggt werden. Der Log-Level wurde daher global auf WARN gestellt und das TransactionLog, welches für jede neu indexierte Adresse ein neues Log-File erstellte, ganz deaktiviert.
 +
 +Die Logging-Konfiguration ist zu finden unter
 +
 +<code>
 +/home/www-data/solr-tomcat/tomcat/lib/log4j.properties
 +</code>
 +
 +==== Tika überlastet Server ====
 +
 +Tika extrahiert Inhalt und Metadaten aus allen Dokumenten, die auf der Website verknüpft sind. Offenbar kann Tika leaken; vermutlich, wenn es ein besonders grosses File oder ein fehlerhaftes File zu lesen versucht. Der Java-Prozess benötigt dann rund 100% CPU über längere Zeit, was den Server langsam macht.
 +
 +Durch ein "killall java" werden alle Java-Prozesse beendet, damit allerdings auch der Solr-Server, der neu gestartet werden muss.
administration/suche.1412584119.txt.gz · Zuletzt geändert: (Externe Bearbeitung)

Donate Powered by PHP Valid HTML5 Valid CSS Driven by DokuWiki