Beachten Sie, dass aufgrund des Prozesses der Bildung von Kandidatenmustern jede n-Listen von Mustern keine gemeinsamen s-Muster mit den anderen Listen haben. Dies ermöglicht es uns, die Anzahl der Prüfungen im Vergleich zu einem allgemeinen Fall von Zusammenführungsmustern mit möglicherweise häufigen Mustern leicht zu reduzieren. Lassen Sie einen Kunden regelmäßig Lebensmittel im Supermarkt kaufen. Jede Transaktion enthält eine Reihe von gekauften Elementen und stellt eine einzelne Zeile im Dataset dar. Wenn der genaue Zeitpunkt des Kaufs nicht relevant ist, können wir einen standardmäßigen sequenziellen Musteralgorithmus wie SPAM anwenden, um nach häufigen Mustern zu suchen. Bei einigen Problemen kann jedoch die zeitliche Beziehung zwischen den Transaktionen wichtig sein. Während die relative Leistung der beiden vorgeschlagenen Algorithmen von den Datasets abhängt, auf die sie angewendet werden, ist das Hauptergebnis, dass die vorgeschlagenen Algorithmen den SPAM-Code übertreffen: Die Zeiten für die neuen Algorithmen sind ausreichend weniger (etwa 15-mal schneller für Wetter-Datasets und 4-mal schneller für das Social Care-Dataset). Für den Wetterdatensatz nimmt die relative Verbesserung mit der Anzahl der abgebauten Muster zu. Für den Erwachsenen-Sozialhilfe-Datensatz nimmt die Verbesserung bei der größten Anzahl von abgebauten Mustern ab, ist aber immer noch signifikant. Dies ist vielleicht teilweise auf verschiedene Programmiersprachen zurückzuführen, aber auch auf Multithreading und Unterschiede in den Algorithmen. FARPAMp bietet eine signifikante Verbesserung für den Erwachsenen-Sozialhilfe-Datensatz, aber nicht für den Wetterdatensatz. Dies liegt daran, dass das Wetter-Dataset nicht viele wiederholte Ereignisse hat. Wir gehen jedoch davon aus, dass, wenn die Java-Version direkt in ihre C-Version übersetzt wird (ohne weitere Optimierung), das Verhältnis der Laufzeiten abnehmen kann, aber die Abhängigkeit von der Anzahl der Muster sollte sich nicht sehr stark ändern.

Wir können sehen, dass unsere Ansätze auch im Falle des sequenziellen Muster-Minings verwendet werden können, und wir haben eine Art lineares Verhalten für Laufzeiten, die von SPAM und den vorgeschlagenen Algorithmen bereitgestellt werden. Die im Papier vorgeschlagenen Algorithmen befassen sich mit unsicheren Zeitstempeln und lösen somit von Natur aus schwierigere Probleme als SPAM. Daher ist es einer ihrer Vorteile, sie schneller als SPAM laufen zu sehen. Unsere Algorithmen können leicht verwendet werden, um eine Sensitivitätsanalyse zu liefern, indem der Unsicherheitsfaktor Beta und das Niveau der Unterstützung Sigma variieren. Beispielsweise kann der Unsicherheitsparameter „(„beta“) manchmal bekannt oder grob aus Datenerfassungsverfahren geschätzt werden. In vielen Fällen müssen wir jedoch seinen Wert innerhalb eines Bereichs variieren und sehen, ob wir aussagekräftige Ergebnisse erzielen. Im Idealfall möchten wir die Anzahl der Muster, die wir für eine bestimmte Unterstützung finden können, („Sigma“) und „Ungewissheit“ („beta“) abschätzen. In Abb.

9 verhalten sich kurven, die für unterschiedliche Werte von „(„beta“) gefunden wurden, in ähnlicher Weise. So können wir eine Reihe von Mustern für eine relativ große Stütze finden, z. B. für einen Bereich von ,,(„beta“) für einen Bereich von ,,,“““““““““““““““““““““““““““““““““““““““““““““““““““““ und anhand der gefundenen Werte können wir die Anzahl der Muster für verschiedene Werte von „(„beta“) für ein bestimmtes Maß an Unterstützung schätzen.

Teilen Sie diese Pressemitteilung