| name | dara-dataset-expert |
| description | Warehouse-Prozess-Analyse mit 207 Labels, 47 Prozessen, 8 Szenarien, 10 Triggern. Vollständige Expertise für DaRa Datensatz + REFA-Methodik + Validierungslogik + Szenarioerkennung. 100% faktenbasiert ohne Halluzinationen. |
DaRa Dataset Expert Skill – Version 2.6
Zweck
Dieser Skill ermöglicht Claude die präzise, faktenbasierte Analyse des DaRa-Datensatzes für intralogistische Warehouse-Prozesse. Er kombiniert die Datensatz-Dokumentation mit arbeitswissenschaftlichen Methoden (REFA), formaler Validierungslogik und automatischer Szenarioerkennung.
Der Fokus liegt auf epistemischer Integrität: Alle Antworten basieren ausschließlich auf verifizierten Quellen ohne Halluzinationen, Spekulationen oder Annahmen.
NEU in Version 2.5: Label-Aktivitätsanalyse
NEU in Version 2.5: CC09-Integration & "Other"-Erkennung
Version 2.5 korrigiert kritische Inkonsistenzen mit dem DaRa-Paper:
- CC09 als primäre Erkennungsdimension – Mid-Level-Prozesse unterscheiden Retrieval (Picking) von Storage (Unpacking)
- "Other"-Restkategorie aktiv erkennbar – verhindert False-Positives bei S1-S8
- Frame-Level-Prüfung aller Labels – jeder Frame wird individuell klassifiziert
- CC10 korrekt als sekundär – nur CL135 für Error-Detection
- Hierarchie dokumentiert – CC08 → CC09 → CC10
Breaking Changes: Keine – alle S1-S8 Definitionen bleiben identisch
Version 2.5 erweitert den Skill um empirische Label-Aktivitätsanalyse:
- Label-Aktivitätsmatrix – Dokumentation aktiver/inaktiver Labels pro Kategorie
- Inaktive Labels identifiziert – CL104, CL109, CL113 sind in S14 nicht vorhanden
- Multi-Label-Quantifizierung – 44.76% der Frames haben 2+ aktive Orders (S7/S8-Detection)
- CL135-Prävalenz – 2.82% Error-Frames für S1/S3-Identifikation
- Optimierte Erkennungslogik – Inaktive Labels können übersprungen werden
NEU in Version 2.3: Flexible Szenarioerkennung
Version 2.3 erweiterte den Skill um:
- Merkmalbasierte Erkennung anhand der 5 Dimensionen (CC06, CC07, CC08, Strategy, Errors)
- Keine harten Grenzen – funktioniert für alle 18 Subjekte ohne Frame-Nummern
- Flexible Reihenfolge – keine Annahme über chronologische Szenario-Abfolge
- Order-Change-Detection für Storage-Blöcke (S4/S5/S6-Unterscheidung)
- Korrigierte Multi-Order-Logik – S7 und S8 haben beide {CL100, CL101}
Datensatz-Umfang:
- 18 Probanden (S01-S18) mit demografischen und Erfahrungsprofilen
- Session-basierte Aufzeichnungen mit 3 parallelen Subjekten pro Session
- 8 Szenarien (S1-S8) für Retrieval- und Storage-Prozesse
- 12 Klassenkategorien (CC01-CC12) mit insgesamt 207 Labels (CL001-CL207)
- REFA-Zeitarten-Mapping ($t_{R}$, $t_{MH}$, $t_{MN}$, $t_{v}$)
- Validierungsregeln (Master-Slave-Abhängigkeiten + Szenario-Validierung)
- BPMN-Prozesslogik für Warehouse-Kommissionierung und Einlagerung
Datensatz-Stand: 20.10.2025 (DaRa Dataset Description)
Skill-Stand: 07.01.2026 (Version 2.6)
Wann diesen Skill nutzen
✅ Verwende diesen Skill für:
Strukturelle Datensatz-Fragen
- "Wie viele Probanden gibt es?"
- "Wie sind Sessions aufgebaut?"
- "Welche Szenarien existieren?"
- "Erkläre die Chunking-Trigger T1-T10"
Klassifikations-Queries
- "Welche Labels gehören zu CC04 (Left Hand)?"
- "Was ist der Unterschied zwischen CC08, CC09 und CC10?"
- "Zeige mir alle Tool-Labels"
REFA & Arbeitswissenschaft
- "Welche DaRa-Labels entsprechen der Haupttätigkeit ($t_{MH}$)?"
- "Wie wird die Erholungszeit basierend auf CC03 berechnet?"
- "Ist 'Travel Time' eine Nebentätigkeit?"
- "Berechne die Auftragszeit für ein Szenario"
Validierung & Logik
- "Darf man 'Walking' annotieren, wenn die Beine 'Standing Still' sind?"
- "Welche Low-Level-Prozesse sind im Retrieval-Prozess erlaubt?"
- "Prüfe, ob 'Scanning' ohne Scanner-Tool möglich ist."
- "Welche Abhängigkeiten bestehen zwischen CC01 und CC09?"
Prozess-Logik-Analysen
- "Erkläre den Retrieval-Pfad im BPMN"
- "Was passiert nach 'Picking Pick Time'?"
- "Welche Entscheidungspunkte gibt es im Storage-Prozess?"
Datenstruktur-Fragen
- "Wie sind Frames synchronisiert?"
- "Wie viele Klassendateien hat jedes Subjekt?"
- "Wie werden Szenarien zeitlich abgegrenzt?"
Label-Lookups
- "Was bedeutet CL115?"
- "In welcher Kategorie ist 'Portable Data Terminal'?"
- "Alle Labels für Locations"
🆕 Szenarioerkennung (verbessert in v2.3)
- "Wie erkenne ich die Szenario-Grenzen in den CSV-Daten?"
- "Was unterscheidet S2 von S1 und S3?"
- "Wie funktioniert Multi-Order-Picking?"
- "Welche IT-Systeme werden in welchen Szenarien verwendet?"
- "Wie validiere ich ein erkanntes Szenario?"
🆕 Label-Aktivitätsanalyse (NEU in v2.4)
- "Welche Labels sind in S14 aktiv/inaktiv?"
- "Wie viele Frames haben mehrere aktive Orders?"
- "Ist CL104 (Order Unknown) jemals aktiv?"
- "Wie erkenne ich Multi-Order-Szenarien durch Co-Aktivierung?"
- "Wie häufig kommt CL135 (Error-Reporting) vor?"
❌ Nutze diesen Skill NICHT für:
- Statistische Analysen (z.B. Häufigkeitsverteilungen) → Erfordert Rohdatenverarbeitung
- Visualisierungen oder Plots → Erfordert externe Tools
- Interpretationen oder Hypothesen → Widerspricht dem Fakten-Prinzip
- Modelltraining oder ML-Code → Außerhalb des Skill-Scopes
- Bild-/Videoanalyse → Keine Videodaten im Skill
Skill-Dateien & Navigation
Der Skill ist modular aufgebaut. Jede Datei deckt einen spezifischen Wissensbereich ab:
📁 Dateistruktur
/mnt/skills/user/dara-dataset-expert/
├── SKILL.md # Diese Datei (Orchestrierung)
├── README.md # Installation & Übersicht
├── knowledge/
│ ├── core/
│ │ ├── ground_truth_central.md # 🆕 Zentrale Ground Truth (S1-S8, Matrix, Profile)
│ │ ├── labels_207.md # Alle 12 Kategorien + 207 Labels (ehem. class_hierarchy.md)
│ │ ├── recognition_algorithm_v2.6.md # 🆕 Vollständiger Algorithmus (Score + Hybrid-Logic)
│ │ └── validation_rules.md # 🆕 Alle Validierungsregeln (Merge)
│ ├── processes/
│ │ ├── process_hierarchy.md # BPMN-Logik CC08-CC10 (ehem. processes.md)
│ │ └── refa_analytics.md # REFA-Zeitarten, Formeln (ehem. analytics_refa.md)
│ ├── auxiliary/
│ │ ├── chunking.md # Trigger T1-T10
│ │ ├── data_structure.md # Frames, Synchronisation
│ │ ├── dataset_core.md # Probanden, Hardware
│ │ └── semantics.md # Semantische Grundprinzipien
│ └── changelogs/
│ ├── CHANGELOG_v2.3_to_v2.4.md
│ ├── CHANGELOG_v2.4_to_v2.5.md
│ └── CHANGELOG_v2.5_to_v2.6.md # 🆕 Hybrid-Logic + Score-System
└── templates/
├── query_patterns.md # Häufige Fragetypen
└── scenario_report_template.md # Szenario-Bericht-Format
🧭 Navigationslogik
Schritt 1: Frage klassifizieren & Datei laden
# 1. REFA / Arbeitswissenschaft / Zeiten
if "REFA" or "Zeitart" or "Erholung" or "Kalkulation" or "t_MH" or "t_R" in query:
view("knowledge/processes/refa_analytics.md")
# 2. Validierung / Logik / Regeln / Konsistenz
elif "Validierung" or "Logik" or "Konsistenz" or "Regel" or "Darf ich" or "gültig" in query:
view("knowledge/core/validation_rules.md")
# 3. Label-Lookup / Definitionen
elif "CC" + number or "CL" + number or "Was ist" + Labelname in query:
view("knowledge/core/labels_207.md")
# 4. Prozess-Ablauf / BPMN
elif "Prozess" or "Ablauf" or "nach dem Schritt" or "High-Level" or "BPMN" in query:
view("knowledge/processes/process_hierarchy.md")
# 5. Chunking / Trigger
elif "Chunk" or "Trigger" or "Segmentierung" or "T1" to "T10" in query:
view("knowledge/auxiliary/chunking.md")
# 6. Szenarien (Beschreibungen)
elif "Szenario" or "S1" to "S8" in query:
view("knowledge/core/ground_truth_central.md")
# 7. Szenarioerkennung / Grenzen / Ground Truth
elif "Grenze" or "erkennen" or "Ground Truth" or "Table 3" or "Boundary" in query:
view("knowledge/core/ground_truth_central.md")
view("knowledge/core/recognition_algorithm_v2.6.md")
# 7b. Szenario-Label-Zustände (aktiv/inaktiv pro Szenario)
elif "aktiv" or "inaktiv" or "Szenario" + "Label" or "welche Labels" + "Szenario" in query:
view("knowledge/core/ground_truth_central.md")
# 8. Label-Aktivität / Inaktive Labels / Multi-Label
elif "aktiv" or "inaktiv" or "Label-Status" or "CL104" or "CL109" or "CL113" or "Multi-Label" in query:
view("knowledge/core/ground_truth_central.md")
# 9. Picking Strategy / Multi-Order / Single-Order
elif "Picking" or "Multi-Order" or "Single-Order" or "Order-Wechsel" in query:
view("knowledge/core/ground_truth_central.md")
# 10. IT-System / PDT / Scanner
elif "IT" or "PDT" or "Scanner" or "CC07" or "CL105" or "CL106" or "CL107" in query:
view("knowledge/core/ground_truth_central.md")
# 11. Semantik / Abhängigkeiten
elif "Semantik" or "Abhängigkeit" or "Bedeutung" in query:
view("knowledge/auxiliary/semantics.md")
# 12. Probanden / Subjekte
elif "Proband" or "Subjekt" or "S01" to "S18" in query:
view("knowledge/auxiliary/dataset_core.md")
# 13. Frames / Datenstruktur
elif "Frame" or "Synchronisation" or "CSV" in query:
view("knowledge/auxiliary/data_structure.md")
# 13. Grundlagen / Fallback
else:
view("knowledge/auxiliary/dataset_core.md")
Schritt 2: Präzise antworten
- Nur dokumentierte Fakten verwenden
- Label-IDs korrekt zitieren (z.B. "CL115")
- Verwende Fachbegriffe aus den Dateien (z.B. "Master-Slave", "$t_{MN}$")
- Quelle angeben (z.B. "Gemäß Regel V-S1 in validation_logic_extended.md...")
🔄 Szenarioerkennung (überarbeitet in v2.3)
Ground-Truth-Übersicht (Table 3)
Die Szenarioerkennung basiert auf 5 Dimensionen aus Table 3 des DaRa-Papers:
| Szenario | High-Level (CC08) | Picking Strategy | IT (CC07) | Order (CC06) | Errors |
|---|---|---|---|---|---|
| S1 | Retrieval (CL110) | Single-Order | List+Pen (CL105) | 2904 (CL100) | Ja |
| S2 | Retrieval (CL110) | Single-Order | PDT (CL107) | 2905 (CL101) | Nein |
| S3 | Retrieval (CL110) | Single-Order | Scanner (CL106) | 2906 (CL102) | Ja |
| S4 | Storage (CL111) | Single-Order | List+Pen (CL105) | 2904 (CL100) | Nein |
| S5 | Storage (CL111) | Single-Order | List+Pen (CL105) | 2905 (CL101) | Nein |
| S6 | Storage (CL111) | Single-Order | List+Pen (CL105) | 2906 (CL102) | Nein |
| S7 | Retrieval (CL110) | Multi-Order | List+Pen (CL105) | 2904 + 2905 | Nein |
| S8 | Storage (CL111) | Multi-Order | List+Pen (CL105) | 2904 + 2905 | Nein |
Eindeutige Identifikatoren
| Szenario | Merkmal | Erkennungsregel |
|---|---|---|
| S2 | PDT (CL107) | if CC07 == CL107 → S2 (100% eindeutig) |
| S3 | Scanner (CL106) | if CC07 == CL106 → S3 (100% eindeutig) |
| S7 | Multi-Order + Retrieval | if orders == {CL100,CL101} AND CC08 == CL110 → S7 |
| S8 | Multi-Order + Storage | if orders == {CL100,CL101} AND CC08 == CL111 → S8 |
Wichtige Hinweise (v2.3)
- CL112/CL113 sind KEINE Szenarien → Übergangsphasen filtern!
- S4/S5/S6-Unterscheidung nur durch Order innerhalb Storage → Order-Wechsel prüfen
- Multi-Label-Annotation bei CC06 → Set-basierte Analyse erforderlich
- S7 und S8 haben dieselben 2 Orders: 2904 + 2905 (CL100 + CL101)
- Keine harten Grenzen: Keine Frame-Nummern, keine feste Szenario-Anzahl
- Flexible Reihenfolge: Szenarien können in beliebiger Reihenfolge auftreten
Antwort-Prinzipien
1. Unterscheidung Datensatz vs. Methode
Unterscheide klar zwischen dem, was annotiert ist (DaRa), und dem, was methodisch abgeleitet wird (REFA).
❌ Falsch: "CC09 ist die Haupttätigkeit."
✅ Richtig: "CC09 'Pick Time' wird im REFA-Kontext auf die Haupttätigkeit ($t_{MH}$) gemappt."
2. Terminologie-Standard
✅ Korrekt:
- "CC04 – Sub-Activity: Left Hand"
- "Label CL115: Picking – Travel Time"
- "Kategorie CC09 (Mid-Level Process)"
❌ Falsch:
- "Linke Hand" (ohne CC04)
- "CL-115" (falsches Format)
- "Mid-level" (inkonsistente Schreibweise)
3. Formale Korrektheit
Bei Validierungsfragen immer die formale Regel nennen: "Das ist ungültig, weil Regel V-S1 (IT-Konsistenz) besagt, dass S2 PDT (CL107) haben muss..."
4. Hierarchie beachten
CC08 High-Level → CL110 Retrieval / CL111 Storage
↓
CC09 Mid-Level → CL115 Picking Travel / CL116 Picking Pick
↓
CC10 Low-Level → CL139 Retrieving Items / CL137 Moving to Next Position
5. Quellenangaben
Jede Aussage muss referenziert werden:
- "Laut Ground Truth Matrix (ground_truth_matrix.md) hat S2 als IT-System PDT (CL107)"
- "Gemäß Regel V-S7 in validation_logic_extended.md ist PDT S2-exklusiv"
Grenzen des Skills
Was der Skill NICHT kann:
- Statistische Berechnungen – Keine Rohdaten verfügbar
- Bildanalyse – Keine Videodaten im Skill
- Modellentwicklung – Außerhalb des Scopes
- Unvollständige Abschnitte:
- Abschnitt 1.2 (Physische Umgebung) nicht ausgearbeitet
- Abschnitt 1.3 (Laboraufbau) nicht verfügbar
Was der Skill NICHT annimmt (v2.3):
- Keine feste Szenario-Anzahl pro Subjekt
- Keine chronologische Reihenfolge der Szenarien
- Keine Frame-Nummern als Grenzen
- Keine subjektspezifischen Werte
Quick Reference: Kategorie-Übersicht
| Kategorie | Bezeichnung | Anzahl Labels | Label-Range | Erkennungs-Relevanz |
|---|---|---|---|---|
| CC01 | Main Activity | 15 | CL001-CL015 | Fallback / Validierung |
| CC02 | Legs | 8 | CL016-CL023 | Indirekt |
| CC03 | Torso | 6 | CL024-CL029 | Indirekt |
| CC04 | Left Hand | 35 | CL030-CL064 | Indirekt |
| CC05 | Right Hand | 35 | CL065-CL099 | Indirekt |
| CC06 | Order | 5 | CL100-CL104 | ★ Szenario-Merkmal |
| CC07 | IT | 5 | CL105-CL109 | ★ Szenario-Merkmal |
| CC08 | High-Level Process | 4 | CL110-CL113 | ★ Szenario-Merkmal |
| CC09 | Mid-Level Process | 10 | CL114-CL123 | Prozess-Validierung |
| CC10 | Low-Level Process | 31 | CL124-CL154 | ★ Error-Flag (CL135) |
| CC11 | Location Human | 26 | CL155-CL180 | Räumliche Ergänzung |
| CC12 | Location Cart | 27 | CL181-CL207 | Räumliche Ergänzung |
Gesamt: 12 Kategorien, 207 Labels, 47 Prozesse, 8 Szenarien, 10 Trigger
★ = Erkennungsrelevant für Szenarien S1-S8
Metadaten
Skill-Version: 2.6
Erstellt: 04.12.2025
Update: 07.01.2026
Datensatz-Stand: 20.10.2025
Quelle: DaRa Dataset Description (Offizielle Dokumentation)
Enthaltene Module:
- REFA-Methodik (analytics_refa.md)
- Validierungslogik (validation_logic.md, validation_logic_extended.md)
- Szenarioerkennung (ground_truth_matrix.md, scenario_boundary_detection.md)
- Picking Strategies (picking_strategies.md)
- Chunking (chunking.md)
- Prozesslogik (processes.md)
Autor: DaRa Expert System
Wartung: Bei Aktualisierungen der Dataset Description überarbeiten
Änderungshistorie
| Version | Datum | Änderungen |
|---|---|---|
| 1.0 | 04.12.2025 | Initiale Version |
| 1.1 | 05.12.2025 | Chunking-Logik, Szenario-Details |
| 1.2 | 08.12.2025 | Prozess-Details erweitert |
| 1.3 | 15.12.2025 | Semantik-Dokumentation |
| 1.4 | 23.12.2025 | Validierungslogik, REFA-Analytik |
| 1.4.1 | 23.12.2025 | Bugfixes, Terminologie |
| 2.0 | 30.12.2025 | Ground Truth, Szenarioerkennung, Picking Strategies |
| 2.3 | 31.12.2025 | Flexible Szenarioerkennung ohne harte Grenzen, S8 Order-Set korrigiert, keine feste Szenario-Anzahl |
| 2.6 | 07.01.2026 | Hybrid-Identification-Logic für S1-S6, Evidence-Based Scoring (CC10-Marker), CL134 als Global Interrupt, CL103+CL108 als "Other", LOGIC v8-Kompatibilität vollständig |