FORSCHUNG UND ENTWICKLUNG 03 Pareto-Graphen für Modelle mit Sigmoid-, Reclin- und Radbas-Aktivierung mit verschiedenen Hyperparametern. Abgetragen sind die Fehlermetriken (a) MAPE, (b) MSE, (c) MAE und (d) RMSE über die mittlere Berechnungszeit einer Kontaktnachgiebigkeit. Ein Datenpunkt entspricht dem mittleren Wert von drei Modellen in Fehler- und Berechnungsgeschwindigkeitsrichtung a b c d denen die Aktivierungen a gerichtet von links nach rechts fließen und jeder Knoten mit dem Knoten in der nächsten Schicht verbunden ist, siehe Bild 02 rechts. In der Eingangsschicht E liegen die Eingangsgrößen x 1 …x n , mit dem Schichtindex l = 0. Anschließend folgen die verdeckten Schichten H mit l = 1…i. Zum Ende kommt die Ausgabeschicht A. Ferner ist in der Eingabeschicht und in den verdeckten Schichten ein 0-ter Knoten mit dem Ausgabewert aa 0 (l) = 1 hinzugefügt um Verzerrungen zu berücksichtigen, diese sind in Bild 02 rechts durch eine Strichlinie gekennzeichnet. [3–6] Das Funktionsprinzip eines Knotens ist in Bild 02 links dargestellt. Dabei wird die gewichtete Summe der Eingangsgrößen x 0 …x n in den Knoten mit den Gewichten Θ ij gebildet, wobei gilt x 0 , a 0 = 1. Diese Summe wird anschließend mit der Aktivierungsfunktion f (.) in die Ausgabe des Knotens a j überführt: aa j = ff nn ii=0 Θ iij xx ii . Im allgemeinen Fall kann die Ausgabe des j-ten Knotens a j (l+1) in der l+1-ten Schicht durch die Ausgaben der vorherigen Schicht a j (l) mit den zugehörigen Gewichten Θ ij (l) sowie der Aktivierungsfunktion f (1) (.) durch die folgende Gleichung beschrieben werden: nn (l) aa (l+1) j = ff (ll) Θ (l) (l) iij aa ii ii=0 . Als Aktivierungsfunktionen f (.) werden die Sigmoid-, Poslin- und Radbas-Funktionen auf die vorliegende Problemstellung angewandt. In der Ausgabeschicht wird immer die Identitätsfunktion f(a) = a als Aktivierungsfunktion verwendet. 2 ff ssssssssssssss (aa) = 1 + ee −2aa − 1 aa < 0, 0 ff pppppppppppp (aa) = { aa > 0, aa ff rrrrrrrrrrrr (aa) = ee −aa2 Insbesondere die optimale Wahl der Gewichte entscheidet die Regressionsgüte. Die Optimierung von Θ wird als Training bezeichnet. Dafür sind m Tupel von Eingangsgrößen x mit deren Zielgrößen ŷ , den Trainingsdaten, notwendig. Das Ziel ist dabei die Minimierung des mittleren quadratischen Fehler (MSE) zwischen der vom Modell vorhergesagten Ausgangsgröße y(Θ, x) und der Zielgröße ŷ: 46 antriebstechnik 2023/10 www.antriebstechnik.de
FORSCHUNG UND ENTWICKLUNG mm JJ(Θ, xx) = 1 ∑(yŷ − yy)2. mm ii=1 Für dieses mehrdimensionale nichtlineare Optimierungsproblem wird der Backpropagation Algorithmus verwendet. Die Gewichte Θ werden sukzessive entsprechend ihres Einflusses auf das Fehlermaß J (Θ, x) verändert. Um Divergenzen des Algorithmus vorzubeugen ist die Lernrate h eingeführt zur Abmilderung des Gradienten: Θ ≔ Θ − ηη ∂∂∂∂ ∂∂Θ . Bevor die Trainingsdaten dem Netzwerk zum Training bereitgestellt werden, erfolgt eine Normalisierung dieser mit deren Mittelwert und Standardabweichung für die jeweiligen Eingangsgrößen und die Ausgangsgröße. DATENGRUNDLAGE Die Nachgiebigkeiten d (Einflusszahlen) für die Regressionsanalyse stammen aus den in BECAL integrierten Berechnungsverfahren . Für die Bereitstellung der Trainingsdaten werden diese Methoden mit den folgenden Restriktionen angewandt. Betrachtet werden nur konvexe Kontaktpartner (r 1,2 > 0 mm), sowie die Materialpaarung Stahl-Stahl, mit E 1,2 = 210 GPa und v 1,2 = 0,3. Durch die Betrachtung nur einer Materialpaarung ändern sich der E-Modul und die Querkontaktionszahl nicht und werden somit als Eingangsgrößen für die Regressionsgröße nicht berücksichtigt. Somit erfolgt die Regression mit neun Eingangs- und einer Ausgangsgröße. Die Bestimmung der Einflusszahlen anhand der verbleibenden neun freien Parameter ist bereits sehr schnell, so dass eine Großzahl an Daten für die Regressionsanalyse erzeugt werden kann und keine Augmentation der Daten notwendig ist. Zunächst erfolgt in einer Voruntersuchung die Festlegung eines charakteristischen Parameterraums für die Eingangsgrößen. Diese Werte stammen dabei aus einem typischen Bereich an Geometrievariationen für geradverzahnte Stirnräder, welche sich bis zu einem Raddurchmesser von 1.000 mm ergeben können. Daraus resultieren die in Tabelle 01 gelisteten Grenzen der Parameter. Nun können innerhalb dieser Schranken eine zufällige Normalverteilung von Werten für diese Eingangsgrößen erzeugt werden und anhand dieser Kombinationen die Einflusszahlen berechnet werden. Die Motivation dabei ist, durch die zufällige Verteilung von Datenpunkten über den gesamten Parameterraum ein möglichst robustes Modell zu erzeugen, wobei an dieser Stelle vorhandene geometrische Verhältnismäßigkeiten beim Abwälzen der Verzahnung vernachlässigt werden. Die hierdurch entstandenen Trainingsdaten bilden den Datensatz RAND. In einem zweiten Schritt wurden die oben genannten geometrischen Verhältnismäßigkeiten der Parameter untereinander verwendet. Dabei werden die geometrischen Parameter (r 1,2 , a 1,2 , w 1,2 und t 1,2 ) anhand von gradverzahnten Stirnrädern (α n = 20°) bestimmt. Dies erfolgt, indem die Geometrie mit variierendem Modul und Zähnezahl, auf verschiedenen Punkten in der Eingriffsstrecke berechnet wird. Der Modul wird an dieser Stelle mit variiert, da dieser wesentlich die Krümmungsradien beeinflusst [7]. Modul, Zähnezahl und Lasthorizonte finden sich in Tabelle 02. Zusätzlich wird eine Gleichverteilung der Linienlast zwischen den angrenzenden Lasthorizonten aus Tabelle 02 vorgenommen. Geometrie und Last können nun zufällig zusammengesetzt werden, um aus den resultierenden Werten die lokalen Kontaktnach- Tabelle 01: Parameterbereich für die gleichverteilten Eingangsdaten r 1,2 in mm Tabelle 02: Parameter für die Erstellung der Stirnräder Linienlast in N/mm 10^-5; 10^-4; 10^-2; 0.5; 1; 13; 100; 860; 3000 Modul in mm 0,5; 0,8; 1; 1.25; 1.5; 2; 3; 4; 5; 6; 8; 10; 12; 16; 20; 25 Zähnezahl in - 7; 11; 17; 23; 31; 43; 53; 59; 61; 67; 79; 97 Eingriffsstellungen in - 25 Tabelle 03: Hyperparameter für die Modelloptimierung Anzahl der verdeckten Schichten 1, 2 Neuronenanzahl 5, 10, 15, 20, 25, 30, 35, 40 Aktivierungsfunkionen Optimierer a 1,2 in mm w 1,2 in deg Sigmoid, Reclin, Radbas TrainSCG t_ 1,2 in mm min 0,1 0,01 0 0,1 0 f in N/mm max 1000 250 1.047 75 3000 giebigkeiten zu bestimmen. Die hierdurch entstandenen Werte bilden den zweiten Datensatz GEOM. In einem dritten Datensatz HYBR wird eine hybride Lösung aus jeweils gleich vielen Daten des RAND und des GEOM Datensatzes verfolgt. Motivation dafür ist, so eine diversere Datengrundlage zu schaffen und dadurch die Robustheit gegenüber Überanpassung zu erhöhen. Die Testdaten für die Regressionsanalyse stammen aus einer internen BECAL-Referenzdatenbank mit ca. 640.000 Tupel. Dieser Datensatz wird in drei Bereiche anhand der Krümmungsradien geteilt, da in diesem teils negative und sehr große Radien enthalten sind, welche im Training nicht vorkommen und deshalb gesondert betrachtet werden. Bereich I beinhaltet dabei 1,4 % der Daten während in Bereich III 3,8 % der Daten liegen. Die gewählten Grenzen sind: rr < 0 mm, I BB = { 0 < rr < 2000 mm, II . 2000 mm > rr, III NETZWERKOPTIMIERUNG Die Zielgrößen bei dieser Regressionsanalyse sind ambivalent. Zum einen, weil eine möglichst gute Regression erfolgen soll, welche i.d.R. die Wahl eines Modells mit mehr freien Parametern begünstigt, zum anderen, weil die Berechnung der Einflusszahlen schnell erfolgen soll und somit kleine Modelle, mit entsprechend wenigen freien Parametern, zielführend sind. Folglich werden verschiedene Hyperparameter des Modells in einer Studie untersucht. Dabei werden KNN mit der in Tabelle 03 aufgeführten Anzahl an Neuronen in einer bzw. zwei verdeckten Schichten, sowie mit der Sigmoid-, Reclin- und Radbas-Aktivierungsfunktion trainiert. Die Variation findet vollfaktoriell statt. Während des Trainings werden drei KNN initialisiert und trainiert. Dabei wird die mittlere Bewertungsmetrik im Bereich II des www.antriebstechnik.de antriebstechnik 2023/10 47
Laden...
Laden...
Laden...