Der Einsatz numerischer Methoden zur Lösung ingenieurwissenschaftlicher Probleme. Nichtlineare Regressionsgleichung Parabolisches Regressionsmodell

Machtregression

Die Potenzfunktion hat die Form y = bx a . Wir bringen diese Funktion auf eine lineare Form, dazu logarithmieren wir beide Teile: . Sei = y * , = x * , = b * , dann y * = ax * + b * . Es müssen zwei Parameter gefunden werden: a und b * . Dazu bilden wir die Funktion i * - (ax i * +b *)) 2 , öffnen die Klammern i * - ax i * - b *) 2 und bilden das System:

Sei A = i * , B = i * , C = i * x i * , D = i *2 , dann nimmt das System die Form an: aD + bA = C

Wir lösen dieses System linearer algebraischer Gleichungen nach der Cramer-Methode und finden so die gewünschten Werte der Parameter a und b * :

Tisch. Es gibt Punkte

Mit der Methode zur Berechnung der Parameter einer Potenzfunktion erhalten wir:

a = 1,000922, b = 1,585807. Da der Exponent der Variablen ungefähr gleich eins ist, sieht der Graph der Funktion wie eine gerade Linie aus.

Funktionsgraph y = 1,585807x 1,000922:

Blockschaltbild:

Parabolische Regression

Die quadratische Funktion hat die Form y = ax 2 + bx + c, daher müssen drei Parameter gefunden werden: a, b, c, mit der Bedingung, dass die Koordinaten von n Punkten gegeben sind. Dazu erstellen wir die Funktion S \u003d i - (ax i 2 + bx i + c)) 2, öffnen die Klammern S \u003d i - ax i 2 - bx i - c) 2 und erstellen das System:


Wir lösen dieses lineare algebraische Gleichungssystem nach der Cramer-Methode und finden so die gewünschten Werte der Parameter a, b und c:

Tisch. Es gibt Punkte:

Unter Verwendung der Methode zur Berechnung der Parameter einer quadratischen Funktion erhalten wir:

a = 0,5272728 , b = -5,627879 , c = 14,87333.

Funktionsgraph y = 0,5272728x 2 - 5,627879x + 14,87333:

Blockdiagramm

Lösung von Gleichungen der Form f(x)=0

Eine Gleichung der Form f(x) = 0 ist eine nichtlineare algebraische Gleichung in einer Variablen, wobei die Funktion f(x) auf einem endlichen oder unendlichen Intervall a definiert und stetig ist< x < b. Всякое значение C???, обращающее функцию f(x) в ноль, называется корнем уравнения f(x) = 0. Большинство алгебраических nichtlineare Gleichungen der Form f(x) = 0 kann nicht analytisch (d.h. exakt) gelöst werden, daher werden in der Praxis oft numerische Methoden verwendet, um die Wurzeln zu finden.

Das Problem, die Wurzeln einer Gleichung numerisch zu finden, besteht aus zwei Schritten: Trennen der Wurzeln, d.h. Auffinden solcher Nachbarschaften des betrachteten Bereichs, die einen Wert der Wurzel enthalten, und Verfeinerung der Wurzeln, d. h. ihre Berechnungen in diesen Nachbarschaften mit einem bestimmten Grad an Genauigkeit.

Dienstzuweisung. Mit diesem Online-Rechner finden Sie die Parameter einer nichtlinearen Regressionsgleichung (exponentiell, exponentiell, gleichseitige Hyperbel, logarithmisch, exponentiell) (siehe Beispiel).

Anweisung. Geben Sie die Menge der Quelldaten an. Die resultierende Lösung wird in einer Word-Datei gespeichert. Auch in Excel wird automatisch eine Lösungsvorlage generiert. Notiz: Wenn Sie die parabolischen Abhängigkeitsparameter (y = ax 2 + bx + c) bestimmen müssen, können Sie den analytischen Ausrichtungsdienst verwenden.
Es ist möglich, eine homogene Menge von Einheiten einzuschränken, indem anomale Beobachtungsobjekte durch die Irwin-Methode oder durch die Drei-Sigma-Regel eliminiert werden (die Einheiten eliminieren, bei denen der Wert des erklärenden Faktors um mehr als das Dreifache des Standards vom Durchschnitt abweicht Abweichung).

Arten der nichtlinearen Regression

Dabei ist ε ein zufälliger Fehler (Abweichung, Störung), der den Einfluss aller nicht berücksichtigten Faktoren widerspiegelt.

Regressionsgleichung erster Ordnung ist eine paarweise lineare Regressionsgleichung.

Regressionsgleichung zweiter Ordnung dies ist eine polynomiale Regressionsgleichung zweiter Ordnung: y = a + bx + cx 2 .

Regressionsgleichung dritter Ordnung bzw. die Polynom-Regressionsgleichung dritter Ordnung: y = a + bx + cx 2 + dx 3 .

Um nichtlineare Abhängigkeiten in eine lineare zu bringen, werden Linearisierungsmethoden verwendet (siehe Alignment-Methode):

  1. Änderung von Variablen.
  2. Logarithmus beider Seiten der Gleichung.
  3. Kombiniert.
y = f(x)TransformationLinearisierungsmethode
y = b x aY = log(y); X = Log(x)Logarithmus
y = b e AchseY = log(y); X=xKombiniert
y = 1/(ax+b)J = 1/J; X=xÄnderung von Variablen
y = x/(ax+b)Y=x/y; X=xÄnderung von Variablen. Beispiel
y = aln(x)+bY=y; X = Log(x)Kombiniert
y = a + bx + cx2x1 = x; x2 = x2Änderung von Variablen
y = a + bx + cx2 + dx3x1 = x; x 2 \u003d x 2; x 3 = x 3Änderung von Variablen
y = a + b/xx1 = 1/xÄnderung von Variablen
y = a + sqrt(x)bx 1 = quadrat(x)Änderung von Variablen
Beispiel. Gehen Sie gemäß den Daten aus der entsprechenden Tabelle wie folgt vor:
  1. Bauen Sie ein Korrelationsfeld auf und formulieren Sie eine Hypothese über die Form der Beziehung.
  2. Berechnen Sie die Parameter der Gleichungen der linearen, Potenz-, exponentiellen, halblogarithmischen, inversen, hyperbolischen Paarregression.
  3. Bewerten Sie die Enge der Beziehung anhand von Korrelations- und Entschlossenheitsindikatoren.
  4. Verwenden Sie den durchschnittlichen (allgemeinen) Elastizitätskoeffizienten, um die Stärke des Zusammenhangs zwischen dem Faktor und dem Ergebnis vergleichend zu beurteilen.
  5. Schätzen Sie die Qualität von Gleichungen anhand des durchschnittlichen Approximationsfehlers ab.
  6. Bewerten Sie die statistische Zuverlässigkeit der Ergebnisse der Regressionsmodellierung mit dem Fisher-F-Test. Nach den in den Absätzen berechneten Werten der Merkmale. 4, 5 und diesem Absatz, wählen Sie die beste Regressionsgleichung und geben Sie ihre Begründung an.
  7. Berechnen Sie den prognostizierten Wert des Ergebnisses, wenn der prognostizierte Wert des Faktors um 15 % seines Durchschnittsniveaus ansteigt. Bestimmen Sie das Konfidenzintervall der Prognose für das Signifikanzniveau α=0,05.
  8. Bewerten Sie die erzielten Ergebnisse und ziehen Sie Schlussfolgerungen in einer analytischen Notiz.
JahrTatsächlicher Endverbrauch der Haushalte (zu laufenden Preisen), Milliarden Rubel (1995 - Billionen Rubel), yDurchschnittliches Pro-Kopf-Bareinkommen der Bevölkerung (pro Monat), reiben. (1995 - Tausend Rubel), x
1995 872 515,9
2000 3813 2281,1
2001 5014 3062
2002 6400 3947,2
2003 7708 5170,4
2004 9848 6410,3
2005 12455 8111,9
2006 15284 10196
2007 18928 12602,7
2008 23695 14940,6
2009 25151 16856,9

Lösung. Wählen Sie im Taschenrechner aus Arten der nichtlinearen Regression. Wir erhalten die folgende Tabelle.
Die exponentielle Regressionsgleichung lautet y = a e bx
Nach Linearisierung erhalten wir: ln(y) = ln(a) + bx
Wir erhalten empirische Regressionskoeffizienten: b = 0,000162, a = 7,8132
Regressionsgleichung: y = e 7,81321500 e 0,000162x = 2473,06858e 0,000162x

Die Potenzregressionsgleichung hat die Form y = a x b
Nach Linearisierung erhalten wir: ln(y) = ln(a) + b ln(x)
Empirische Regressionskoeffizienten: b = 0,9626, a = 0,7714
Regressionsgleichung: y = e 0,77143204 x 0,9626 = 2,16286 x 0,9626

Die hyperbolische Regressionsgleichung lautet y = b/x + a + ε
Nach Linearisierung erhalten wir: y=bx + a
Empirische Regressionskoeffizienten: b = 21089190,1984, a = 4585,5706
Empirische Regressionsgleichung: y = 21089190,1984 / x + 4585,5706

Die logarithmische Regressionsgleichung hat die Form y = b ln(x) + a + ε
Empirische Regressionskoeffizienten: b = 7142,4505, a = -49694,9535
Regressionsgleichung: y = 7142,4505 ln(x) - 49694,9535

Die exponentielle Regressionsgleichung hat die Form y = a b x + ε
Nach Linearisierung erhalten wir: ln(y) = ln(a) + x ln(b)
Empirische Regressionskoeffizienten: b = 0,000162, a = 7,8132
y = e 7,8132 * e 0,000162x = 2473,06858*1,00016x

xj1/xlog(x)Protokoll (y)
515.9 872 0.00194 6.25 6.77
2281.1 3813 0.000438 7.73 8.25
3062 5014 0.000327 8.03 8.52
3947.2 6400 0.000253 8.28 8.76
5170.4 7708 0.000193 8.55 8.95
6410.3 9848 0.000156 8.77 9.2
8111.9 12455 0.000123 9 9.43
10196 15284 9.8E-59.23 9.63
12602.7 18928 7.9E-59.44 9.85
14940.6 23695 6.7E-59.61 10.07
16856.9 25151 5.9E-59.73 10.13

Lineare Regression

Eine lineare Regressionsgleichung ist eine Gleichung einer geraden Linie, die die Beziehung zwischen den Zufallsvariablen X und Y approximiert (ungefähr beschreibt).

Stellen Sie sich eine zweidimensionale Zufallsvariable (X, Y) vor, wobei -- abhängig ist zufällige Variablen. Wir stellen eine der Größen als Funktion der anderen dar. Wir beschränken uns auf eine näherungsweise Darstellung der Größe als lineare Funktion der Größe X:

wo sind die zu bestimmenden Parameter. Es kann getan werden verschiedene Wege: Die gebräuchlichste davon ist die Methode der kleinsten Quadrate. Die Funktion g(x) wird als rms-Regression von Y auf X bezeichnet. Die Funktion g(x) wird als rms-Regression von Y auf X bezeichnet.

wobei F die quadratische Gesamtabweichung ist.

Wir wählen a und b so, dass die Summe der quadrierten Abweichungen minimal ist. Um die Koeffizienten a und b zu finden, bei denen F seinen Minimalwert erreicht, setzen wir die partiellen Ableitungen gleich Null:

Wir finden a und b. Nach elementaren Transformationen erhalten wir ein System aus zwei linearen Gleichungen für a und b:

wo ist die Stichprobengröße.

In unserem Fall ist A = 3888; B=549; C=8224; D = 1182; N = 100.

Lassen Sie uns a und b aus dieser Geraden finden. Wir erhalten einen stationären Punkt für wo 1,9884; 0,8981.

Daher nimmt die Gleichung die Form an:

y = 1,9884x + 0,8981


Reis. zehn

Parabolische Regression

Lassen Sie uns basierend auf den Beobachtungsdaten eine Beispielgleichung der Kurve der Root-Mean-Square- (in unserem Fall parabolische) Regression finden. Lassen Sie uns die Methode der kleinsten Quadrate verwenden, um p, q, r zu bestimmen.

Wir beschränken uns darauf, Y als Parabelfunktion von X darzustellen:

wobei p, q und r zu bestimmende Parameter sind. Dies kann mit der Methode der kleinsten Quadrate erfolgen.

Wir wählen die Parameter p, q und r so, dass die Summe der quadrierten Abweichungen minimal wird. Da jede Abweichung von den gesuchten Parametern abhängt, ist auch die Summe der quadrierten Abweichungen eine Funktion F dieser Parameter:

Um das Minimum zu finden, setzen wir die entsprechenden partiellen Ableitungen gleich Null:

Finden Sie p, q und r. Nach elementaren Transformationen erhalten wir ein System von drei linearen Gleichungen für p, q und r:

Lösung dieses Systems durch die Methode inverse Matrix, erhalten wir: p = -0,0085; q = 2,0761;

Daher nimmt die parabolische Regressionsgleichung die Form an:

y = -0,0085 x 2 + 2,0761 x + 0,7462

Lassen Sie uns eine parabolische Regression zeichnen. Zur leichteren Beobachtung wird das Regressionsdiagramm vor dem Hintergrund eines Streudiagramms dargestellt (siehe Abbildung 13).


Reis. 13

Lassen Sie uns nun die Linien der linearen Regression und der parabolischen Regression für einen visuellen Vergleich in demselben Diagramm darstellen (siehe Abbildung 14).


Reis. vierzehn

Die lineare Regression wird in Rot angezeigt, während die parabolische Regression in Blau angezeigt wird. Das Diagramm zeigt, dass der Unterschied in diesem Fall größer ist als beim Vergleich zweier linearer Regressionsgeraden. Es bedarf weiterer Forschung, welche Regression den Zusammenhang zwischen x und y am besten ausdrückt, also welche Art von Zusammenhang zwischen x und y.

Teilweise zeigen die empirischen Daten der Grundgesamtheit, visualisiert durch ein Koordinatendiagramm, dass eine Erhöhung des Faktors mit einer überragenden Erhöhung des Ergebnisses einhergeht. Für eine theoretische Beschreibung dieser Art von Korrelationsbeziehung von Merkmalen können wir die parabolische Regressionsgleichung zweiter Ordnung nehmen:

wobei , ein Parameter ist, der den Durchschnittswert des effektiven Merkmals unter der Bedingung der vollständigen Isolierung des Einflusses des Faktors (х=0) zeigt; - Koeffizient der Proportionalität der Änderung des Ergebnisses unter der Bedingung einer absoluten Erhöhung des Vorzeichenfaktors für jede seiner Einheiten; c ist der Koeffizient der Beschleunigung (Verzögerung) des Wachstums des effektiven Merkmals für jede Einheit des Faktors.

Wenn wir die Berechnungsgrundlage für die Parameter , , mit der Methode der kleinsten Quadrate annehmen und den Medianwert der Rangreihe bedingt als den Anfangswert akzeptieren, haben wir Σх=0, Σх 3 =0. In diesem Fall lautet das Gleichungssystem in vereinfachter Form:

Aus diesen Gleichungen kann man die Parameter , , c finden, die in Gesamtansicht kann so geschrieben werden:

(11.20)

(11.22)

Dies zeigt, dass zur Bestimmung der Parameter , , mit folgende Werte berechnet werden müssen: Σ y, Σ xy, Σ x 2, Σ x 2 y, Σ x 4. Dazu können Sie das Layout der Tabelle verwenden. 11.9.

Angenommen, es gibt Daten über den Anteil der Kartoffelkulturen an der Struktur aller gesäten Flächen und den Ernteertrag (Bruttoernte) in 30 landwirtschaftlichen Organisationen. Es ist notwendig, die Gleichung der Korrelationsbeziehung zwischen diesen Indikatoren aufzustellen und zu lösen.

Tabelle 11.9. Berechnung von Hilfsindikatoren für die Gleichung

parabolische Regression

Nr. p.p. X bei hu x 2 x 2 j x 4
x 1 1 x 1 und 1
x 2 um 2 x 2 y 2
n x n bei n x n y n
Σ Σx y Σhu Σх 2 Σx 2 y Σx 4

Die grafische Darstellung des Korrelationsfeldes zeigte, dass die untersuchten Indikatoren empirisch durch eine Linie verbunden sind, die sich einer Parabel zweiter Ordnung nähert. Daher wird die Berechnung der notwendigen Parameter , , s als Teil der gewünschten parabolischen Regressionsgleichung mit dem Layout der Tabelle durchgeführt. 11.10.

Tabelle 11.10. Berechnung von Hilfsdaten für die Gleichung

parabolische Regression

Nr. p.p. X, % y, tausend Tonnen hu x 2 x 2 j x 4
1,0 5,0 5,0 1,0 5,0 1,0
1,5 7,0 10,5 2,3 15,8 5,0
n 8,0 20,0 160,0 64,0
Σ

Ersatz bestimmte WerteΣ y=495, Σ xy=600, Σ x 2 =750, Σ x 2 y=12375, Σ x 4 =18750, verfügbar in der Tabelle. 11.10, in die Formeln (11.20), (11.21), (11.22). Erhalten

Somit drückt die parabolische Regressionsgleichung den Einfluss aus spezifisches Gewicht von Kartoffelkulturen in der Struktur von Aussaatflächen für die Ernte (Bruttoernte) von Kulturpflanzen in landwirtschaftlichen Organisationen hat folgende Form:

(11.23)

Gleichung 11.23 zeigt, dass unter gegebenen Bedingungen Stichprobenrahmen Der durchschnittliche Ertrag (Bruttoernte) von Kartoffeln (10.000 Zentner) kann ohne den Einfluss des untersuchten Faktors erzielt werden - eine Erhöhung des Anteils der Kulturpflanzen an der Struktur der Aussaatflächen, d.h. unter einer solchen Bedingung, dass Schwankungen im spezifischen Gewicht der Feldfrüchte die Größe des Kartoffelertrags (x = 0) nicht beeinflussen. Der Parameter (Proportionalitätskoeffizient) β = 0,8 zeigt, dass jede prozentuale Erhöhung des Ernteanteils eine Ertragssteigerung um durchschnittlich 0,8 Tausend Tonnen bringt, und der Parameter c = 0,1 gibt an, dass ein Prozent (zum Quadrat) die Ertragssteigerung beträgt beschleunigt um durchschnittlich 0,1 Tausend Tonnen Kartoffeln.

Regressions- und Korrelationsanalyse - statistische Forschungsmethoden. Dies sind die gebräuchlichsten Methoden, um die Abhängigkeit eines Parameters von einer oder mehreren unabhängigen Variablen darzustellen.

Im Folgenden betrachten wir diese beiden unter Ökonomen sehr beliebten Analysen anhand konkreter Praxisbeispiele. Wir geben auch ein Beispiel für das Erhalten von Ergebnissen, wenn sie kombiniert werden.

Regressionsanalyse in Excel

Zeigt den Einfluss einiger Werte (unabhängig, unabhängig) auf die abhängige Variable. Zum Beispiel, wie die Zahl der erwerbstätigen Bevölkerung von der Zahl der Unternehmen, Löhne und anderen Parametern abhängt. Oder: Wie wirken sich Auslandsinvestitionen, Energiepreise etc. auf die Höhe des BIP aus?

Das Ergebnis der Analyse ermöglicht Ihnen eine Priorisierung. Und basierend auf den Hauptfaktoren, um die Entwicklung vorrangiger Bereiche vorherzusagen, zu planen und Managemententscheidungen zu treffen.

Regression passiert:

  • linear (y = a + bx);
  • parabolisch (y = a + bx + cx 2);
  • exponentiell (y = a * exp(bx));
  • Potenz (y = a*x^b);
  • hyperbolisch (y = b/x + a);
  • logarithmisch (y = b * 1n(x) + a);
  • exponentiell (y = a * b^x).

Betrachten Sie das Beispiel der Erstellung eines Regressionsmodells in Excel und der Interpretation der Ergebnisse. Nehmen wir eine lineare Regression.

Eine Aufgabe. Bei 6 Unternehmen im Durchschnitt monatlich Lohn und die Zahl der Rentner. Es ist notwendig, die Abhängigkeit der Anzahl der Rentner vom Durchschnittsgehalt zu ermitteln.

Das lineare Regressionsmodell hat folgende Form:

Y \u003d ein 0 + ein 1 x 1 + ... + ein k x k.

Dabei sind a die Regressionskoeffizienten, x die Einflussgrößen und k die Anzahl der Faktoren.

In unserem Beispiel ist Y der Indikator für gekündigte Arbeitnehmer. Der Einflussfaktor ist der Lohn (x).

Excel verfügt über integrierte Funktionen, mit denen die Parameter eines linearen Regressionsmodells berechnet werden können. Aber das Analyse-ToolPak-Add-In macht es schneller.

Aktivieren Sie ein leistungsstarkes Analysetool:

Nach der Aktivierung ist das Add-on unter der Registerkarte Daten verfügbar.

Nun beschäftigen wir uns direkt mit der Regressionsanalyse.



Zunächst achten wir auf das R-Quadrat und die Koeffizienten.

R-Quadrat ist das Bestimmtheitsmaß. In unserem Beispiel sind es 0,755 oder 75,5 %. Das bedeutet, dass die berechneten Parameter des Modells die Beziehung zwischen den untersuchten Parametern zu 75,5 % erklären. Je höher das Bestimmtheitsmaß, desto besser das Modell. Gut - über 0,8. Schlecht - weniger als 0,5 (eine solche Analyse kann kaum als vernünftig angesehen werden). In unserem Beispiel - "nicht schlecht".

Der Koeffizient 64,1428 zeigt, was Y sein wird, wenn alle Variablen im betrachteten Modell gleich 0 sind. Das heißt, andere Faktoren, die nicht im Modell beschrieben sind, beeinflussen auch den Wert des analysierten Parameters.

Der Koeffizient -0,16285 zeigt die Gewichtung der Variablen X auf Y. Das bedeutet, dass das durchschnittliche Monatsgehalt in diesem Modell die Anzahl der Aussteiger mit einer Gewichtung von -0,16285 beeinflusst (dies ist ein geringer Grad an Einfluss). Das „-“-Zeichen weist auf einen negativen Effekt hin: Je höher das Gehalt, desto weniger Kündigungen. Was gerecht ist.



Korrelationsanalyse in Excel

Die Korrelationsanalyse hilft festzustellen, ob es einen Zusammenhang zwischen Indikatoren in einer oder zwei Stichproben gibt. Zum Beispiel zwischen der Betriebszeit der Maschine und den Kosten für Reparaturen, dem Preis der Ausrüstung und der Betriebsdauer, der Größe und dem Gewicht von Kindern usw.

Wenn es einen Zusammenhang gibt, dann ob eine Zunahme eines Parameters zu einer Zunahme (positive Korrelation) oder einer Abnahme (negative) des anderen führt. Die Korrelationsanalyse hilft dem Analysten festzustellen, ob der Wert eines Indikators den möglichen Wert eines anderen vorhersagen kann.

Der Korrelationskoeffizient wird mit r bezeichnet. Variiert von +1 bis -1. Die Klassifizierung von Korrelationen für verschiedene Bereiche wird unterschiedlich sein. Wenn der Koeffizientenwert 0 ist, gibt es keine lineare Beziehung zwischen den Proben.

Überlegen Sie, wie Sie Excel verwenden, um den Korrelationskoeffizienten zu finden.

Die CORREL-Funktion wird verwendet, um die gepaarten Koeffizienten zu finden.

Aufgabe: Stellen Sie fest, ob ein Zusammenhang zwischen der Betriebszeit einer Drehmaschine und den Kosten für deren Wartung besteht.

Setzen Sie den Cursor in eine beliebige Zelle und drücken Sie die fx-Taste.

  1. Wählen Sie in der Kategorie „Statistik“ die Funktion CORREL aus.
  2. Argument "Array 1" - der erste Wertebereich - die Zeit der Maschine: A2: A14.
  3. Argument "Array 2" - der zweite Wertebereich - die Reparaturkosten: B2:B14. OK klicken.

Um die Art der Verbindung zu bestimmen, müssen Sie die absolute Zahl des Koeffizienten betrachten (jedes Tätigkeitsfeld hat seine eigene Skala).

Für die Korrelationsanalyse mehrerer Parameter (mehr als 2) ist es bequemer, "Data Analysis" (Add-on "Analysis Package") zu verwenden. In der Liste müssen Sie eine Korrelation auswählen und ein Array zuweisen. Alle.

Die resultierenden Koeffizienten werden in der Korrelationsmatrix angezeigt. Wie dieser:

Korrelations-Regressionsanalyse

In der Praxis werden diese beiden Techniken oft zusammen verwendet.

Beispiel:


Jetzt sind die Daten der Regressionsanalyse sichtbar.