Proposizione 3.1, ovvero D(f,d) = ∇f(x)Td

I riferimenti sono a questo testo: Programm. matematica prof. Fasano

Table of Contents

Teorema di Taylor (3.1)

Il teorema di Taylor dice - pressappoco - che sommando le derivate di ordine via via superiore in modo che siano sempre meno "rilevanti" si ottiene la funzione cercata.
Come?

Preso un punto x₀, la funzione in quel punto può essere approssimata come serie in cui si sommano i termini di un polinomio, nella forma

$f (x) = a_{0} \frac{{(x - x_{0})}^{0}}{0!} + a_{1} \frac{{(x - x_{0})}^{1}}{1!} + a_{2} \frac{{(x - x_{0})}^{2}}{2!} + o (x^{3})$

Si può procedere con un'approssimazione sempre maggiore illimitatamente, ma poi, quando ci si "ferma" (nell'esempio sopra, ci si arresta al grado 3 del polinomio), si ottiene un resto (detto Resto di Peano) sotto forma di o(xⁿ).

In realtà, siccome x⁰ = 1, e x¹/1! = x, l'esempio si può riscrivere così:

$f (x) = a_{0} + a_{1} x + a_{2} \frac{x^{2}}{2!} + o (x^{3})$

Resta da capire cosa rappresentano le a_n. Sono le derivate di ordine n-esimo della funzione calcolata nel punto x. In pratica, mentre da un lato incrementiamo l'esponente (in rosso scuro), dall'altra incrementiamo l'ordine della derivata.

Teoremi del valor medio (3.2)

Data la funzione f(x) sia f:ℝⁿ→ℝ continuamente differenziabile nella sfera aperta S(x, ρ) = {y ∈ ℝⁿ : ‖y-x‖<ρ} ⊆ℝⁿ, con x ∈ ℝⁿ e ρ > 0. Esiste un valore θ∈[0,1] tale che per ogni y∈S(x,ρ)

f(y) = f(x) + ∇f[x+θ(y-x)]^T(y-x),
f(y) = f(x) + ∇f(x)^T(y-x)+o(‖y-x‖)

...funzione f(x) sia f:ℝⁿ→ℝ... significa che la funzione "produce" un numero reale a fronte di un "input" di più numeri, ciascuno dei quali si riferisce a una dimensione diversa. Per es. y = f(x) ha n = 1, perché è (tipicamente) una funzione ℝ→ℝ, z = f(x, y) ha n=2, quindi ℝ²→ℝ, w = f(x, y, z) ha n=3 e così via.

...continuamente differenziabile... ovviamente, se vogliamo applicare il teorema di Taylor, bisogna poterla differenziare quanto ci pare.

...nella sfera aperta S(x, ρ) = {y ∈ ℝⁿ : ‖y-x‖<ρ} ⊆ℝⁿ, con x ∈ ℝⁿ e ρ > 0... la sfera ha come centro x, che è un punto nello spazio n-dimensionale (vedi sopra) e raggio ρ. Dato che una sfera ha un raggio positivo, ρ deve essere maggiore di zero. Se x è il centro, tutti i punti che sono distanti da x meno di ρ sono chiamati y. Le due coppie di barrette verticali sono la norma, e hanno lo stesso significato del valore assoluto, applicato a punti di più di una dimensione.

f(y) = f(x) + ∇f[x+θ(y-x)]^T(y-x) significa che f(y) si può calcolare come f(x) più qualcosa calcolato sulla base del gradiente della funzione. Quel "qualcosa" è il gradiente della funzione applicata a x più un certo valore compreso tra zero e la distanza tra y e x; il gradiente ottenuto si moltiplica per la distanza tra y e x. In altre parole, a f(x) (noto) si aggiunge un pezzo che ha la lunghezza della differenza tra y e x e la pendenza data dal gradiente di un valore compreso tra f(x) e f(x+y-x), cioè f(y), dal momento che θ è un valore compreso tra zero (che rende f[x+θ(y-x)] = f(x)) e uno (che rende f[x+θ(y-x)] = f(y)).

f(y) = f(x) + ∇f(x)^T(y-x)+o(‖y-x‖) ha un approccio diverso: calcola f(y) come gradiente di f(x), di lunghezza pari alla differenza tra y e x, ma con un margine di errore più piccolo della lunghezza y-x. In ogni caso, più x e y sono vicini e più o(‖y-x‖) è piccolo.

Il teorema 3.3 non è altro che un'estensione di 3.2 con un gradiente di secondo ordine (fatto con derivate seconde). Dal teorema di Taylor sarebbe facile estendere 3.3 in modo da arrivare alle derivate di ordine 3, 4...

Proposizione 3.1

Si vuole dimostrare l'equivalenza tra derivata direzionale e gradiente.

D(f) indica normalmente la derivata (prima) della funzione f, che è espressa come il limite per α→0⁺ del rapporto tra la differenza tra f(x+α) e f(x) da una parte e α dall'altra, quindi:

$\lim_{α \to 0^{+}} \frac{f (x + α) - f (x)}{α}$

La derivata a una o più variabili è un vettore di dimensione n-1: per esempio una funzione del tipo y = f(x) può essere rappresentata su un piano bidimensionale e la derivata è una linea; una funzione z = f(x, y) può essere rappresentata in un volume e la sua derivata è un piano e così via.

La derivata direzionale su più dimensioni si definisce, in maniera simile alla derivata "tradizionale", come D(f,d), in cui d∈ℝⁿ, con n = numero di dimensioni. In pratica, rispetto alla derivata a una variabile si introduce un elemento che rende "multidimensionale" la derivata. Il limite (anche questo cambia di poco) diventa:

$\lim_{α \to 0^{+}} \frac{f (x + α d) - f (x)}{α}$

Da un punto di vista geometrico, α definisce una sfera (usiamo "sfera" anche in senso multi-dimensionale) il cui centro è il punto f(x) e il raggio è lo stesso α.

La proposizione 3.1 dice che la derivata direzionale D(f,d) equivale a ∇f(x)^Td

Dimostrazione

Dalla 2 del teorema 3.2, il primo passaggio è spostare f(x) a sinistra:

f(y) = f(x) + ∇f(x)^T(y-x)+o(‖y-x‖) ⇒ f(y) - f(x) = ∇f(x)^T(y-x)+o(‖y-x‖)

A questo punto si sostituisce y = x + αd, dove α>0 e d∈ℝⁿ. Si ottiene:

f(x+αd) - f(x) = ∇f(x)^T(x+αd-x)+o(‖x+αd-x‖) ⇒ f(x+αd) - f(x) = ∇f(x)^T(αd)+o(‖αd‖)

Da cui, per la proprietà del prodotto scalare per cui v^T(αw) = αv^T(w)

f(x+αd) - f(x) = α∇f(x)^T(d)+o(‖αd‖)

Dividendo tutto per α, a sinistra si ottiene l'espressione che, con un limite per α tendente a zero, è D(f,d) e a destra si ottengono un gradiente e un resto che, per α tendente a zero, tende a zero a sua volta:

$\frac{f (x + α d) - f (x)}{α} = \nabla {f (x)}^{T} d + \frac{o (‖ α d ‖)}{α}$

Il limite per α → 0 è

$\lim_{α \to 0} \frac{f (x + α d) - f (x)}{α} = \lim_{α \to 0} \nabla {f (x)}^{T} d + \lim_{α \to 0} \frac{o (‖ α d ‖)}{α}$

Il limite per il gradiente non ha senso, perché α non è presente; il limite per la parte a sinistra è per definizione D(f,d); infine il limite per o piccolo tende a zero per valori di α → 0, quindi è trascurabile.

Nella dispensa, il pezzo con o piccolo è "arricchito" di d, ma non ho capito perché.

$\lim_{α \to 0} \frac{o (‖ α d ‖)}{α ‖ d ‖} ‖ d ‖$