線形回帰の仮定: 包括的なガイド
線形回帰における仮定の基礎と、実際の例を使ってそれを検証する方法を学びます。 データ分析.
ハイライト
- 線形回帰は、変数間の関係を理解するために広く使用されている予測モデリング手法です。
- 残差の正規性は、線形回帰における不偏な予測と信頼できる信頼区間を保証するのに役立ちます。
- 等分散性により、モデルの予測がさまざまな値にわたって一貫した精度を持つことが保証されます。
- 多重共線性を特定して対処すると、回帰モデルの安定性と解釈可能性が向上します。
- スケーリングや正規化などのデータの前処理および変換手法により、線形回帰における潜在的な問題を軽減できます。
線形回帰は、ターゲット変数と XNUMX つ以上の入力変数の間の関係をモデル化し、予測する手法です。
これは、入力変数の変更がターゲット変数にどのような影響を与えるかを理解するのに役立ちます。
線形回帰では、この関係を直線で表すことができると想定しています。
たとえば、不動産のサイズ (平方フィート単位) と築年数 (年数) を考慮して不動産のコストを見積もるとします。
この場合、家の価格がターゲット変数であり、サイズと築年数が入力変数です。
線形回帰を使用すると、住宅の価格に対する広さと築年数の影響を推定できます。
線形回帰における仮定
モデルの信頼性と有効性を確保するには、線形回帰における XNUMX つの主要な仮定を満たす必要があります。 これらの仮定は次のとおりです。
1.直線性
この仮定は、従属変数と独立変数の間に線形関係が存在することを示しています。 言い換えれば、従属変数の変化は独立変数の変化に比例する必要があります。 線形性は、散布図を使用するか、残差を調べることによって評価できます。
2. エラーの正常性
残差は、平均がゼロの正規分布に従う必要があります。 この仮定は、適切な仮説検定と信頼区間の構築に不可欠です。 誤差の正規性は、ヒストグラムや QQ プロットなどの視覚的な方法を使用するか、シャピロ-ウィルク テストやコルモゴロフ-スミルノフ テストなどの統計検定を通じて評価できます。
3. 等分散性
この仮定は、残差の分散がすべての独立変数レベルにわたって一定であるべきであることを示しています。 言い換えれば、残差の広がりは独立変数のすべての値で同様である必要があります。 この仮定に違反する不均一分散性は、残差の散布図や、ブリューシュ・パガン検定などの正式な検定を使用して特定できます。
4. エラーの独立性
この仮定は、データセットの観測値が互いに独立している必要があることを示しています。 時系列データまたは空間データを操作する場合、観測値は時間的または空間的に近いため、相互に依存する可能性があります。 この仮定に違反すると、偏った推定や信頼性の低い予測が生じる可能性があります。 このような場合には、時系列モデルや空間モデルなどの特殊なモデルの方が適切である可能性があります。
5. 多重共線性の不在 (重回帰)
多重共線性は、線形回帰モデル内の2つ以上の独立変数の相関が高く、各変数が従属変数に及ぼす正確な影響を確定することが困難になる場合に発生します。多重共線性は、推定値の不安定化、標準誤差の増大、係数の解釈の困難につながる可能性があります。分散膨張係数(VIF)または相関行列を使用して多重共線性を検出できます。多重共線性が存在する場合は、相関変数の1つを削除するか、相関変数を組み合わせるか、次のような手法を使用することを検討してください。 主成分分析 (PCA) またはリッジ回帰。
6. 観測値の独立性
この仮定は、データセットの観測値が互いに独立している必要があることを示しています。 時系列データまたは空間データを操作する場合、観測値は時間的または空間的に近いため、相互に依存する可能性があります。 この仮定に違反すると、偏った推定や信頼性の低い予測が生じる可能性があります。 このような場合には、時系列モデルや空間モデルなどの特殊なモデルの方が適切である可能性があります。
これらの前提が確実に満たされるようにすることで、線形回帰モデルの精度、信頼性、解釈可能性を高めることができます。 前提に違反した場合は、データ変換を適用したり、代替モデリング手法を使用したり、問題に対処するための他のアプローチを検討したりすることが必要になる場合があります。
❓ データ分析に混乱していますか? 当社の包括的なガイドが明確に説明します
仮定 | 説明 |
---|---|
直線性 | 散布図を使用して確認された従属変数と独立変数間の線形関係 |
正常 | 残差の正規分布、Shapiro-Wilk 検定を使用して評価 |
同相性 | Breusch-Pagan 検定を使用して評価された誤差項の一定の分散 |
エラーの独立性 | 独立誤差項、ダービン・ワトソン検定を使用して検証 |
観測の独立性 | 自己相関なしで個別に収集されたデータポイント |
多重共線性の不在 | VIF および Tolerance 測定を使用して決定された、独立変数間に多重共線性がない |
実例
ここでは、XNUMX つの独立変数と XNUMX つの従属変数を使用した線形回帰モデルの問題のデモンストレーションを示します。
この例では、住宅の面積と築年数と販売価格との関係をモデル化します。
データセットには、40 軒の住宅の面積、築年数、販売価格が含まれています。
重回帰を使用して、販売価格に対する面積と築年数の影響を推定します。
以下は、コピーして貼り付けることができるデータを含む表です。
一戸建て | 面積 | 年数 | 価格 |
---|---|---|---|
1 | 1500 | 10 | 250000.50 |
2 | 2000 | 5 | 300000.75 |
3 | 1200 | 15 | 200500.25 |
4 | 2500 | 2 | 400100.80 |
5 | 1800 | 8 | 270500.55 |
6 | 1600 | 12 | 220800.60 |
7 | 2200 | 4 | 320200.10 |
8 | 2400 | 1 | 420300.90 |
9 | 1000 | 18 | 180100.15 |
10 | 2000 | 7 | 290700.40 |
11 | 1450 | 11 | 240900.65 |
12 | 2050 | 6 | 315600.20 |
13 | 1150 | 16 | 190800.75 |
14 | 2600 | 3 | 410500.50 |
15 | 1750 | 9 | 260200.55 |
16 | 1550 | 13 | 210700.85 |
17 | 2300 | 3 | 330400.45 |
18 | 2450 | 2 | 415200.90 |
19 | 1100 | 17 | 185300.65 |
20 | 1900 | 8 | 275900.80 |
21 | 1400 | 12 | 235800.55 |
22 | 2100 | 6 | 305300.40 |
23 | 1300 | 14 | 195400.25 |
24 | 2700 | 3 | 410200.75 |
25 | 1700 | 10 | 255600.20 |
26 | 1650 | 11 | 215400.60 |
27 | 2150 | 5 | 325500.50 |
28 | 1250 | 15 | 205700.85 |
29 | 2550 | 4 | 395900.90 |
30 | 1850 | 9 | 265100.65 |
31 | 1350 | 13 | 225900.40 |
32 | 1950 | 7 | 285800.15 |
33 | 1100 | 16 | 195900.80 |
34 | 2800 | 3 | 430700.55 |
35 | 1750 | 10 | 245500.20 |
36 | 1600 | 12 | 225300.10 |
37 | 2000 | 7 | 310700.50 |
37 | 2000 | 7 | 310700.50 |
38 | 1200 | 15 | 201200.90 |
39 | 2600 | 4 | 380800.65 |
40 | 1800 | 8 | 279500.25 |
6. 観測値の独立性
観測の独立性の仮定に違反しないようにするには、データ ポイントが独立して収集され、自己相関が示されていないことを確認してください。自己相関はダービン ワトソン検定を使用して評価できます。
まとめ:
線形回帰モデルを構築する際には、妥当性、信頼性、解釈可能性を確保するために、これらの仮定を調べて対処することが重要です。
XNUMX つの仮定 (線形性、誤差の独立性、等分散性、誤差の正規性、観測値の独立性、多重共線性の欠如) を理解して検証することで、より正確で信頼性の高いモデルを構築でき、より適切な意思決定と関係の理解の向上につながります。データ内の変数の間。
アクセスのチャンスを掴む 無料 新しくリリースされたデジタルブックからサンプルを入手して、あなたの可能性を解き放ちましょう。
高度なマスタリングを深く掘り下げる データ分析 方法、完璧なサンプルサイズを決定し、結果を効果的、明確、簡潔に伝えます。
リンクをクリックすると、豊富な知識が得られます。 応用統計学: データ分析.