Pythonでランダムフォレスト回帰を使いこなす!ビジネス分析に役立つ可視化と評価手法

2025年7月21日2025年7月30日

データ分析の現場で「正確で頑健な回帰モデル」を求めるなら、ランダムフォレストは非常に有力な選択肢です。Pythonを使えば、scikit-learnライブラリを通じて、ビジネスの意思決定に活用できるモデルを短時間で構築可能です。本記事では、ランダムフォレスト回帰の基本から、可視化・ハイパーパラメータ調整・過学習対策まで、実務で役立つ内容をわかりやすく解説します。

ランダムフォレスト回帰とは？ビジネスで使う理由

ランダムフォレストの仕組みと回帰タスクへの応用

ランダムフォレストとは、複数の決定木を組み合わせて、平均的な予測を行うアンサンブル学習手法です。分類・回帰の両方に使えますが、ビジネスでは数値予測（売上、単価、LTVなど）のために回帰分析として活用されるケースが増えています。

ランダムフォレスト回帰では、データの一部をランダムに抽出して複数の木を構築します。このとき、「ブートストラップ」と呼ばれるサンプリング手法を使い、それぞれの木が異なる視点で学習するようにします。これにより、単一モデルでは得られない安定性と汎化性能を獲得できます。

Pythonでランダムフォレストを扱うメリット

Pythonには機械学習用の高水準ライブラリが豊富にあり、特にscikit-learn（sklearn）はランダムフォレストの実装が非常にわかりやすく整っています。ビジネス用途では以下のようなシーンで活躍します。

売上予測や需要予測
顧客スコアリング
広告効果の数値予測
製品別の離脱率予測

業務現場でよく使われるエクセルやBIツールでは捉えきれない非線形の複雑な関係性をモデル化できるため、より深いインサイト獲得につながります。

Pythonによるランダムフォレスト回帰の基本実装

ランダムフォレスト回帰の構築手順

Pythonでのランダムフォレスト回帰モデルは、以下のように書けます。

pythonコピーする編集するfrom sklearn.ensemble import RandomForestRegressor
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error

# 学習用データとラベルの用意
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# モデルの初期化と学習
model = RandomForestRegressor(n_estimators=100, random_state=42)
model.fit(X_train, y_train)

# 予測と評価
y_pred = model.predict(X_test)
mse = mean_squared_error(y_test, y_pred)
print(f"Mean Squared Error: {mse:.2f}")

データを渡すだけで回帰モデルが動作するため、初心者でも導入しやすいのが魅力です。

ハイパーパラメータの調整で精度を引き出す

ランダムフォレスト回帰の性能は、ハイパーパラメータ次第で大きく変わります。特に以下のパラメータは重要です。

n_estimators：決定木の本数（多すぎると計算負荷、少なすぎると精度低下）
max_depth：木の深さ（深すぎると過学習、浅すぎると学習不足）
max_features：各木が使う説明変数の数（精度と汎化性能のバランス）

ビジネスデータはノイズを多く含むため、ハイパーパラメータの調整によって過学習を避ける工夫が必要です。

ランダムフォレストの可視化とビジネス的な分析視点

特徴量の重要度を可視化する

ランダムフォレストは、どの変数が予測にどれだけ寄与しているかを数値で出力できます。これを可視化することで、業務の意思決定に役立つインサイトを得られます。

pythonコピーする編集するimport matplotlib.pyplot as plt

importances = model.feature_importances_
feature_names = X.columns
plt.barh(feature_names, importances)
plt.xlabel("Feature Importance")
plt.title("Feature Importance in Random Forest Regression")
plt.show()

この可視化は、例えば「売上に影響する要素は何か」「どの施策が効果的か」といった問いに答えるための出発点になります。

回帰結果の可視化と誤差の検証

予測値と実測値の関係性も、ビジネスでは重要です。可視化によって、モデルの傾向やバイアスを直感的に理解できます。

pythonコピーする編集するimport seaborn as sns
import pandas as pd

df = pd.DataFrame({'Actual': y_test, 'Predicted': y_pred})
sns.scatterplot(x='Actual', y='Predicted', data=df)
plt.plot([df.min().min(), df.max().max()], [df.min().min(), df.max().max()], 'r--')
plt.title("Actual vs Predicted")
plt.show()

これは、モデルが全体的に過大評価していないか、特定の範囲で精度が落ちていないかなどを見抜くのに有効です。