News
您的位置:
過采樣(over-sampling)
欠采樣(under-sampling)
綜合采樣法
從學習模型出發
從貝葉斯風險理論出發
從預處理的角度出發
靜態數據,即用戶的基本信息,如性別、年齡、入網時長、歸屬地市等。
動態數據,指用戶的行為數據,如使用習慣、消費行為等。
標識數據,如“是否開通家庭網”、“是否當月訂購‘和彩云’”等。
數據采樣方面,對比未做任何處理的訓練集,經過數據增強的訓練集建模效果提升很大。與只進行過采樣(SMOTE)的訓練集進行對比,進一步剔除部分干擾樣本(SMOTE+TomekLinks)后的訓練集模型泛化能力亦有所提升。
模型選擇方面,基礎機器學習算法SVM學習能力不足,分類效果不佳。XGBoost算法雖然能得出較高的精確率,但其在選擇正樣本時較為謹慎,導致召回率過低,同樣亦不適用于小樣本訓練。AdaCost是基于代價敏感學習的boosting算法,在小樣本不平衡數據集中有較好的效果。
樣本比例方面,當生成的少數類較少,模型從少數類樣本中學不到足夠多的信息;若生成的樣本過多,會導致生成樣本把原始樣本信息覆蓋。
模型超參方面,代價系數增大,代表著誤殺成本更高,模型傾向于把更多的樣本分類為正樣本(召回率提高),但是精確率會隨之有所下降,模型使用者可以根據需求控制模型的效果。
浩鯨云計算科技股份有限公司 版權所有 2003-2023
蘇ICP備10224443號-6 蘇公網安備 32011402011374號