决策树回归(DecisionTreeRegressor)使用文档
组件名称 | 对应组件名称一致,不包含版本号 | ||
---|---|---|---|
工具集 | 机器学习 | ||
组件作者 | 雪浪云-墨文 | ||
文档版本 | 1.0 | ||
功能 | 决策树回归(DecisionTreeRegressor)算法 | ||
镜像名称 | ml_components:3 | ||
开发语言 | Python |
组件原理
在计算机科学中,决策树学习使用决策树(作为预测模型),从对项目的观察(用分支表示)到对项目目标值的结论(用叶子表示)。它是统计、数据挖掘和机器学习中常用的预测建模方法之一。目标变量可以取一组离散值的树模型称为分类树;在这些树结构中,叶子表示类标签,分支表示导致这些类标签的特征的连接。目标变量可以取连续值(通常是实数)的决策树称为回归树。
在决策分析中,决策树可以用来直观、明确地表示决策和决策制定。在数据挖掘中,决策树描述数据(但是产生的分类树可以作为决策的输入)。回归树分析是指预测的结果可以被认为是一个真实的数字(例如房价,或病人住院时间)。 决策树学习是从类标记的训练元组构造决策树。决策树是类似于流程图的结构,其中每个内部(非叶子)节点表示对属性的测试,每个分支表示测试的结果,每个叶子(或终端)节点持有一个类标签。树中最上面的节点是根节点。 有许多特定的决策树算法。值得注意的包括:
- ID3 (Iterative Dichotomiser 3)
- C4.5 (successor of ID3)
- Chi-square automatic interaction detection (CHAID). 在计算分类树时执行多级分割。
- MARS: 扩展决策树以更好地处理数值数据。
- Conditional Inference Trees. 基于统计的方法,使用非参数测试作为分裂准则,纠正多次测试,以避免过度拟合。该方法不需要剪枝,可以实现无偏预测器的选择。
输入桩
支持单个csv文件输入。
输入端子1
- 端口名称:训练数据
- 输入类型:Csv文件
- 功能描述: 输入用于训练的数据
输出桩
支持sklearn模型输出。
输出端子1
- 端口名称:输出模型
- 输出类型:sklearn模型
- 功能描述: 输出训练好的模型用于预测
参数配置
Criterion
- 功能描述:用于测量分割质量的函数。支持标准有“mse“(均方根误差), “friedman_mse”(mean squared error with Friedman’s improvement score for potential splits), “mae”(平均绝对误差)。
- 必选参数:是
- 默认值:mse
splitter
- 功能描述:用于在每个节点上选择拆分的策略。支持的策略是“best”选择最佳分割,“random”选择最佳随机分割
- 必选参数:是
- 默认值:beat
最大深度
- 功能描述:树的最大深度。如果None,则展开节点,直到所有叶子都是纯的,或者直到所有叶子都包含小于min_samples_split样例
- 必选参数:否
- 默认值:(无)
Min Samples Split
- 功能描述:分割内部节点所需的最小样本数。最小样本数或最小样本百分比
- 必选参数:是
- 默认值:2
Min Samples Leaf
- 功能描述:叶节点上所需的最小样本数。任何深度的分歧点只在它在左右分支中留下至少min_samples_leaf训练样本时才会被考虑。这可能有平滑模型的效果,特别是在回归中。
- 必选参数:是
- 默认值:1
Min Weight Fraction Leaf
- 功能描述:叶节点(所有输入样本)所需权值之和的最小加权分数。当不提供sample_weight时,示例具有相同的权重。
- 必选参数:是
- 默认值:0
Max Features
- 功能描述:在寻找最佳分割时要考虑的特征数量。数值型时为特征数量,浮点数为特征百分比。“auto”(max_features=n_features),“sqrt”(max_features=sqrt(n_features)), “log2”(max_features=log2(n_features))。
- 必选参数:否
- 默认值:(无)
Random State
- 功能描述:random_state是随机数生成器使用的种子。
- 必选参数:否
- 默认值:(无)
Max Leaf Nodes
- 功能描述:以最佳优先方式使用max_leaf_nodes生成树。最佳节点定义为杂质的相对减少。如果没有,则无限数量的叶节点。
- 必选参数:否
- 默认值:(无)
Min Impurity Decrease
- 功能描述:如果分裂导致杂质的减少大于或等于这个值,一个节点就会分裂。
- 必选参数:是
- 默认值:0
presort
- 功能描述:是否对数据进行预压缩,以加快拟合中最佳分割的发现。
- 必选参数:是
- 默认值:0
需要训练
- 功能描述:该模型是否需要训练
- 必选参数:是
- 默认值:true
特征字段
- 功能描述: 特征字段
- 必选参数: 是
- 默认值: (无)
识别字段
- 功能描述: 目标字段
- 必选参数: 是
- 默认值: (无)
使用方法
- 将组件拖入到项目中
- 与前一个组件输出的端口连接(必须是csv类型)
- 点击运行该节点