猎鹰数据挖掘平台
-
成交量
-
综合评价
-
-
好评率
北京普开数据技术有限公司
服务范围: 网站定制开发 APP开发 微信开发 H5开发 网站UI设计 大数据解决方案 数据收集和分析 数据资产管理 数据展现
-
成交量
-
成交额
-
好评率
数据格式 - 文本 、 语音 、 图像 、 视频
服务领域 - 金融服务 、 零售行业 、 公共事务 、 其它
一、功能介绍
本项目提供的猎鹰数据挖掘平台系统,提供了一系列核心算法,包括并行ETL算法,并行数据挖掘算法,并行数据探索,数据交换等功能。其中:
并行ETL算法包括:断行清洗、空行过滤、最优离散化、因子分析、标准化(分最大最小和正态化两个功能)、连续化、逆归一化、去极值、Join组件支持多表关联、基于字段的去重、属性选择算法等40余个算法。
并行数据挖掘算法提供了分类、聚类、关联规则、CART决策树和CHAID决策树等常用并行挖掘算法。
并行数据探索算法实现了集中趋势探索、离散趋势探索、分布趋势探索,并完成单个统计算法和相关性分析。单变量和多变量。其中集中趋势探索包括:包括合计、计数、算术均值、众数、中位数、百分位数、四分位数等;离散趋势探索包括:最大值、最小值、全距、方差、标准差等;分布趋势探索包括:峰度和偏度;单个统计算法,计算每个变量值的频数和百分比;相关性分析包括:单变量分析(计算协方差)和多变量分析(计算皮尔逊积矩相关系数)。
数据交换是提供从云平台导出数据到RDBMS和从RDBMS导入数据到云平台的功能。
同时还包括其它一些功能,例如任务监控、调度系统、用户管理等。
数据挖掘界面中的每个算法由组件的形式组成,单机可以将左边栏的算法组件拖动到右侧画布中,双击组件图标可以打开组件配置面板,右键单机组件可以运行当前流程或者删除该组件。
二、数据库导入
测试数据要求必须是关系型数据库(目前只支持Mysql和Oracle)中的数据表。
选择左侧功能栏的数据库导入FS按钮,弹出数据库导入FS配置框,如图 2.1‑3所示:
三、并行分类算法
并行分类算法模块包括:层次C45 决策树分类器、朴素贝叶斯分类器、线性回归分类、神经网络分类器、Pchaid分类器、Pcart分类器、Pfs分类器,同时还包括自动分类器。四期优化了神经网络和线性回归算法,增加了分类算法混淆矩阵。
四、样例流程说明
demo_NaiveBayes样例流说明
数据说明:
训练数据和测试数据为汽车质量分类数据,其中第一列为类标号列(unacc、acc、vgood、good),其余列为属性列(共6列,分别表示汽车的不同属性参数),
测试数据路径为 demoData/demo_classifier/CarTrain.txt
训练数据路径为 demoData/demo_classifier/CarTest.txt
数据样例如下表:
unacc | vhigh | 2, | 2 | small | Med | vhigh |
Unacc | Vhigh | 2 | 2 | Med | Low | vhigh |
Unacc | Vhigh | 2 | 2 | Med | High | Vhigh |
good | Low | 5more | 4 | Big | Med | low |
Acc | Low | 3 | More | Big | High | vhigh |
Vgood | Low | 2 | 4 | Big | High | med |
流程展示
该流程主要是完成汽车质量数据的训练和测试
流程结果展示
文本展示训练数据所建立的模型:
饼图展示测试结果预测出的类别比例
柱形图展示测试结果预测出的每个类别数
- 综合得分0.00
- 技术能力0.00
- 完成质量0.00
- 如期兑现0.00
- 响应速度0.00
- 沟通能力0.00
- 合作精神0.00