首页    Dipa    Dipa数据分析、挖掘平台
DIPA

Dipa数据分析、挖掘平台

产品介绍

Dipa是用于数据科学计算、分析及挖掘的软件平台,能够简单地针对数据分析过程进行可视化构建,并提供可执行数据流计算及管控,产品可以处理和集成各类数据,进行数据分析与挖掘工作,涵盖大数据、图像处理、文本分析等多个领域。该平台严格遵守软件工程标准所创建的健壮、模块化、高度可扩展平台,其中包含各种数据加载、转换、分析和数据探索模型库,可以使用直观的拖放式图形建模界面,创建可视化工作流程,具备高度自动化,而无需进行手动编码,实现数据分析的完全自动化。

 

 

1 功能示意图

主要功能

  • 数据分析及挖掘的工作流程的建立
  • 支持混合多种来源的数据集成分析
  • 数据清理
  • 数据预处理
  • 集成机器学习和AI模型算法并支持通过AI算法框架集成
  • 数据挖掘
  • 生成可视化数据

 

主要特点

  • 采用直观的拖放式图形建模界面实现可视化数据分析工作流程创建
  • 允许自动化执行工作流,完成处理分析部署存储
  • 允许直观,可视的工作流环境中连接到不同的数据源
  • 创建的数据分析工作流程会自动执行数据分析级整理过程
  • 支持多种算法(包括深度学习,基于树的方法和逻辑回归)
  • 涵盖各种数据分析功能-例如分类,回归,降维或聚类
  • 集成用于深度学习的Keras或Tensorflow,用于编码的Python

 

支持多种数据源

平台可以将文本文件,数据库,文档,图像,网络爬虫数据,甚至基于Apache Hadoop的数据组合在同一个可视化工作流中进行数据处理。在建立的数据分析流程模型中,使用模块化模型节点的方式,链接来自不同来源的数据,支持打开处理简单的文本格式(CSV,PDF,XLS,JSON,XML等),非结构化数据类型(图像,文档,网络等),时间序列数据等,实现数据的导入与整合,完成数据的准备收集工作。

 

表格1 可读取文件格式

 

 

集成不同编程语言和工具

 

2 编程语言与工具整体框架

 

 

平台集成R和Python,在工作流中包含使用R和Python代码的节点,可自主编码实现个性化功能;使用大数据整合集成Apache Hadoop,Spark,还包括深度学习框架和其他机器学习库(H2O,Weka等)。

 

 

表格2 编程语言与工具

 

 

支持机器学习和人工智能

平台可建立机器学习模型,用于分类,回归,降维或聚类,使用先进的算法,包括深度学习,基于树的方法和逻辑回归。应用绩效指标,包括精度,R²,AUC和ROC,进行交叉验证以确保模型的稳定性;并且可直接使用经过验证的模型做出预测。

 

 

表格3 AI框架与网络

 

采用标准服务化结构生成动态可视化数据

DIPA平台与DataVis结合实现数据的可视化,DataVis采用可配置仪表盘技术,实现可视化组建的自由组合及数据匹配。DIPA完成数据挖掘工作并生成可视化数据,将数据存储在excel文件或其他格式文件中并实现OSLC开发生命周期服务标准服务化,DataVis通过调用文件或OSLC服务,并完成数据的可视化工作。如下图所示案例用于分析自动刹车体系,实现MBSE的数据分析与可视化。基于多架构建模方法完成刹车体系架构模型构建的基础上,DIPA平台读取自动刹车体系的架构模型中的组件模型以及体系的任务场景有限状态机仿真数据、体系架构模型的指标验证数据和simulink仿真数据,完成模型参数信息的提取和仿真、验证数据与模型信息的匹配,匹配后的数据进行机器学习训练,初步支持简单决策。OSLC调用数据文件,数据输出至DataVis平台完成配置与可视化。

 

3 案例流程示意图

 

功能与方法的多样性

平台包含大量的扩展提供对复杂数据类型(图像,文本,文档,时间序列和序列,音频等)的集成,以及机器学习算法开发和训练,还支持其他开源项目集成。如,Apache Spark的Dipa集成使用户可以在Dipa分析平台中建模和运行Apache Spark任务,为用户的Dipa环境带来灵活的分析能力。DipaR和Python的集成使用户可以将R或Python代码片段作为Dipa工作流整体的一个部分。支持构建预测模型,将该模型应用于新模型数据,或创建其他类型的可视化。平台包含深度学习节点,支持创建,编辑,训练和执行深度神经网络,提供了对多种深度学习框架的访问,例如TensorFlow,Keras,CNTK等。

 

4 软件界面

 

5 软件界面

 

样例列表