>> 必修课程
统计学和机器学习 1:统计学基础
该模块包括旨在交流统计和机器学习关键思想的讲座和实践课程,学生将在实践课程中应用并在简单的情况下开发 Python 工具,并在适当的情况下使用其他行业标准语言。有五个主要部分:
• 从概率角度思考:数据的随机变量、分布和模型
• 探索性数据分析:数据种类、描述性统计和可视化工具
• 统计估计:点估计、偏差、最大似然估计、差异检验、置信区间和假设检验、贝叶斯估计、先验和后验分布、共轭先验。
• 模型的比较和选择:线性回归、广义线性回归、拟合优度和预测能力的测量、模型比较、半参数和非参数方法的概括以及层次和空间模型、过度拟合和正则化。
• 专题:专题:根据教学人员的不同,将选择一个专题来更深入地展示一般概念。一个可能的例子是社交网络:网络和它们的统计模型,包括随机图和指数随机图模型;网络统计,包括度分布、同质性和传递性。
了解数据及其环境
该模块是技术和非技术主题的组合,所有主题都与数据分析过程的关键外部性相关。该模块的主要目的是证明数据科学不能在真空中进行,所有外部因素都会影响我们进行我们希望进行的研究的能力。然而,对这些外部性的适当管理可以带来更高质量和更负责任的研究。该课程将包含 4 个组成部分:
1. 道德与法律:数据保护、匿名化、统计披露、理解同意
2. 关于数据的信息:元数据和paradata。出处和数据生成过程;关于数据质量的问题和对推理的影响;访问和查找数据
3. 预处理:了解数据质量和分歧以及对推理的影响;清理数据;编辑和插补模型
4. 合并和增强数据:数据链接/集成的基础知识
应用数据科学
学生应该能够:
• 描述与组织合作解决涉及数据分析的问题的关键问题
• 当数据是关键项目组成部分时,描述和应用项目管理的方法和过程
• 开发数据驱动报告的通信方法
• 发展多学科团队合作能力
• 使用科学知识、主动性和技能管理解决问题和提供解决方案的任务
• 报告和培养演讲技巧
• 与合作伙伴沟通并制定项目规范
• 在团队工作和跨学科工作中进行协作
了解数据库
该单元旨在解决数据库在组织中的理论和作用,并帮助学生获得以下方面的实践经验:
- 根据关系原则设计和实现数据库以解决实际问题
- 设计和实施非关系格式的数据库
- 使用现代数据库管理系统、MySQL、Python 和 PHP 进行数据库编程
- 为数据密集型系统设计和实现分布式数据库
统计与机器学习 2:人工智能、复杂数据、计算密集型统计
该模块以讲座和实践课程的混合形式提供,有五个主要部分:
降维与特征提取:主成分分析、特征选择、信息论
分类器和聚类:监督和非监督学习、k 均值和 k 近邻、凝聚聚类和树状图、支持向量机、线性和二次判别式、高斯过程分类、基于模型的聚类、混合模型和 EM 算法
神经网络和深度学习:感知器、反向传播和多层网络
马尔可夫链蒙特卡罗 (MCMC) 方法:马尔可夫链及其平稳分布、使用 Metropolis-Hastings 算法的基于似然的推理、使用近似贝叶斯计算的无似然推理、收敛测试、贝叶斯推理的应用
专题:根据教学人员的不同,选择一个专题进入近研究深度,例如随机森林;社交网络; 先进的蒙特卡洛方法
>> 选修课程
数学规划与优化
知识管理和数字战略
使用 Python 进行业务分析编程
模拟与风险分析
财务数据分析和人工智能