数据科学编程 | DSCI 511
使用 Python 进行程序设计和数据操作。与数据探索和分析相关的数据结构、迭代、流程控制和程序设计的概述。何时以及如何利用预先存在的库。
数据科学计算平台 | DSCI 521
如何安装、维护和使用数据科学软件“stack”。Unix shell、版本控制和问题解决策略。识字编程文档。
数据操作编程 | DSCI 523
使用 R 进行程序设计和数据操作。组织、过滤、排序、分组、重新格式化、转换和清理数据,为进一步分析做好准备。
数据科学的描述性统计和概率 | DSCI 551
概率的基本概念,包括条件分布、联合分布和边际分布。来自概率分布的数据的统计视图。
算法与数据结构 | DSCI 512
如何选择和使用合适的算法和数据结构来帮助解决数据科学问题。递归和算法复杂性(例如,效率、可扩展性)等关键概念。
数据可视化 I | DSCI 531
探索性数据分析。设计有效的静态可视化。R 和 Python 中的绘图工具。
统计推断与计算 I | DSCI 552
推理的统计和概率基础,通过数学推导和模拟技术共同发展。重要分布和大样本结果。处理多重测试问题的方法。常客范式。
监督学习 I | DSCI 571
监督机器学习简介。基本的机器学习概念,例如泛化误差和过度拟合。各种方法,例如 K-NN、决策树、线性分类器。
数据库和数据检索 | DSCI 513
如何使用存储在关系数据库系统中的数据。存储结构和模式、数据关系以及查询和聚合此类数据的方法。
数据科学工作流程 | DSCI 522
交互式与脚本化/无人值守分析以及如何在它们之间流畅地移动。通过自动化和容器化实现可重复性。
回归 I | DSCI 561
具有多个分类和/或定量预测变量的定量响应变量的线性模型。线性回归的矩阵公式。模型评估和预测。
特征和模型选择 | DSCI 573
如何评估和选择特征和模型。交叉验证、ROC 曲线、特征工程和正则化。