应用数据科学
提供实用的数据驱动分析科学的广泛实践经验,从基本数据处理、管理、清理和预处理,到分析、低级和高级软件使用,再到结果的评估和报告。
数据科学统计
涵盖的主题包括: 概率法则。离散和连续随机变量。贝叶斯定理。期望、方差和相关性。条件分布和边际分布。常见分布包括正态分布、二项分布和泊松分布。包括最大似然在内的统计估计。假设检验和置信区间。
机器学习 1
涵盖的主题通常包括:参数估计的数值优化;算法无监督学习(例如 k 均值聚类和主成分分析);分类和回归的判别方法;基本参数线性模型(例如广义线性模型)、参数非线性模型(例如决策树)、非参数模型(例如 k-最近邻)和集成方法。
Software technologies for data science
第一部分将介绍数据科学的相关编程语言(例如 Python):通用计算、数据科学基本库的使用(例如 Python 环境下的 Numpy、Scipy、Matplotlib、Scikit-learn)以及底层的数值和性能因素。
第二部分将从存储和计算的角度介绍数据结构、数据库系统和软件技术在可扩展性方面的应用。
应用统计
广义线性混合模型在实际情况中的应用。制定统计问题。选择合适的分析方法,建立模型,验证假设。使用现实生活中的数据。以适当的格式呈现结果。
Statistical design of investigations
了解实验和观察研究设计的统计方面,以及统计分析的相关方法。
统计建模
多元线性回归:一般线性模型、诊断、转换和变量选择的推理技术。广义线性模型:分布的指数族和推理过程。逻辑回归和对数线性模型。混合效应模型:分层和分组数据、嵌套和交叉设计。