秋季(第一学期)
行业实践
MSiA学生正在从事行业提供的实习项目。该计划与行业合作伙伴紧密合作,共同开发一个项目,使学生有机会将其并行课程直接投入实践。学生直接与公司数据科学团队合作,确定项目范围,向客户提出详细的建议,评估和清理数据(必要时重新检查范围),进行分析,并在最终演示过程中提供可交付成果。学生必须定期与客户,教职技术顾问和业务顾问会面。
Everything Starts with Data
通过项目和成功案例涵盖基本分析概念的入门课程
本课程的重点是通过多个项目使学生面对分析方面的挑战和机遇。大部分材料和讲授将基于计算机。
1.确定基于分析的项目的主要组成部分
2.了解所有涉及的过程
3.与可交付成果见面
4.与“客户”一起工作
5.创造性地考虑数据的潜在业务价值
数据库和信息检索简介
数据模型和数据库设计;SQL,分布式数据库和信息检索
教给“数据科学”从业者必不可少的数据工程技能,尤其是如何使用SQL语言在现代关系数据库管理系统(例如MySQL,postgress)中建模,组织,存储和分析数据。
学生将使用复杂的数据模式(例如GPS坐标,UTF-8,整数,浮点数)访问和分析现实世界的数据集(例如Yelp,stackoverflow)
尽管我们可能会在适当的时候不时地深入研究数据库系统的内部工作,并讨论它们的构建方式和所使用的算法,但这并不是重点
与数据有关,但与统计信息,可视化或编程无关(SQL除外,这将进行详细介绍)
课程目标
了解标准数据格式(例如,整数,FP,定点,UTF-8,时间,JSON,XML)的表示细节和操作
对复杂的数据集及其关系建模,以创建有效的关系数据库
使用一系列SQL表使用实际数据创建和填充数据库
使用SQL访问和分析关系数据库中的复杂数据(选择,联接,集合,量词,谓词,视图,网络上的递归查询)
在SQL中设计和执行数据完整性规则(级联,空值,触发器,异常,冲突解决)
使用在线交易访问数据
了解并有效使用现代系统优化(索引,分区,内存层次结构)
预测分析I
该课程涵盖多元回归,逻辑回归,判别分析,广义线性模型和Cox比例风险回归。R软件用于将这些方法应用于实际数据集。需要一个涉及大型数据集预测模型的小组项目。
面向对象的编程,数据结构和算法
课程目标
学习使用常见的参数回归和分类建模技术来开发用于中型到大型数据集的预测模型。
了解这些方法背后的一些基本理论
Java和Python编程简介
面向对象的编程,数据结构和算法。
冬季学期
行业实践
通过分析产生业务价值
关于分析和强大的沟通技巧如何推动业务价值的一门实用课程
当今的企业已经“疯狂数据”,投入大量资源寻求更好,更快的信息以及可操作的深刻见解。
许多人认为,数据是“新油”,助长了当今的行业和关键任务功能。
但是,在这种数据丰富的环境中成功的人不会仅仅因为可用数据的数量和速度而参与分析。
相反,当今在分析上很成功的公司专注于数据如何产生业务价值
课程目标
了解分析与业务价值之间的联系
制定使用分析法解决重要业务问题的策略,
认识到不同业务环境中分析决策的差异,并且
成为更有效的分析从业人员和沟通者,帮助企业实现目标
数据可视化
可视化原理,记分卡,仪表板,与图形的交互,讲故事和D3
企业,政府实体和人类活动正在以越来越高的速度和越来越复杂的方式生成各种数据。
本课程的目的是向学生介绍关键的设计原理和技术,这些原理和技术可以增进对复杂数据的理解,并获得有关数据的宝贵见解。
良好的可视化效果可以直观地解释数据,还可以提高理解,沟通和决策的能力。
将介绍用于创建有效数据可视化的概念,技术和方法。
本课程还将着重于如何清晰有效地呈现信息。
数据挖掘
clustering (k-means, partitioning, mixture models), dimension reduction (principal components/factor analysis), recommender systems (association rules, content-based and collaborative filtering, matrix decomposition methods), and customer lifetime value.
课程是有关统计学习模型的三门课程序列的一部分,
该课程包括MSiA 401(数据挖掘的统计方法)和420(预测分析)。
课程将定义“数据挖掘”,并讨论其与“概率/统计模型”的关系。
两种方法都包括两种类型的模型,即 监督学习模型,其目的是在多个观测变量的联合密度中发现结构并对其建模。
课程的重点是理解和使用无监督的学习方法,并将这些方法应用于公司的大型真实世界数据集。
班级通常将这些方法应用于涉及客户细分,个性化联系点和量化这些行为的长期影响的项目。
预测分析II
非参数回归和分类方法,包括基本概念,各种非线性预测建模方法和算法以及对结果的理解和解释。时间序列预测简介。
春季学期
行业实践
分析价值链
本课程教授将基于机器学习的解决方案从概念转移到生产应用程序以及A / B测试和实验设计所需要的内容
从数据科学中获取价值不仅仅需要开发完美的算法。
实际上,分析只是分析价值链中的一步。
该课程将教数据科学家如何将基于机器学习的解决方案从POC转移到生产以及实验设计,以确保已部署的解决方案对关键业务指标产生预期的影响。
课程目标
编写生产就绪代码
应用最佳实践进行代码和模型测试以及质量保证
应用支持数据科学和机器学习的数据基础架构原理
使用云服务开发和部署机器学习模型
在模型生命周期的每个步骤最大化价值
开发可再现的机器学习模型
建立有效的数据管道以支持模型开发和部署
设计有效的实验以测试新的软件功能和机器学习模型
大数据分析
着重于Hadoop,非结构化数据概念(键值),MapReduce技术和大数据分析
课程目标
了解分布式计算和数据库
在MapReduce中实施复杂的算法
使用配置单元
使用NoSQL数据库Hbase
使用Spark
商业智能数据管理简介
在线分析处理(OLAP),尺寸建模和数据流。
深度学习
深度学习模型(生成式和区分式),CNN,RNN和反向传播。
夏季学期
10周的实习
秋季学期(第二年)
Capstone Design Project
数据科学家的领导力见解和技能
本课程借鉴了数十年来有关情商的研究和最佳实践。
有效的领导要求我们在与他人的关系中发挥最大的才能,既要担任正式的领导角色,又要与同事进行非正式的日常互动
本课程旨在提高学生的自我意识,了解他人的能力以及他们自己的行为如何影响他们与他人的互动。
教师领导者充当教练和促进者的角色,通过一系列顺序的体验练习,个人反思任务,小组讨论和课堂讨论以及最终小组项目来指导学生。
如果认真对待,学生应该更清楚地了解自己作为领导者的身份(正式或非正式),在特定的专业情况下必须提供的条件以及与同事建立富有成效的关系的工具。
Text Analytics
介绍各种实用的自然语言处理任务/技术,重点关注行业主题和最新系统。
Elective选修
人工智能的强化学习,
医疗保健分析
信用风险管理的预测模型
优化与启发式或社交网络分析