最近在 Coursera 上学习一门大数据相关的课程 Introduction to Big Data,选择这门课的初衷是,希望系统地了解从数据产生,存储,清理,到输入到机器学习模型,再到用于预测或分析整个过程。
课程背景
制作学校是: University of California, San Diego,两位老师是:
- Ilkay Altintas, Chief Data Science Officer
- Amarnath Gupta, Director, Advanced Query Processing Lab
2位老师都在 San Diego Supercomputer Center (SDSC) 工作,可见具有丰富的学术背景和应用背景,这也是我选择这门课的一个主要原因。
另外值得一提的是,这门课属于一个Specialization(专题)中的第一门课。如果不熟悉Coursera上Specialization的概念,我这里简要介绍一下。就拿这门而言,Introduction to Big Data 是一个Course,包含3 weeks的课,同时,还有其它共6个courses组成了这个Big Data Specialization,这6 courses分别是:
- Introduction to Big Data (3 weeks)
- Big Data Modeling and Management Systems (6 weeks)
- Big Data Integreation and Processing
- Machine Learning with Big Data (5 weeks)
- Graph Analytics for Big Data (4 weeks)
- Big Data - Capstone Project
从课程名称,以及课程大纲的描述中可见,如果学完这个Specialization,可以对Big Data这个领域有个系统、全面的了解。我之前花了几个月,完成了另一个Deep Learning Specialization, 也是收获很大。
Week 1
因为这门课,包括这个专题的目标学生是beginner,所以内容相对比较基础。在这一周里,主要介绍了Big Data是什么,以及可以用来做什么,工作流程,以及一些术语.
- 介绍大数据的组成,其中 unstructured 占80%到90%
- Data warehouse,通常使用hadoop / spark / storm
- 三大数据源:机器、组织和人
- 图数据库, Neo4J
- 大数据metric
Value | Metric |
---|---|
1000 | KB kilobyte |
1000^2 | MB megabyte |
1000^3 | GB gigabyte |
1000^4 | TB terabyte |
1000^5 | PB petabyte |
1000^6 | EB exabyte |
1000^7 | ZB zettabyte |
1000^8 | YB yottabyte |
-
the workflow for working with big data: big data -> better models -> higher precision
-
in situ: bringing the computation to the location of the data
-
What does it mean for a device to be “smart”? Connect with other devices and have knowledge of the environment.
讲师 Ilkay 还讲述了大量Big Data在现实生活的使用案例,比如结合sensor,卫星照片,社交媒体等数据源,发现和定位森林火警。
讲师 Amarnath 讲述了结合社交媒体数据分析的难度,但是可能带来的有趣前景:what new answers we could give, and what new questions we could ask.
小结
第一周主要是讲了什么大数据,以及通常用来解决什么问题。 延伸阅读:25 facts about big data.