数据采集
如果你做量化投资,基于大数据预测未来股票的波动,根据这个预测结果进行买卖
你当前能够拿到以往股票的所有历史数据,是否可以根据这些数据做出一个预测率高的数据分析系统呢?
显然是不能的。因为一些事件也会对当时的股价产生重大影响,比如SARS、新冠、战争等
因此我们需要考虑到,一个数据的走势,是由多个维度影响的。我们需要通过多源的数据采集,收集到尽可能多的数据维度,同时保证数据的质量,这样才能得到高质量的数据挖掘结果
数据来源
- 开放数据源
- 单位维度,如:政府、企业、高校等
- 行业维度,如:交通、金融、房地产等
- 不知道如何找开放数据源,可以直接在搜索引擎搜索,比如:金融开放数据源
- 爬虫
- 网页、App
- 日志采集
- 前端采集、后端脚本(包括提取业务数据)
- 传感器
- 图像、测速、热敏
- 其他
- 问卷调查、市场调研等
单位维度开放数据源
单位 | 数据源 | 网址 |
---|---|---|
美国人口调查局 | 提供人口信息、地区分布和教育情况等美国公民相关的数据 | http://www.census.gov/data.html |
欧盟 | 欧盟开放数据平台,提供欧盟各机构的大量数据 | http://open-data.europa.eu/en/data/ |
Facebook官方提供的API,用于查询该网站用户公开的海量信息 | https://developers.facebook.com/docs/graph-api | |
Amazon | 亚马逊网络服务开放数据源 | http://aws.amazon.com/datasets |
谷歌金融,收录了40年以来的股票数据,实时更新 | https://www.google.com/finance | |
北京大学 | 北京大学开放研究数据平台 | http://opendata.pku.edu.cn/ |
ImageNet | 目前世界上图像识别最大的数据库 | http://www.image-net.org/ |