数据采集

如果你做量化投资,基于大数据预测未来股票的波动,根据这个预测结果进行买卖

你当前能够拿到以往股票的所有历史数据,是否可以根据这些数据做出一个预测率高的数据分析系统呢?

显然是不能的。因为一些事件也会对当时的股价产生重大影响,比如SARS、新冠、战争等

因此我们需要考虑到,一个数据的走势,是由多个维度影响的。我们需要通过多源的数据采集,收集到尽可能多的数据维度,同时保证数据的质量,这样才能得到高质量的数据挖掘结果

数据来源

  • 开放数据源
    • 单位维度,如:政府、企业、高校等
    • 行业维度,如:交通、金融、房地产等
    • 不知道如何找开放数据源,可以直接在搜索引擎搜索,比如:金融开放数据源
  • 爬虫
    • 网页、App
  • 日志采集
    • 前端采集、后端脚本(包括提取业务数据)
  • 传感器
    • 图像、测速、热敏
  • 其他
    • 问卷调查、市场调研等

单位维度开放数据源

单位 数据源 网址
美国人口调查局 提供人口信息、地区分布和教育情况等美国公民相关的数据 http://www.census.gov/data.html
欧盟 欧盟开放数据平台,提供欧盟各机构的大量数据 http://open-data.europa.eu/en/data/
Facebook Facebook官方提供的API,用于查询该网站用户公开的海量信息 https://developers.facebook.com/docs/graph-api
Amazon 亚马逊网络服务开放数据源 http://aws.amazon.com/datasets
Google 谷歌金融,收录了40年以来的股票数据,实时更新 https://www.google.com/finance
北京大学 北京大学开放研究数据平台 http://opendata.pku.edu.cn/
ImageNet 目前世界上图像识别最大的数据库 http://www.image-net.org/

Python爬虫

Python爬虫

results matching ""

    No results matching ""