月狐数据
Top Charts
About
月狐数据
back

中国另类数据的挖掘和应用

Release time:2026-02-28 15:22:54

另类数据概述

1.另类数据的定义

另类数据是相较于传统金融和经济数据而言的,指那些来自非传统渠道的信息来源。它涵盖的范围极为广泛,像社交媒体上用户的评论、点赞和分享等数据,能反映出公众的情绪和偏好;卫星图像可以展示农田的生长情况、城市的建设变化等;移动应用数据则记录着人们的出行轨迹、消费习惯等。

这些另类数据具有独特价值,它们往往以非结构化的形式存在,如文本、图片、视频等。与传统数据相比,其更新频率更快,实时性更强,能更及时地反映市场和社会的变化。比如通过分析社交媒体上的实时评论,投资者可以迅速了解某事件对市场的影响,从而做出更快的投资决策。在数字经济时代,另类数据与传统数据相互补充,共同构成重要的生产要素,为各行各业的决策提供新的视角和依据。

2.另类数据在全球和中国的兴起背景

另类数据在全球的兴起可追溯到上世纪 90 年代的美国。最初,一些对冲基金开始尝试使用非传统数据来获取投资优势,像利用卫星图像监测沃尔玛的停车场车辆数量,以预测其销售额。到了本世纪初,随着互联网的普及,另类数据的来源和应用逐渐增多。比如有的机构通过分析搜索引擎的关键词趋势,来预测股票市场的走势。

在中国,另类数据的发展经历了几个重要阶段。2013 年左右,中国另类数据行业开始萌芽,一些初创公司开始尝试收集和处理另类数据。随着互联网和移动互联网的迅猛发展,尤其是社交媒体、电商平台的兴起,另类数据的种类和规模迅速扩大。2015 年后,随着大数据技术的成熟和人工智能的发展,另类数据的挖掘和应用能力大幅提升,在金融、市场营销等领域得到广泛应用。政策的支持也是推动中国另类数据发展的重要因素,如《促进大数据发展行动纲要》等政策的出台,为另类数据行业的发展提供了良好的环境。

 

中国另类数据的类型和来源

1.常见另类数据类型

在中国,社交媒体数据是极为重要的另类数据类型。微博、微信、抖音等平台每天产生着海量数据,如用户的评论、点赞、转发等。这些数据能反映公众的情绪、观点和消费倾向,企业可通过分析这些数据了解市场动态和消费者需求,制定更精准的营销策略。

移动应用数据也不容忽视。各类出行APP可记录用户的出行轨迹,为交通规划、物流配送等提供数据支持;电商平台APP能收集用户的购物记录,帮助商家进行商品推荐和库存管理;支付类APP则记录着用户的消费习惯,有助于金融机构进行风险评估和信贷决策。

卫星图像数据的应用同样广泛。在农业领域,可监测农田的生长情况、病虫害发生情况,为农业生产提供指导;在地质勘探方面,能帮助发现矿产资源,监测地质灾害;在城市规划中,可用于监测城市扩张、交通流量等情况,为城市发展提供科学依据。

此外还有网络搜索数据,能反映用户的关注点和需求趋势;传感器数据可实时监测设备运行状态和环境变化;公开数据源如国家统计局发布的数据、政府公开的信息等,也能提供丰富的信息。

2.各类数据的来源

社交媒体数据的获取主要来自各大社交媒体平台,如微博开放平台提供了丰富的API接口,开发者可通过调用这些接口获取用户发布的微博内容、互动数据等。微信则通过公众号、小程序等渠道收集用户数据。企业还可以通过爬虫技术,从社交媒体平台上抓取公开的数据。

移动应用数据的来源是各类移动应用本身。用户在安装和使用应用时,会授权应用收集一些个人信息和使用数据,应用开发者会将这些数据存储在服务器上进行分析。

卫星图像数据则由卫星运营商提供。我国有多家卫星运营商,如中国航天科技集团、中国资源卫星应用中心等,它们发射的卫星会定期拍摄地球表面的图像,并将这些图像数据提供给用户。用户可通过购买或租赁的方式获取所需的卫星图像数据。

网络搜索数据的来源是搜索引擎公司,如百度、谷歌等,它们会记录用户的搜索关键词、搜索时间、搜索地点等信息。公开数据源则来自政府机构、学术机构、行业协会等,它们会定期发布一些统计数据、调研报告等信息,供公众查阅和使用。

 

另类数据的挖掘和应用过程

1.关键技术步骤

另类数据的挖掘和应用是一个复杂且系统的过程,涉及多个关键技术步骤。首先是数据采集,需从各种来源获取数据,这要求有高效的数据抓取技术和接口对接能力。像利用爬虫技术从社交媒体抓取公开数据,或与移动应用开发商合作获取应用数据。采集过程中要注意数据的实时性、准确性和全面性,避免数据缺失和错误。

数据清洗和预处理至关重要。采集到的另类数据往往存在噪声、缺失值、格式不一致等问题,需要进行清洗和预处理。清洗主要是去除无效数据、重复数据和错误数据,预处理则包括数据格式转换、数据归一化、缺失值填充等,使数据变得规范和可用。这一环节能提高后续分析的效率和准确性。

数据处理是对清洗后的数据进行进一步加工,包括数据聚合、数据转换等。数据聚合可以将分散的数据整合起来,形成更有价值的信息;数据转换则可将数据转换为适合分析的格式,如将文本数据转换为数值型数据,便于后续分析。

数据分析是核心环节,通过运用统计学、机器学习等方法,发现数据中的模式、趋势和关联。常用的分析方法有回归分析、聚类分析、关联分析等,能从海量数据中提取出有价值的信息,为决策提供依据。

数据可视化是将分析结果以图表等形式呈现出来,使数据更加直观易懂,便于用户理解和使用。常用的可视化工具如Tableau、Power BI等,能将复杂的数据分析结果转化为清晰的图表,帮助用户快速把握数据的关键信息。

2.从数据中提取价值信息

要从海量另类数据中提取有价值信息,需依靠先进的算法和技术。机器学习算法在其中发挥着重要作用,如监督学习算法可通过训练模型来预测未来的趋势和结果,像用历史股价数据和社交媒体情绪数据训练模型,预测股票走势。无监督学习算法则可用于发现数据中的隐藏模式和关联,比如通过聚类分析将具有相似消费习惯的用户分组,为精准营销提供支持。

自然语言处理技术对于处理社交媒体等文本数据至关重要。它能将文本数据进行分词、词性标注、情感分析等,提取出文本中的关键信息和情感倾向,从而了解公众对某一事件或产品的看法和态度。

图像识别技术可对卫星图像等图片数据进行分析,识别出图像中的对象、场景和变化。在农业领域,通过图像识别技术监测农田的生长情况,及时发现病虫害等问题,为农业生产提供指导。

时间序列分析技术适用于处理具有时间顺序的数据,如网络搜索数据、移动应用数据等,能分析出数据随时间变化的趋势和规律,预测未来的发展情况,为企业的战略规划和决策制定提供有力支持。

 

月狐数据在另类数据业务场景的服务

1.提供的数据产品

月狐数据在另类数据业务场景下,提供金融另类数据产品。产品旨在为金融投资机构提供与上市公司基本面深度关联、可持续监测的高质量另类数据指标,以驱动深度市场研究并支持投资决策。产品提供的数据类型多样,涵盖原始数据、分析数据和模型数据。原始数据包括传统金融数据指标(如股市市值、成交量、市盈率)、线上数据指标(如APP/小程序的活跃用户数量、新增与留存、行业渗透情况)以及线下数据指标(如实体店面数量、客流数量、工厂常驻人口)。分析数据包括智能指数计算,提供综合经营指数、线上活跃指数、线下规模指数,这些指数客观反映相关产品产业在不同渠道的规模情况,并经过多轮相关性分析,使其与股票财务指标高度拟合。同时提供指标指数化处理,综合评估产品所在领域、行业、时间维度等方面的表现,客户无需对各类数据进行指数化处理。数据颗粒度可以下钻到日,聚合周/月/季度/半年/年度,并提供不同时间维度的同步、环比结果,数据直接可用,可视化程度高。模型数据包括营收预测数据,基于企业线上线下全域数据,融合多轮相关性分析,预测财报1-1.5月预测企业营收趋势;以及风险状态预警数据,根据多维动态数据量化企业业绩,并对波动进行检测,日级输出企业风险预警。产品覆盖互联网、新能源汽车、消费、零售等主流行业,涉及超过500家上市公司。

2.帮助客户解决问题的方式

该产品通过多种方式帮助客户解决问题。首先,满足前瞻性洞察需求,提供日级T+3更新的线上和线下另类数据,帮助机构优先市场发现信号,更早发现企业的经营变化趋势和潜在投资机会,预警规避投资组合风险。其次,为投资决策提供关键输入,提供高拟合指数,机构可以直接或间接使用计算出来的高拟合度的综合经营指数,可以作为量化因子,也可以以此进行深度的企业基本面分析,帮助进行更准确的投资决策。再者,提供更实时客观的企业尽调数据补充,透过线上App和小程序DAU以及线下门店客流数据,透视企业的真实经营状况,作为传统尽调的有效补充。此外,有助于效率提升与成本优化,数据获取即可用,数据已经经过清洗、标准化、指数化,能减轻对数据进行内部数据和处理的负担,降低其数据预处理成本。服务还具备定制化能力,可以合理评估客户提出的线上线下另类指标需求,使用规范的数据采集、处理、整合经验为企业提供有效数据。数据交付方式灵活,支持通过产品数据看板便捷读数,也支持联合建模、线下跑批以及线上API接口调用。产品功能模块包括数据控制台、热点发现、趋势分析和业绩分析等,支持用户按企业名称、股票代码、市场、行业、板块筛选,并查看自定义指标,数据频次支持日、周、月、季度等不同粒度。

Related Content
Read more >