名称: datacommons-client 描述: 使用 Data Commons,一个提供程序化访问来自全球来源的公共统计数据的平台。当处理人口统计数据、经济指标、健康统计、环境数据或任何通过 Data Commons 可用的公共数据集时,使用此技能。适用于查询人口统计、GDP 数字、失业率、疾病流行率、地理实体解析以及探索统计实体之间的关系。
Data Commons 客户端
概述
提供对 Data Commons Python API v2 的全面访问,用于查询统计观察、探索知识图谱和解析实体标识符。Data Commons 将来自人口普查局、卫生组织、环境机构和其他权威来源的数据聚合到统一的知识图谱中。
安装
安装支持 Pandas 的 Data Commons Python 客户端:
pip install "datacommons-client[Pandas]"
对于不使用 Pandas 的基本用法:
pip install datacommons-client
核心能力
Data Commons API 包括三个主要端点,每个在专用参考文件中详细说明:
1. 观察端点 - 统计数据查询
查询实体的时间序列统计数据。请参阅 references/observation.md 以获取完整文档。
主要用例:
- 检索人口、经济、健康或环境统计数据
- 访问历史时间序列数据以进行趋势分析
- 查询层次结构的数据(州中的所有县、区域中的所有国家)
- 比较多个实体的统计数据
- 按数据源过滤以确保一致性
常见模式:
from datacommons_client import DataCommonsClient
client = DataCommonsClient()
# 获取最新人口数据
response = client.observation.fetch(
variable_dcids=["Count_Person"],
entity_dcids=["geoId/06"], # 加利福尼亚州
date="latest"
)
# 获取时间序列
response = client.observation.fetch(
variable_dcids=["UnemploymentRate_Person"],
entity_dcids=["country/USA"],
date="all"
)
# 按层次结构查询
response = client.observation.fetch(
variable_dcids=["MedianIncome_Household"],
entity_expression="geoId/06<-containedInPlace+{typeOf:County}",
date="2020"
)
2. 节点端点 - 知识图谱探索
探索知识图谱中的实体关系和属性。请参阅 references/node.md 以获取完整文档。
主要用例:
- 发现实体的可用属性
- 导航地理层次结构(父/子关系)
- 检索实体名称和元数据
- 探索实体之间的连接
- 列出图谱中的所有实体类型
常见模式:
# 发现属性
labels = client.node.fetch_property_labels(
node_dcids=["geoId/06"],
out=True
)
# 导航层次结构
children = client.node.fetch_place_children(
node_dcids=["country/USA"]
)
# 获取实体名称
names = client.node.fetch_entity_names(
node_dcids=["geoId/06", "geoId/48"]
)
3. 解析端点 - 实体识别
将实体名称、坐标或外部 ID 转换为 Data Commons ID(DCIDs)。请参阅 references/resolve.md 以获取完整文档。
主要用例:
- 将地名转换为 DCIDs 以进行查询
- 解析坐标到地点
- 映射 Wikidata ID 到 Data Commons 实体
- 处理歧义实体名称
常见模式:
# 按名称解析
response = client.resolve.fetch_dcids_by_name(
names=["California", "Texas"],
entity_type="State"
)
# 按坐标解析
dcid = client.resolve.fetch_dcid_by_coordinates(
latitude=37.7749,
longitude=-122.4194
)
# 解析 Wikidata ID
response = client.resolve.fetch_dcids_by_wikidata_id(
wikidata_ids=["Q30", "Q99"]
)
典型工作流程
大多数 Data Commons 查询遵循此模式:
-
解析实体(如果从名称开始):
resolve_response = client.resolve.fetch_dcids_by_name( names=["California", "Texas"] ) dcids = [r["candidates"][0]["dcid"] for r in resolve_response.to_dict().values() if r["candidates"]] -
发现可用变量(可选):
variables = client.observation.fetch_available_statistical_variables( entity_dcids=dcids ) -
查询统计数据:
response = client.observation.fetch( variable_dcids=["Count_Person", "UnemploymentRate_Person"], entity_dcids=dcids, date="latest" ) -
处理结果:
# 作为字典 data = response.to_dict() # 作为 Pandas DataFrame df = response.to_observations_as_records()
查找统计变量
统计变量在 Data Commons 中使用特定的命名模式:
常见变量模式:
Count_Person- 总人口Count_Person_Female- 女性人口UnemploymentRate_Person- 失业率Median_Income_Household- 中位家庭收入Count_Death- 死亡计数Median_Age_Person- 中位年龄
发现方法:
# 检查实体可用的变量
available = client.observation.fetch_available_statistical_variables(
entity_dcids=["geoId/06"]
)
# 或通过 Web 界面探索
# https://datacommons.org/tools/statvar
使用 Pandas
所有观察响应都与 Pandas 集成:
response = client.observation.fetch(
variable_dcids=["Count_Person"],
entity_dcids=["geoId/06", "geoId/48"],
date="all"
)
# 转换为 DataFrame
df = response.to_observations_as_records()
# 列:日期、实体、变量、值
# 重塑以进行分析
pivot = df.pivot_table(
values='value',
index='date',
columns='entity'
)
API 认证
对于 datacommons.org(默认):
- 需要 API 密钥
- 通过环境变量设置:
export DC_API_KEY="your_key" - 或在初始化时传递:
client = DataCommonsClient(api_key="your_key") - 在 https://apikeys.datacommons.org/ 请求密钥
对于自定义 Data Commons 实例:
- 不需要 API 密钥
- 指定自定义端点:
client = DataCommonsClient(url="https://custom.datacommons.org")
参考文档
每个端点的完整文档可在 references/ 目录中找到:
references/observation.md:完整的 Observation API 文档,包含所有方法、参数、响应格式和常见用例references/node.md:完整的 Node API 文档,用于图探索、属性查询和层次导航references/resolve.md:完整的 Resolve API 文档,用于实体识别和 DCID 解析references/getting_started.md:快速入门指南,包含端到端示例和常见模式
其他资源
- 官方文档:https://docs.datacommons.org/api/python/v2/
- 统计变量浏览器:https://datacommons.org/tools/statvar
- Data Commons 浏览器:https://datacommons.org/browser/
- GitHub 仓库:https://github.com/datacommonsorg/api-python
有效使用技巧
- 始终从解析开始:在查询数据之前将名称转换为 DCIDs
- 使用关系表达式处理层次结构:一次性查询所有子实体,而不是单个查询
- 首先检查数据可用性:使用
fetch_available_statistical_variables()查看可查询内容 - 利用 Pandas 集成:将响应转换为 DataFrame 以进行分析
- 缓存解析:如果重复查询相同实体,存储名称→DCID 映射
- 按面过滤以确保一致性:使用
filter_facet_domains确保来自同一源的数据 - 阅读参考文档:每个端点在
references/目录中有详细文档