阅读量:0
要在Python的pandas库中实现类似于SQL的分组统计,可以使用groupby()和agg()函数
首先,我们需要导入pandas库并创建一个DataFrame。这里是一个简单的例子:
import pandas as pd
data = {'Category': ['A', 'B', 'A', 'A', 'B', 'A', 'B', 'B'],
'Value': [10, 20, 30, 40, 10, 30, 20, 40]}
df = pd.DataFrame(data)
上述代码将创建一个如下所示的DataFrame:
Category Value
0 A 10
1 B 20
2 A 30
3 A 40
4 B 10
5 A 30
6 B 20
7 B 40
现在,我们可以使用groupby()和agg()函数对Category列进行分组统计,并计算Value列的总和、平均值、最小值和最大值。
result = df.groupby('Category')['Value'].agg(['sum', 'mean', 'min', 'max'])
result DataFrame将如下所示:
sum mean min max
Category
A 110 27.5 10 40
B 90 22.5 10 40
在这个例子中,我们使用了agg()函数来指定我们想要对Value列执行的统计操作。你可以根据需要添加或删除统计操作。其他常用的统计操作包括'count'、'median'、'var'和'std'等。
以上就是关于“如何在DataFrame中实现SQL的分组统计”的相关介绍,筋斗云是国内较早的云主机应用的服务商,拥有10余年行业经验,提供丰富的云服务器、租用服务器等相关产品服务。云服务器资源弹性伸缩,主机vCPU、内存性能强悍、超高I/O速度、故障秒级恢复;电子化备案,提交快速,专业团队7×24小时服务支持!
简单好用、高性价比云服务器租用链接:https://www.jindouyun.cn/product/cvm