GitHub、Gitee 数据揭秘开源世界 "人口普查",中国开发者排名第几?
前言
当写下这篇文章时,GitHub 和 Gitee 的服务器集群还在不停轰鸣,每小时全球有 5000 多个 PR 将超过 600 万行代码变更合入到这些开源代码托管平台之中。
从 Kubernetes 开始重构全球云计算版图,到 PyTorch 取代 MATLAB 的学术霸权、从 Hadoop 拉开大数据热潮的序幕,到 DeepSeek 开源引发中美科技竞速,过去十年浩浩荡荡的开源大潮,早已超越了技术迭代的范畴,每个开发者地域标签的背后,隐藏的是全球开源开发者的快速增长与变迁。然而全球有多少开发者,他们都在哪里,在做什么,却一直如同一团迷雾笼罩在开源生态研究者的头顶。
本文旨在通过对 GitHub 和 Gitee 平台十年数据的考古,利用 Issue、PR 的 网络来编织一幅技术地缘的图景,带你走进那个尚不清晰的开源开发者世界。
本文将给出如下一些数据要点:
- 全球泛开发者总量已超过 1 亿,开源开发者数量超过 2200 万人。
- 中国开发者数量超 1000 万人,开源开发者总量约 198 万人,紧随美国、印度均位居全球第三。
- 2024 年中国开源开发者影响力与贡献度排名全球第二,增速分别为 4.24% 与 7.48% 为全球最快。
并且从过去十年的趋势来看,世界开源格局正在发生剧变:
- 美国凭借其强大的科技力量与先发优势在开源开发者的各项指标中依然占据绝对的领先位置,但无论是影响力还是贡献度在近年来都出现了明显下滑。
- 中国开源开发者数量稳步增长,总规模已将近 200 万人。数量上虽然被印度超越,但影响力和贡献度均稳居全球第二,并且拥有全球最快增速,正在快速缩小与美国之间的差距,并快速拉开与其他国家间的距离,标志着中国开源进入高质量发展时期。
- 德国、英国、法国、加拿大、荷兰等传统强国凭借其扎实的基础在各指标中都稳居全球前十,并且保持平稳的发展趋势。
- 俄罗斯参与到全球开源生态中的开发者数量相当可观,但受到地缘政治等各种因素影响,其影响力和贡献度都无法与其开发者体量匹配。
- 印度、巴西和印度尼西亚已经成为 了不可忽视的开发者大国,近年来显现出强劲的增长势头,虽然开发者数量优势明显,但相较而言其影响力和贡献度与传统欧美强国还无法匹敌,仍处于相对早期的发展阶段。
中美自主开源项目的全球化程度差距较大:
- 美国自主开源项目全球化程度较高,非本土贡献占比在 60% 以上,中国以 8.4% 的贡献占比成为美国开源项目的第二大贡献国。
- 中国自主开源项目全球化程度较低,非本土贡献占比在 20% 左右,对全球开发者的吸引力和影响力仍有较大的提升空间。
全球开发者总量
全球到底有多少开发者,这个问题甚至比国家的人口普查更难,不同的统计口径与方法,都会带来不同的答案。
例如 Statista 数据称 2024 年全球开发者数量为 2870 万,IDC 的报告则称 2024 年全球开发者的数量为 3700 万,但这些咨询机构通常会利用政府侧的就业数据或抽样调查来统计和估计全职开发者数量,将兼职、业余爱好者和学生等都排除在外,即便如此不同机构的数据结论也相去甚远。而且随着计算机教育的高度普及和开源模式带来的生产关系变革,数字游民的数量也开始激增,广义的开发者数量已经难以通过就业数据来反映。
不过在所有基础软件和开发框架都默认选择开源的时代,开发者几乎都无法绕过 GitHub 这个全球最大的开源代码托管和开发者社交平台,即便是如 Gitee 这样的中国平台 ,其注册用户估计也有八成以上同时也是 GitHub 的用户。因此透过 GitHub 的用户数据来窥探软件开发者的总体规模成为了一个新的有效途径。
2023 年 9 月,GitHub 发布了 Innovation Graph 项目,这是一个开放数据的发布与洞察平台。GitHub 会将内部的宏观统计数据进行清洗与整理,并以季度为粒度进行发布,其中就包含了一项全球各经济体的注册账号总量数据。根据该平台最新数据,截止到 2024 年第三季度,GitHub 注册用户覆盖全球 201 个国家和地区,注册用户总量已突破 1.33 亿。
当然,在这 1.33 亿的注册用户中除了正常的开发者外,也包含了部分自动化账号、恶意注册的一次性账号、一人注册多个账号等的情况。根据 OpenDigger 的数据显示,过去十年在 GitHub 上留下了公开事件记录(如 Star、Fork、Commit、Issue,PR 活跃等)的账号总量超过了 7700 万,考虑到也有不少开发者只是开源软件的用户,可能从不会在 GitHub 进行协作,因此个人认为粗略估计全球的泛开发者总量为 1 亿左右是一个较为合理的数字。
虽然开发者总量达到了 1 亿,但其中不少都是不活跃的账号,这个数量如果是用来当做是开源开发者数量显然是不合理的。如果我们定义在 GitHub 上有过任意的 Issue、PR 等协作行为的账号为开源开发者的话,那么根据 OpenDigger 的数据,GitHub 上过去十年的活跃开源开发者数量约为 2208 万。
总结而言,透过 GitHub 数据,我们粗略认为全球泛开发者总量已突破 1 亿,其中开源开发者数量超过了 2200 万。
国家分布情况
开发者总体分布
根据 Innovation Graph 的数据显示,截止到 2024 年第三季度,美国开发者总量为 2384 万居世界首位,印度 1711 万位居第二,中国(含港澳台,下同)1347 万排名第三,后续是巴西、英国、俄罗斯、印度尼西亚、德国、日本、加拿大,法国。而如果将欧盟 27 国看作统一的欧盟经济体,则其开发者总量为 1865 万仅次于美国。
按照全球 1 亿开发者数量来推算,中国的开发者总量已超过 1000 万,目前仅次于美国和印度,排名全球第三。
GitHub 官方的国家统计是通过账号的登录 IP 地址来判断的,由于网络环境不稳定的因素,这会导致中国大陆的开发者数量偏低,但考虑到大陆很多开发者网络出口都在香港,而从数据上香港也确实有异常高的开发者数量(超过 220 万,达到香港总人口 30%),因此我们认为加上港澳台数据,可以大致反映中国的总体开发者数量。
开源开发者分布
涉及到 2200 万开源开发者的国家分布,由于 Innovation Graph 仅开放了宏观统计结果,因此无法得知确切的每个开发者所在的国家。OpenDigger 采集了这 2200 万个账号在 GitHub 上的公开信息,并通过他们填写的公开位置信息进行了解析,尽可能得到每个账号所在国家的信息。
在这 2200 万个账号中,填写了公开的位置信息且可以被正确解析的账号数约为 406 万个,占总量的约 18.4%。虽然填写比例不高,但越是头部的开发者填写的信息一般也会越完整。根据 OpenDigger 数据显示,2024 年全球活跃的开源开发者总量超 607 万人,但其中 OpenRank 开发者影响力排名前十万名的开发者就占据全部开发者影响力的三分之一,而其中可以解析出国家信息的比例高达 56% 以上,因此已有数据具有较好的代表性。
而又由于近年来的中美脱钩,大量的中国开源项目开始选择使用 Gitee 平台作为自己的主要协作平台,因此 Gitee 平台开源项目和开源开发者的数量都在过去几年快速增长。由于不少开发者会同时活跃于 GitHub 和 Gitee 平台,我们难以关联他们在不同平台的账号,因此我们仅使用所有 GVP 项目中的活跃开源开发者作为增量加入到中国开源开发者数量中,而不考虑长尾的大量开发者(暂忽略 Gitee 平台上的海外用户数量),这个数量大约为 17.5 万人。
因此最终估计的开源开发者排名前三的国家分别是美国 476 万,印度 240 万,中国 198 万,随后是巴西、德国、英国、加拿大、法国、俄罗斯和波兰。
开源开发者数量与开发者总量相比,可以看到前四位没有发生变化,但俄罗斯开发者总量第五,但开源开发者跌至第九,这应该与 GitHub 封禁俄罗斯开发者账号有关。而印度尼西亚开发者总量第六,但开源开发者总量跌出前十来到了第十四位,说明虽然作为新兴的软件 外包大国,印尼的软件开发产业发展迅速,但总体在开源侧的参与度却不高。相较而言,大量的欧洲国家在开源开发者数量中明显更有优势,有更高比例的开发者会参与到开源生态的贡献之中。
开源开发者的十年变迁
上面虽然给出了过去十年全球活跃过的开源开发者总量大约在 2200 万,但事实上开发者来来往往,不同国家每年活跃的开发者数量随时都在发生变化,只有加上时间的维度,才能洞悉开源开发者的变迁趋势。
首先,我们从下图看一下 2024 年全年活跃开源开发者数量最多的 10 个国家在过去十年中每年的活跃开源开发者的数量变化情况。可以看到,美国的活跃开源开发者数量依然呈现出较明显的优势,2024 有约 111 万美国开发者在开源生态中活跃;排在第二名的印度在 2024 年有约 57 万活跃开源开发者,印度在 2020 年后增长迅猛,并于 2023 年超越中国成为活跃开源开发者全球第二;中国的活跃开源开发者数量增长速度相对稳定,并以 51 万活跃开源开发者的数量名列第三;而巴西同样是在 2020 年后开始迅速增长的,在 2023 年反超德国以 39 万活跃开源开发者的数量稳居全球第四。总体而言,全球的活跃开源开发者数量稳步增长,而印度和巴西则在 2020 年后显现出明显的高速增长,德英法加等传统强国则凭借其原有的开发者人口优势稳居前十,但明显增速缓慢,总量相对平稳。
但开发者的数量背后代表的是用户习惯或平台渗透率,但这些用户的质量或许才是我们更应该关注的。从开发者的 OpenRank 影响力角度出发,下图展示了 2024 年各国开发者影响力排名前 10 的国家在过去十年的影响力变化情况。可以看到美国依然是以断层式领先位居全球第一,但在 2020 年后显现出较为明显的震荡和下滑,2024 年下跌 2.89%;中国的发展则非常的迅猛,在 2019 年超过英国成为全球第三,随后在 2023 年超过德国成为了全球第二,并且依然保持着强劲的增长势头,2024 年以 4.24% 的增速引领全球。这中间 Gitee 平台上的项目,尤其是以 OpenHarmony、OpenEuler 为代表的一批国产项目的核心贡献者起到了相当的作用,中国开发者的 OpenRank 影响力中 Gitee 平台账号的占比在 2024 年已经来到了近 17%;在人口数量上并不占优的德国、英国虽然在开源开发者数量排行中屈居印度、巴西之后,但在影响力排行中依然紧随中国之后,坚守着全球第三、第四的位置,并且相较后面的国家具有明显的优势。印度、巴西虽然有明显的开发者数量优势,但在影响力方面,却还有较大的成长空间,分列全球第五与第八位;另外,值得注意的是相较于开源开发者数量排行,在影响力榜单中俄罗斯跌出了前十位,日本则紧随荷兰之后排名全球第十。
开源开发者影响力体现了开发者在开源生态中的位置优势,但贡献度则更可以体现开发者在开源生态中真实的贡献多少。以 GitHub 平台过去十年影响力头部 40 万个仓库与 Gitee 平台 GVP 项目为准,可以看到中国开发者的贡献度在 2020 年后迅速增长,2022 年时即超过德国来到全球第二。与影响力相较,可以看到中国开发者更注重深度贡献,以美国约三分之一的开发者影响力,却达到了美国开源开发者贡献度总量的近 50%,并且仍在以 7.48% 的增速快速发展,已与其他国家拉开了距离。而且由于美国开发者的贡献度在 2020 年后出现了下滑,2024 年中美贡献度增速差已超过 10%,按目前的发展态势,8 年后中国开发者的贡献度将超过美国成为全球第一。与影响力相较而言,德英法加依然有强劲的开源贡献进入到开源生态中,而印度、巴西的贡献度相较影响力则更低一些,分列全球第七与第九位,而波兰则替代日本进入贡献度全球前十。
中美开源项目的贡献分布
我们虽然可以看到中国过去几年在开源软件领域的快速发展,但无法忽视的是开源本身就是一个科技全球化的过程,优质的开源生态不仅依赖各个国家本土开发者的深度贡献,更需要吸引全球人才参与到 技术生态的共建当中。目前不可忽视的是,虽然中国开源开发者正在加速深度参与到全球开源技术发展当中,开发者影响力和贡献度都在快速提升,但中国发起的开源项目的全球影响力依然不足,对于全球开源人才的吸引力非常有限。
根据 OpenDigger 的数据显示,在 2024 年,美国科技企业发起的开源项目中,美国本土开发者的贡献占比仅为 38.7%,全球有 17 个国家和地区的贡献占比超过 1%,其中中国以 8.4% 的贡献占比位居全球第二。回溯过去十年,美国的开源全球化进展迅速,引领了全球的开源发展,美国开源项目的本土开发者贡献占比从 2015 年的 51.8% 降低到了 2024 年的 38.7%,中国开发者的贡献占比从 2015 年的 3% 位居全球第六增长到了 2024 年的 8.4% 稳居全球第二,高于第三名德国 2 个百分点。

# | 国家 | OpenRank 贡献度 | 贡献度占比 |
---|---|---|---|
1 | 美国🇺🇸 | 200492.15 | 38.69% |
2 | 中国🇨🇳 | 43542.15 | 8.40% |
3 | 德国🇩🇪 | 33845.51 | 6.53% |
4 | 英国🇬🇧 | 28720.74 | 5.54% |
5 | 加拿大🇨🇦 | 27072.93 | 5.22% |
6 | 印度🇮🇳 | 20866.43 | 4.03% |
7 | 法国🇫🇷 | 17518.46 | 3.38% |
8 | 荷兰🇳🇱 | 12014.88 | 2.32% |
9 | 波兰🇵🇱 | 9663.52 | 1.86% |
10 | 瑞士🇨🇭 | 9049.63 | 1.75% |
相较而言,中国科技企业发起的开源项目的本土贡献比例在过去十年始终维持在 80% 左右,2024 年该数值为 79.4%,全球仅有 7 个国家和地区的贡献占比超过了 1%,其中美国以 5.7% 位居全球第二,剩余 5 个国家(加拿大、德国、新加坡、印度、捷克)的贡献占比均不超过 1.5%。虽然中国的科技企业在 GitHub 上对全球开发者抱有开放的姿态,大多采用英文进行协作交流,但总体而言全球化的程度并未得到显著的提升。

# | 国家 | OpenRank 贡献度 | 贡献度占比 |
---|---|---|---|
1 | 中国🇨🇳 | 44698.58 | 79.33% |
2 | 美国🇺🇸 | 3241.15 | 5.75% |
3 | 加拿大🇨🇦 | 774.71 | 1.37% |
4 | 德国🇩🇪 | 769.57 | 1.37% |
5 | 新加坡🇸🇬 | 767.51 | 1.36% |
6 | 印度🇮🇳 | 727.49 | 1.29% |
7 | 捷克🇨🇿 | 680.86 | 1.21% |
8 | 保加利亚🇧🇬 | 332.93 | 0.59% |
9 | 瑞典🇸🇪 | 326.98 | 0.58% |
10 | 英国🇬🇧 | 295.21 | 0.52% |
未来的国家间的开源技术博弈将不仅仅是本土开发者参与到全球开源生态当中,而 是本土主导的开源项目可以吸引到更多的全球开源人才深度参与贡献,从而进一步打造本国开源技术的全球影响力,引领科技的持续发展。
一句话总结
全球泛开发者总量已超 1 亿人,开源开发者数量突破 2200 万。其中中国开发者数量全球第三,影响力与贡献度全球第二,已进入高质量发展阶段。但中国自主开源项目的全球化程度依然有待提高,未来需要技术创新与制度保障吸引全球科技人才,推动开源竞争力的进一步提升。