跳到主要内容

OSPP 2024 深度洞察报告

· 阅读需 12 分钟
赵生宇
X-lab 开源博士 / OpenDigger 作者
王伟
华东师范大学 教授 / X-lab 创始人

背景介绍

开源之夏 OSPP 是中国科学院软件研究所发起的“开源软件供应链点亮计划”系列暑期活动,旨在鼓励高校学生积极参与开源软件的开发维护,促进优秀开源软件社区的蓬勃发展,至今已成功举办六届(2020 ~ 2025),X-lab 开放实验室从第一届就开始深度参与。

OpenDigger 作为一直以来深入参与 OSPP 的开源数据研究项目,也在此就 OSPP 2024 年的数据做一次深度的分析,作为 OSPP 2023 年数据报告的延续。

OSPP 2024 宏观数据

根据 OSPP 社区的数据报告,2024 年度,OSPP 总共发布了项目 562 个,有学生中选项目共计 519 个,最终结项项目为 455 个,结项率高达 81%。在更严格的筛选下,发布项目总数相较 2023 年有所降低,但其他数据均有显著提高,尤其参与高校数量增长高达 30%,活动的影响力之大可见一斑。

OSPP 2024 年度高校贡献度排行榜
项目总数中选项目数结项项目数结项率(%)高校数量
562increase/decrease31
519increase/decrease15
455increase/decrease34
81increase/decrease10
186increase/decrease42

最终结项项目大部分除了个别与操作系统内核相关的社区使用了自己的 git 仓库外,大部分社区均托管于 GitHub(315 个)、Gitee(136 个)等代码托管平台上,分布比例与 2023 年持平,平台的总体分布如下:

从结项项目的学生所属高校来看,结项的 455 个项目由分别来自 186 所高校的学生最终完成,其中华中科技大学、北京邮电大学以 20 个以上的学生数量领跑各高校,具体的分布如下所示:

年度贡献度分析

除了上述一些统计数据外,我们也希望可以给出一些更加深入的洞察,例如每个高校中不同学生在社区中具体的贡献度等,这种精细化的分析也有助于我们进一步观察学生在整个过程中对于项目的协同参与程度,而不仅仅局限于学生是否仅是完成了一个特定的任务。

注意:受限于 OpenDigger 目前的底层基础数据,下述分析将仅包含 GitHub、Gitee 平台上的数据。

我们使用了 2024 全年的贡献度数据和社区 OpenRank 算法对参与到各社区学生的参与度进行了详细的分析,最终统计到各高校总体贡献度前 20 名如下表所示:

OSPP 2024 年度高校贡献度排行榜
#高校名称OpenRank参数学生数人均 OpenRank
1西安邮电大学
85.13increase/decrease29.46
15increase/decrease5
5.68increase/decrease0.11
2陇东学院
61.37increase/decrease21.89
1
61.37increase/decrease21.89
3上海大学
42.21new
2new
21.11new
4北京邮电大学
42.21increase/decrease17.98
17increase/decrease10
2.48increase/decrease0.25
5华中科技大学
32.37increase/decrease34.93
17increase/decrease4
1.9increase/decrease1.3
6西安财经大学
27.25new
3new
9.08new
7清华大学
26.77new
8new
3.35new
8重庆邮电大学
24.54increase/decrease24.38
4increase/decrease1
6.13increase/decrease3.65
9南京大学
20.81increase/decrease13.09
14increase/decrease3
1.49increase/decrease0.51
10东南大学
19.44increase/decrease0.88
8
2.43increase/decrease0.11
11浙江大学
19.24increase/decrease41.99
9increase/decrease14
2.14increase/decrease0.52
12中国科学技术大学
19.15new
11new
1.74new
13山东大学
16.1new
5new
3.22new
14上海交通大学
16.09increase/decrease32.25
5increase/decrease1
3.22increase/decrease4.84
15中国科学院大学
14.89increase/decrease22.47
14increase/decrease4
1.06increase/decrease1.01
16武汉大学
14.62increase/decrease4.4
3increase/decrease2
4.87increase/decrease14.14
17华南理工大学
14.57new
4new
3.64new
18北京航空航天大学
14.35new
5new
2.87new
19华东师范大学
13.83increase/decrease40.32
7increase/decrease6
1.98increase/decrease2.19
20广东工业大学
12.95new
5new
2.59new

我们在给出了高校总体贡献度的同时也给出了校人均 OpenRank 贡献度,可以看到西安邮电大学凭借多名学生在 Linux 内核之旅开源社区的活跃与贡献获得本年度的高校贡献度第一名,并且在贡献度前 20 位的高校中,有 8 所都是本年度新上榜的高校。

为了进一步观察学生的贡献情况,我们也对学生贡献者进行了 OpenRank 贡献度的排名,OpenRank 前 20 的学生如下:

OSPP 2024 年度学生贡献度排行榜
#学生姓名OpenRank学校参与社区
1姬**61.37陇东学院Spring Cloud Alibaba
2杨*41.03上海大学昇思MindSpore
3邵**23.18西安财经大学OI Wiki
4杨**19.85西安邮电大学Linux内核之旅开源社区
5徐**19.29西安邮电大学Linux内核之旅开源社区
6陈**18.43重庆邮电大学PikiwiDB(Pika)开源社区
7张**16.2西安邮电大学Linux内核之旅开源社区
8张**13.19西安邮电大学Linux内核之旅开源社区
9杨**12.83电子科技大学成都学院清华大学 TUNA 协会
10刘**11.47天津中德应用技术大学BMF字节跳动多媒体框架
11陈**11.46浙江科技大学Apache ShenYu
12宋*10.99北京邮电大学KubeEdge
13林**10.88上海交通大学Kmesh
14周**9.42湖北文理学院Volcano社区
15甘**9.17华南师范大学KubeBlocks
16曾**8.94山东大学Embox
17范**8.62清华大学清华大学 TUNA 协会
18陈**8.56北京理工大学DragonOS开源社区
19李**8.39武汉大学OceanBase
20吴**8.13西安电子科技大学PikiwiDB(Pika)开源社区

通过对于学生个体的分析,一些贡献度极高的学生就可以清晰的看到,例如来自陇东学院的姬同学在 Spring Cloud Alibaba 社区、来自上海大学的杨同学在 MindSpore 社区、来自西安财经大学的邵同学在 IO Wiki 社区的参与,他们都仅凭一己之力将自己学校的总体贡献度拉入到高校前 10 位。

全域贡献分析

我们可以看到,OSPP 拉动了大量高校的优秀学生在校期间就深入参与到开源社区的贡献之中,那么这些学生是否还深入参与到其他开源社区中,以及他们在全域的贡献度如何呢?我们也统计了这些同学在整个开源的领域的贡献度以及主要贡献项目的情况,如下表所示:

学生全域贡献度排行榜
#学生姓名OpenRank学校参与项目
1殷**211.13西北工业大学mdn/translated-content
mdn/content
yin1999/translated-content
2姬**93.64陇东学院alibaba/spring-cloud-alibaba
apache/hertzbeat
spring-cloud-alibaba-group/spring-cloud-alibaba-group.github.io
3李**90.92中南大学project-trans/MtF-wiki
project-trans/RLE-wiki
felixonmars/archriscv-packages
4杨*42.89上海大学mindspore/mindquantum
mindspore/docs
mindspore/mindspore
5吕*34.53华中科技大学datenlord/datenlord
antrea-io/antrea
goplus/community
6杨**30.5电子科技大学成都学院llvm/circt
chipsalliance/chisel
chipsalliance/t1
7蒋**29.49Aalto Universitymit-cml/workspace-multiselect
Igalia/wolvic
oceanbase/oceanbase
8蔡**25.85重庆邮电大学youngyangyang04/KVstorageBaseRaft-cpp
OpenAtomFoundation/pikiwidb
OpenAtomFoundation/pika
9邵**24.53西安财经大学OI-wiki/feedback-sys
OI-wiki/OI-wiki
satorijs/satori
10孙*21.76南昌大学openeuler/community
openeuler/mugen
openeuler/utsudo

我们可以看到除了 OSPP 的开源社区外,很多同学还大量参与了其他开源社区的贡献。

GitHub、Gitee 数据揭秘开源世界 "人口普查",中国开发者排名第几?

· 阅读需 26 分钟
赵生宇
X-lab 开源博士 / OpenDigger 作者

前言

当写下这篇文章时,GitHub 和 Gitee 的服务器集群还在不停轰鸣,每小时全球有 5000 多个 PR 将超过 600 万行代码变更合入到这些开源代码托管平台之中。

从 Kubernetes 开始重构全球云计算版图,到 PyTorch 取代 MATLAB 的学术霸权、从 Hadoop 拉开大数据热潮的序幕,到 DeepSeek 开源引发中美科技竞速,过去十年浩浩荡荡的开源大潮,早已超越了技术迭代的范畴,每个开发者地域标签的背后,隐藏的是全球开源开发者的快速增长与变迁。然而全球有多少开发者,他们都在哪里,在做什么,却一直如同一团迷雾笼罩在开源生态研究者的头顶。

本文旨在通过对 GitHub 和 Gitee 平台十年数据的考古,利用 Issue、PR 的网络来编织一幅技术地缘的图景,带你走进那个尚不清晰的开源开发者世界。

本文将给出如下一些数据要点:

  • 全球泛开发者总量已超过 1 亿,开源开发者数量超过 2200 万人
  • 中国开发者数量超 1000 万人,开源开发者总量约 198 万人,紧随美国印度均位居全球第三
  • 2024 年中国开源开发者影响力贡献度排名全球第二,增速分别为 4.24%7.48% 为全球最快。

并且从过去十年的趋势来看,世界开源格局正在发生剧变:

  • 美国凭借其强大的科技力量与先发优势在开源开发者的各项指标中依然占据绝对的领先位置,但无论是影响力还是贡献度在近年来都出现了明显下滑
  • 中国开源开发者数量稳步增长,总规模已将近 200 万人。数量上虽然被印度超越,但影响力贡献度稳居全球第二,并且拥有全球最快增速,正在快速缩小与美国之间的差距,并快速拉开与其他国家间的距离,标志着中国开源进入高质量发展时期
  • 德国、英国、法国、加拿大、荷兰等传统强国凭借其扎实的基础在各指标中都稳居全球前十,并且保持平稳的发展趋势。
  • 俄罗斯参与到全球开源生态中的开发者数量相当可观,但受到地缘政治等各种因素影响,其影响力和贡献度都无法与其开发者体量匹配。
  • 印度巴西印度尼西亚已经成为了不可忽视的开发者大国,近年来显现出强劲的增长势头,虽然开发者数量优势明显,但相较而言其影响力和贡献度与传统欧美强国还无法匹敌,仍处于相对早期的发展阶段

中美自主开源项目的全球化程度差距较大:

  • 美国自主开源项目全球化程度较高,非本土贡献占比在 60% 以上中国8.4% 的贡献占比成为美国开源项目的第二大贡献国
  • 中国自主开源项目全球化程度较低,非本土贡献占比在 20% 左右,对全球开发者的吸引力和影响力仍有较大的提升空间。

全球开发者总量

全球到底有多少开发者,这个问题甚至比国家的人口普查更难,不同的统计口径与方法,都会带来不同的答案。

例如 Statista 数据称 2024 年全球开发者数量为 2870 万,IDC 的报告则称 2024 年全球开发者的数量为 3700 万,但这些咨询机构通常会利用政府侧的就业数据或抽样调查来统计和估计全职开发者数量,将兼职、业余爱好者和学生等都排除在外,即便如此不同机构的数据结论也相去甚远。而且随着计算机教育的高度普及和开源模式带来的生产关系变革,数字游民的数量也开始激增,广义的开发者数量已经难以通过就业数据来反映。

不过在所有基础软件和开发框架都默认选择开源的时代,开发者几乎都无法绕过 GitHub 这个全球最大的开源代码托管和开发者社交平台,即便是如 Gitee 这样的中国平台,其注册用户估计也有八成以上同时也是 GitHub 的用户。因此透过 GitHub 的用户数据来窥探软件开发者的总体规模成为了一个新的有效途径。

2023 年 9 月,GitHub 发布了 Innovation Graph 项目,这是一个开放数据的发布与洞察平台。GitHub 会将内部的宏观统计数据进行清洗与整理,并以季度为粒度进行发布,其中就包含了一项全球各经济体的注册账号总量数据。根据该平台最新数据,截止到 2024 年第三季度,GitHub 注册用户覆盖全球 201 个国家和地区,注册用户总量已突破 1.33 亿

当然,在这 1.33 亿的注册用户中除了正常的开发者外,也包含了部分自动化账号、恶意注册的一次性账号、一人注册多个账号等的情况。根据 OpenDigger 的数据显示,过去十年在 GitHub 上留下了公开事件记录(如 Star、Fork、Commit、Issue,PR 活跃等)的账号总量超过了 7700 万,考虑到也有不少开发者只是开源软件的用户,可能从不会在 GitHub 进行协作,因此个人认为粗略估计全球的泛开发者总量为 1 亿左右是一个较为合理的数字。

虽然开发者总量达到了 1 亿,但其中不少都是不活跃的账号,这个数量如果是用来当做是开源开发者数量显然是不合理的。如果我们定义在 GitHub 上有过任意的 Issue、PR 等协作行为的账号为开源开发者的话,那么根据 OpenDigger 的数据,GitHub 上过去十年的活跃开源开发者数量约为 2208 万

总结而言,透过 GitHub 数据,我们粗略认为全球泛开发者总量已突破 1 亿,其中开源开发者数量超过了 2200 万

国家分布情况

开发者总体分布

根据 Innovation Graph 的数据显示,截止到 2024 年第三季度,美国开发者总量为 2384 万居世界首位,印度 1711 万位居第二,中国(含港澳台,下同)1347 万排名第三,后续是巴西、英国、俄罗斯、印度尼西亚、德国、日本、加拿大,法国。而如果将欧盟 27 国看作统一的欧盟经济体,则其开发者总量为 1865 万仅次于美国。

按照全球 1 亿开发者数量来推算,中国的开发者总量已超过 1000 万,目前仅次于美国和印度,排名全球第三

GitHub 官方的国家统计是通过账号的登录 IP 地址来判断的,由于网络环境不稳定的因素,这会导致中国大陆的开发者数量偏低,但考虑到大陆很多开发者网络出口都在香港,而从数据上香港也确实有异常高的开发者数量(超过 220 万,达到香港总人口 30%),因此我们认为加上港澳台数据,可以大致反映中国的总体开发者数量。

开源开发者分布

涉及到 2200 万开源开发者的国家分布,由于 Innovation Graph 仅开放了宏观统计结果,因此无法得知确切的每个开发者所在的国家。OpenDigger 采集了这 2200 万个账号在 GitHub 上的公开信息,并通过他们填写的公开位置信息进行了解析,尽可能得到每个账号所在国家的信息。

在这 2200 万个账号中,填写了公开的位置信息且可以被正确解析的账号数约为 406 万个,占总量的约 18.4%。虽然填写比例不高,但越是头部的开发者填写的信息一般也会越完整。根据 OpenDigger 数据显示,2024 年全球活跃的开源开发者总量超 607 万人,但其中 OpenRank 开发者影响力排名前十万名的开发者就占据全部开发者影响力的三分之一,而其中可以解析出国家信息的比例高达 56% 以上,因此已有数据具有较好的代表性。

而又由于近年来的中美脱钩,大量的中国开源项目开始选择使用 Gitee 平台作为自己的主要协作平台,因此 Gitee 平台开源项目和开源开发者的数量都在过去几年快速增长。由于不少开发者会同时活跃于 GitHub 和 Gitee 平台,我们难以关联他们在不同平台的账号,因此我们仅使用所有 GVP 项目中的活跃开源开发者作为增量加入到中国开源开发者数量中,而不考虑长尾的大量开发者(暂忽略 Gitee 平台上的海外用户数量),这个数量大约为 17.5 万人。

因此最终估计的开源开发者排名前三的国家分别是美国 476 万,印度 240 万,中国 198 万,随后是巴西、德国、英国、加拿大、法国、俄罗斯和波兰。

开源开发者数量与开发者总量相比,可以看到前四位没有发生变化,但俄罗斯开发者总量第五,但开源开发者跌至第九,这应该与 GitHub 封禁俄罗斯开发者账号有关。而印度尼西亚开发者总量第六,但开源开发者总量跌出前十来到了第十四位,说明虽然作为新兴的软件外包大国,印尼的软件开发产业发展迅速,但总体在开源侧的参与度却不高。相较而言,大量的欧洲国家在开源开发者数量中明显更有优势,有更高比例的开发者会参与到开源生态的贡献之中。

开源开发者的十年变迁

上面虽然给出了过去十年全球活跃过的开源开发者总量大约在 2200 万,但事实上开发者来来往往,不同国家每年活跃的开发者数量随时都在发生变化,只有加上时间的维度,才能洞悉开源开发者的变迁趋势。

首先,我们从下图看一下 2024 年全年活跃开源开发者数量最多的 10 个国家在过去十年中每年的活跃开源开发者的数量变化情况。可以看到,美国的活跃开源开发者数量依然呈现出较明显的优势,2024 有约 111 万美国开发者在开源生态中活跃;排在第二名的印度在 2024 年有约 57 万活跃开源开发者印度在 2020 年后增长迅猛,并于 2023 年超越中国成为活跃开源开发者全球第二;中国的活跃开源开发者数量增长速度相对稳定,并以 51 万活跃开源开发者的数量名列第三;而巴西同样是在 2020 年后开始迅速增长的,在 2023 年反超德国以 39 万活跃开源开发者的数量稳居全球第四。总体而言,全球的活跃开源开发者数量稳步增长,而印度和巴西则在 2020 年后显现出明显的高速增长,德英法加等传统强国则凭借其原有的开发者人口优势稳居前十,但明显增速缓慢,总量相对平稳。

但开发者的数量背后代表的是用户习惯或平台渗透率,但这些用户的质量或许才是我们更应该关注的。从开发者的 OpenRank 影响力角度出发,下图展示了 2024 年各国开发者影响力排名前 10 的国家在过去十年的影响力变化情况。可以看到美国依然是以断层式领先位居全球第一,但在 2020 年后显现出较为明显的震荡和下滑,2024 年下跌 2.89%中国的发展则非常的迅猛,在 2019 年超过英国成为全球第三,随后在 2023 年超过德国成为了全球第二,并且依然保持着强劲的增长势头,2024 年以 4.24% 的增速引领全球。这中间 Gitee 平台上的项目,尤其是以 OpenHarmony、OpenEuler 为代表的一批国产项目的核心贡献者起到了相当的作用,中国开发者的 OpenRank 影响力中 Gitee 平台账号的占比在 2024 年已经来到了近 17%;在人口数量上并不占优的德国、英国虽然在开源开发者数量排行中屈居印度、巴西之后,但在影响力排行中依然紧随中国之后,坚守着全球第三、第四的位置,并且相较后面的国家具有明显的优势。印度巴西虽然有明显的开发者数量优势,但在影响力方面,却还有较大的成长空间,分列全球第五与第八位;另外,值得注意的是相较于开源开发者数量排行,在影响力榜单中俄罗斯跌出了前十位,日本则紧随荷兰之后排名全球第十

开源开发者影响力体现了开发者在开源生态中的位置优势,但贡献度则更可以体现开发者在开源生态中真实的贡献多少。以 GitHub 平台过去十年影响力头部 40 万个仓库与 Gitee 平台 GVP 项目为准,可以看到中国开发者的贡献度在 2020 年后迅速增长,2022 年时即超过德国来到全球第二。与影响力相较,可以看到中国开发者更注重深度贡献,以美国约三分之一的开发者影响力,却达到了美国开源开发者贡献度总量的近 50%,并且仍在以 7.48% 的增速快速发展,已与其他国家拉开了距离。而且由于美国开发者的贡献度在 2020 年后出现了下滑,2024 年中美贡献度增速差已超过 10%,按目前的发展态势,8 年后中国开发者的贡献度将超过美国成为全球第一。与影响力相较而言,德英法加依然有强劲的开源贡献进入到开源生态中,而印度巴西的贡献度相较影响力则更低一些,分列全球第七与第九位,而波兰则替代日本进入贡献度全球前十。

中美开源项目的贡献分布

我们虽然可以看到中国过去几年在开源软件领域的快速发展,但无法忽视的是开源本身就是一个科技全球化的过程,优质的开源生态不仅依赖各个国家本土开发者的深度贡献,更需要吸引全球人才参与到技术生态的共建当中。目前不可忽视的是,虽然中国开源开发者正在加速深度参与到全球开源技术发展当中,开发者影响力和贡献度都在快速提升,但中国发起的开源项目的全球影响力依然不足,对于全球开源人才的吸引力非常有限。

根据 OpenDigger 的数据显示,在 2024 年,美国科技企业发起的开源项目中,美国本土开发者的贡献占比仅为 38.7%,全球有 17 个国家和地区的贡献占比超过 1%,其中中国以 8.4% 的贡献占比位居全球第二。回溯过去十年,美国的开源全球化进展迅速,引领了全球的开源发展,美国开源项目的本土开发者贡献占比从 2015 年的 51.8% 降低到了 2024 年的 38.7%,中国开发者的贡献占比从 2015 年的 3% 位居全球第六增长到了 2024 年的 8.4% 稳居全球第二,高于第三名德国 2 个百分点

2024 美国自主开源项目全球贡献分布 Top 10
#国家OpenRank 贡献度贡献度占比
1美国🇺🇸200492.1538.69%
2中国🇨🇳43542.158.40%
3德国🇩🇪33845.516.53%
4英国🇬🇧28720.745.54%
5加拿大🇨🇦27072.935.22%
6印度🇮🇳20866.434.03%
7法国🇫🇷17518.463.38%
8荷兰🇳🇱12014.882.32%
9波兰🇵🇱9663.521.86%
10瑞士🇨🇭9049.631.75%

相较而言,中国科技企业发起的开源项目的本土贡献比例在过去十年始终维持在 80% 左右,2024 年该数值为 79.4%,全球仅有 7 个国家和地区的贡献占比超过了 1%,其中美国以 5.7% 位居全球第二,剩余 5 个国家(加拿大、德国、新加坡、印度、捷克)的贡献占比均不超过 1.5%。虽然中国的科技企业在 GitHub 上对全球开发者抱有开放的姿态,大多采用英文进行协作交流,但总体而言全球化的程度并未得到显著的提升。

2024 中国自主开源项目全球贡献分布 Top 10
#国家OpenRank 贡献度贡献度占比
1中国🇨🇳44698.5879.33%
2美国🇺🇸3241.155.75%
3加拿大🇨🇦774.711.37%
4德国🇩🇪769.571.37%
5新加坡🇸🇬767.511.36%
6印度🇮🇳727.491.29%
7捷克🇨🇿680.861.21%
8保加利亚🇧🇬332.930.59%
9瑞典🇸🇪326.980.58%
10英国🇬🇧295.210.52%

未来的国家间的开源技术博弈将不仅仅是本土开发者参与到全球开源生态当中,而是本土主导的开源项目可以吸引到更多的全球开源人才深度参与贡献,从而进一步打造本国开源技术的全球影响力,引领科技的持续发展。

一句话总结

全球泛开发者总量已超 1 亿人,开源开发者数量突破 2200 万。其中中国开发者数量全球第三,影响力与贡献度全球第二,已进入高质量发展阶段。但中国自主开源项目的全球化程度依然有待提高,未来需要技术创新与制度保障吸引全球科技人才,推动开源竞争力的进一步提升。

如何使用 OpenDigger MCP Server 定制你的开源数据报告

· 阅读需 9 分钟
赵生宇
X-lab 开源博士 / OpenDigger 作者

近期 MCP 概念在开源生态中非常火热,OpenDigger 也实现并开源了自己的第一版 MCP 服务,并通过对于 Kubernetes 项目的分析验证了利用大模型实时获取开源数据指标并进行分析的可行性。

什么是 MCP?

MCP (Model Context Protocol,模型上下文协议) 是由 Claude 的母公司 Anthropic 在 2024 年底推出的一种开放协议,它通过提供一种标准化的接口,旨在实现大语言模型(LLM)与外部数据源及工具的无缝集成。MCP 服务可以提供如静态资源(Resource)、工具调用(Tool)、LLM 提示词(Prompt)等多种不同类型的能力,方便支持 MCP 的工具无缝访问外部的数据源或进行自动化工具调用,使大模型在生成过程中可以使用这些能力来辅助和增强生成效果。

近期 MCP 技术在开发者中热度逐渐攀升,诸多的 AI 编辑器(如 Cursor,Windsurf)、VSCode 插件(如 Cline)、聊天客户端(如 Cherry Studio,NextChat)等都开始纷纷支持了 MCP 能力。而 Anthropic 为 MCP 开发的多语言 SDK 也可以使开发者快速开发自己的 MCP 服务,因此除了官方提供了大量主流平台的 MCP 服务外,开源生态中开始涌现出大量的 MCP 服务项目。

OpenDigger MCP Server

OpenDigger 旨在为开源项目提供全面有效的开源数据指标,OpenDigger 所生产的数据指标一直以来被大量的下游应用所使用(如 HyperCRX、OpenLeaderboard、OpenGalaxy 等),然而这些应用都没有自主进行数据分析和洞察的能力。

大语言模型具有极强的文本生成能力,这对于数据洞察有极佳的辅助作用,但如何在生成过程中动态引用真实数据,生成有效的数据报告也是近期一个研究的难点与热点,而 MCP 则为 LLM 生成数据报告时动态提供线上数据带来了一种新的实现方式。

OpenDigger 也在 X-lab 的 GitHub 上开源了第一版基础的 MCP 服务(X-lab2017/open-digger-mcp-server),该服务提供了如下两个功能:

  • 数据指标获取工具(Tool):该工具可以实时在线获取 OpenDigger 生产的开源项目数据指标文件,供 LLM 进行分析洞察及后续的生成过程。
  • 数据报告生成提示词(Prompt):该提示词会向 LLM 解释各类指标的具体含义,并帮助开发者快速生成一个可直接在网页端预览的数据报告。

安装该 MCP 服务后便可以在调用 LLM 生成开源数据洞察报告时调用 OpenDigger 的指标数据,以便进行数据可视化及数据洞察。

数据报告示例

本文以 Cline 插件为例,展示在具有在线数据访问能力后,如何使用 DeepSeek-V3 来生成开源项目的洞察报告。

在本地安装 OpenDigger MCP Server 后,启用该服务,并开启 MCP 的 Auto-approve 选项,以便自动进行数据获取。之后使用该项目提供的 Prompt 让 DeepSeek-V3 模型来生成一个 Kubernetes 主仓库的数据报告。

根据上图,我们可以看到,大模型在接到任务后先对任务进行了分析,分解为如下步骤:

  • 使用 MCP 服务来获取该仓库的 OpenRank、Star、Participants、Contributors 四个数据指标
  • 根据仓库的创建年限来确定数据分析使用的数据粒度(年度、季度、月度)
  • 生成一个 HTML 来展示数据的可视化效果及趋势解读
  • 使用 Chart.js 组件来进行数据可视化

随后大模型自动调用了 MCP 的 get_open_digger_metric 工具来获取数据文件并得到了相应的数据,并根据仓库创建时间选择使用年度数据作为分析粒度,分析数据后大模型直接在编辑器中创建了一个名为 kubernetes-report.html 的文件,并将年度的数据趋势与解读内容生成到该文件中,最后提示用户使用命令行在浏览器中打开该网页。

整个过程一气呵成,用户仅需提供需求,后续的数据获取与可视化报告生成全部由大模型配合 MCP 服务逐步完成。

下图是最终页面中 OpenRank 指标的可视化及解读效果:

根据上图,DeepSeek-V3 模型先将 Kubernetes 主仓库的 OpenRank 年度指标数据使用 Chart.js 组件绘制出来,然后给出了具体的洞察内容。它根据数据的趋势将 Kubernetes 主仓库的发展阶段分为了:

  • 2015 至 2017 年:快速发展期,OpenRank 指标在快速增长,该技术作为容器编排平台被快速认知和使用。
  • 2018 至 2019 年:平稳成熟期,OpenRank 指标维持在相对平稳的状态,几乎没有太多变化。
  • 2020 至 2022 年:缓慢下降期,OpenRank 指标开始逐渐下降,但其也指出这背后可能存在的多种因素,如发展逐渐稳定、开发者更多在扩展的生态项目中活跃、容器技术的标准化完成等。
  • 2023 至今:近期趋势相对稳定,甚至在 2023 年还略有回升,中间月度数据也存在震荡,可能是由于发版或特定特性带来的。

可以看到,DeepSeek-V3 在生成数据报告过程中可以正确的识别 MCP 服务提供的接口和参数,并正确的调用接口得到数据,之后正确的生成了 HTML 文件对数据进行可视化并提供了数据的洞察分析内容。令人惊艳的是,虽然使用了年度数据进行分析,但在近两年的数据分析中,模型也同时使用了月度数据进行了细致的说明。

结论

MCP 是目前大模型生态中最有优势的大模型交互接口协议,已经发展出了繁荣的开源生态,有大量的开发者在上下游中围绕 MCP 进行开发和创作。OpenDigger 也通过实现自己的 MCP 服务验证了利用大模型(如 DeepSeek-V3)进行定制化数据分析的能力,有兴趣的小伙伴欢迎体验和共建。

2025 年 2 月开源生态数据洞察报告

· 阅读需 7 分钟
赵生宇
X-lab 开源博士 / OpenDigger 作者
王伟
华东师范大学 教授 / X-lab 创始人

OpenRank 指标是对工信部电子标准院的“信息技术 开源治理”系列标准中评价指标的开源实现,能够有效反映开源项目在开发者中的协作影响力,从而帮助我们了解开源世界,发现开源趋势,洞察开源事件。

热点事件:DeepSeek 开源周引爆全球 LLM 基础优化技术

继 2025 年 1 月 DeepSeek 发布轰动全球的 DeepSeek-R1 模型后,2025 年 2 月 21 日宣布启动为期一周的“开源周”计划,从 2 月 24 日其连续五天开源一项核心技术,旨在推动 AI 技术共享与行业应用加速。这五项技术共开放了 7 个开源仓库,根据 OpenDigger 数据,凭借开源周的热度,DeepSeek 在 GitHub 上的组织在 2 月 24 日至 3 月 6 日间共获得 56.2k+ Star,有 805 位开发者参与到讨论和协作中。最终 DeepSeek 在企业 OpenRank 中再次强劲增长近 60%,达到 330 并进军到中国企业榜第 11 位。

开源周中提到的这五项技术包括:

  • Day 1 - FlashMLA
    • 面向 Hopper GPU 的高效 MLA(多头潜在注意力机制)解码内核,针对可变长度序列优化算力分配,显著降低推理成本。
  • Day 2 - DeepEP
    • 首个专为 MoE(混合专家)模型设计的 EP(专家并行)通信库,支持 FP8 低精度计算,提升 GPU 间通信效率 10 倍,兼顾高吞吐与低延迟。
  • Day 3 - DeepGEMM
    • 基于 FP8 精度的通用矩阵乘法加速库,代码仅 300 行,高效优化深度学习矩阵运算,提升训练与推理效率。
  • Day 4 - 并行策略三连发
    • DualPipe:双向流水线并行算法,优化模型训练流程。
    • EPLB:MoE 负载均衡算法,解决专家模型资源分配不均问题。
    • profile-data:公开训练框架数据,助力开发者复现与优化。
  • Day 5 - 3FS 分布式文件系统
    • 面向 AI 训练的高性能分布式存储系统,结合固态硬盘与 RDMA 网络,极致压榨硬件带宽,被评价为 “数据处理新标杆”。

从 Star 增长情况来看,FlashMLA 凭借先发优势,在第一天就斩获了 7k+ Star,截止 3 月 6 日共获得 Star 数 11.3k+。而最后一天发布的分布式文件系统 3FS 格外受到开发者的关注,发布当天就获得了近 4k Star,截止 3 月 6 日共获得了超过 8k Star。

从 Star 增长来看,2025 年 2 月 DeepSeek 的 Star 增长仍然遍布了全球 127 个国家和地区,且各国的贡献度比例与 1 月呈现类似的分布。对比上个月数据,中国的贡献度更为集中,以 70.69% 的比例领跑。而美国和印度分别以 8.08% 和 3.38% 位于第二梯队。后续为加拿大、英国、新加坡和巴西等国。

  • 作者点评:DeepSeek 开源周不仅是技术实力的展现,更是对 “开源精神” 的极致践行 —— 以开放代码推动行业共进,印证了 “越是开源,越能扩大生态” 的战略远见。

  • 进阶阅读:

本月推荐项目

DeepSeek 带来的热潮也开始对大模型基础技术生态产生重要影响,多个项目都受到其影响出现了爆发式的增长。

kvcache-ai/ktransformers

  • KTransformers 项目旨在提供基础模型的各类底层优化,2024 年 7 月开源以来一直没有太多关注度。2025 年 2 月,其开始支持对于 DeepSeek V3 和 R1 模型的优化,从减少推理显存、提升上下文长度等多个方面对模型进行了优化,2025 年 2 月该项目在创建半年多后迎来了爆发式增长,当月 OpenRank 影响力增长 34 倍达到 138,有 736 位开发者参与到了项目讨论和协作中,成为了一个现象级项目。
  • 仓库地址:https://github.com/kvcache-ai/ktransformers

huggingface/open-r1

  • DeepSeek-R1 发布后引发全球复现高潮,作为全球最模型托管平台,Hugging Face 也提供了一个完全开源的 DeepSeek-R1 的复现仓库 Open-R1,该仓库在开源后获得了 22.8k+ Star,2025 年 2 月有 359 位开发者参与到了讨论与协作中,OpenRank 值达到 88,成功进入全球仓库增长榜单。
  • 仓库地址:https://github.com/huggingface/open-r1

2025 年 1 月开源生态数据洞察报告

· 阅读需 14 分钟
赵生宇
X-lab 开源博士 / OpenDigger 作者
王伟
华东师范大学 教授 / X-lab 创始人

OpenRank 指标是对工信部电子标准院的“信息技术 开源治理”系列标准中评价指标的开源实现,能够有效反映开源项目在开发者中的协作影响力,从而帮助我们了解开源世界,发现开源趋势,洞察开源事件。

DeepSeek 的全球影响力:中美印开发者共舞,开创AI新时代

2025 年 1 月 20 日,中国人工智能公司 DeepSeek 发布的 R1 系列大模型引发全球 AI 行业震动。该模型以低成本、高性能和开源特性为核心,该事件不仅在短期内对美国金融市场造成了巨大冲击,同时对大模型发展的技术路线、行业格局及地缘政治将产生深远影响。因此本期洞察报告将从 DeepSeek 的全系列模型切入,进行一次较完整的专栏式数据解析。

总体数据

2025 年 1 月 20 日 DeepSeek 发布 R1 推理模型,同日 GitHub 仓库开源,后续 1 月 28 日发布 Janus Pro 多模态大模型,这两个模型以其低成本高性能引爆全球。自 R1 模型发布以来,截止到 2 月 6 日,DeepSeek 官方 GitHub 组织获得新增 Star 数总计超 15 万,活跃开发者数量 1679 人。DeepSeek 组织有 5 个仓库在 2025 年 1 月进入中国 OpenRank 仓库榜 Top 300,DeepSeek-R1 仅开源 10 天强势空降至中国第 62 位。DeepSeek 在 OpenRank 企业榜单中在 2025 年 1 月达到 207 分,快速上升至全球第 86 位以及中国第 13 位。

2025.1 中国企业 OpenRank 排行榜 Top 15
#企业OpenRank活跃仓库数活跃开发者数
1
Huawei
10416.91increase/decrease441.38
3005increase/decrease93
4782increase/decrease1103
2
Alibaba
1822.95increase/decrease142.79
1410increase/decrease306
2026increase/decrease524
3
Ant group
1329.97increase/decrease97.46
542increase/decrease10
1671increase/decrease336
4
Baidu
1119.37increase/decrease83.37
192increase/decrease19
978increase/decrease249
5
ByteDance
684.21increase/decrease0.5
371increase/decrease2
1112increase/decrease185
6
ESPRESSIF
529.56increase/decrease23.4
168increase/decrease15
868increase/decrease69
7
Tencent
476.51increase/decrease56.4
237increase/decrease55
687increase/decrease285
8
DaoCloud
424.47increase/decrease89.53
49increase/decrease6
555increase/decrease186
9
PingCAP
423.89increase/decrease14.15
76increase/decrease11
252increase/decrease36
10
Fit2Cloud
419.89increase/decrease54.12
57increase/decrease1
348increase/decrease145
11
Zilliz
294.02increase/decrease6.32
44increase/decrease3
241increase/decrease34
12
StarRocks
215.46increase/decrease10.95
11
160increase/decrease33
13
DeepSeek
207.45increase/decrease172.47
16increase/decrease1
1386increase/decrease1207
14
openKylin
204.37increase/decrease59.26
117increase/decrease100
118increase/decrease96
15
Deepin
162.04increase/decrease9.12
122increase/decrease10
83increase/decrease3

Star 增长情况

下图给出了截止 2 月 6 日 DeepSeek 的 GitHub 账号下 Star 增长最快的 5 个仓库的 Star 每日变化情况。可以看到,在 20 日 DeepSeek-R1 发布后,开发者有了迅速的响应,其仓库在 20 日当天就有 2k+ 增长,而直至 26 日间每日均有 2k - 4k 的 Star 增长,此时其他仓库,如基座模型 V3 等尚无明显变化。后续真正的爆发点来自于 27 日美股因 DeepSeek-R1 的发布及后续数日的学界业界的验证和极佳的口碑出现了暴跌,NVIDIA 当日收盘跌幅达 17%,金融市场的冲击导致 DeepSeek-R1 彻底出圈,并同时带火了其基座模型 V3 以及在 28 日发布的多模态模型 Janus Pro。1 月 28 日当天 V3、R1 的 Star 增长均超过 10k,而 Janus 仓库也有 4k+ 的增长。之后增长逐渐趋缓,而 2 月 5 日春节复工后又迎来了一波小幅的增长。

下图给出了这段时间内 Star 增长的来源国家与地区的分布比例情况,据 OpenDigger 数据显示,这段时间内增长的 15 万 Star 来自全球 185 个国家和地区,几乎覆盖全球所有主要国家和地区。从数据上来看,1 月 20 日 DeepSeek-R1 模型发布后,当日 Star 增长来自 82 个国家,其中来源最多的国家为美国,占比 28%,远超中国的 17.4%,虽部分受到时区影响,但依然可见其敏锐的科技嗅觉。后续随着全球各地开发者和用户的验证与使用,各地区的开发者快速响应,在 28 日前,如印度、德国等的开发者响应速度明显较快,28 日当天其全球影响力达到巅峰,当日增长来源于全球 149 个国家,而后巴西、韩国等国的大量开发者也迅速加入。而 2 月 5 日的增长则八成以上来自中国,也证明当日增长应该主要因春节复工导致。

下图给出了整体增长中各国的开发者的占比情况,中国依然以 24.4% 排名第一,美国 15.7% 紧随其后,之后的开发者最多的十个国家为:印度、巴西、德国、英国、加拿大、韩国、法国、日本、印度尼西亚和澳大利亚。而非洲开发者关注数量最多的几个国家也为互联网化程度最高的几个国家,如尼日利亚、埃及、南非、肯尼亚及阿尔及利亚等。

参与开发者分布

虽然作为大模型,DeepSeek 系列模型的主要使用与下载发生在 HuggingFace、魔搭等模型托管平台,但 GitHub 依然承担了一大部分论坛的作用,有大量开发者在 GitHub 进行讨论与问答,数量远高于 HuggingFace 社区中的讨论量。我们也从这段时间在 DeepSeek-R1 和 V3 仓库中活跃的开发者在过去半年的全域活跃情况进一步分析一下 DeepSeek 吸引了哪些地区的开发者参与到了讨论之中。

下图给出了 DeepSeek 组织中 OpenRank 贡献度的全球分布情况,从参与者的贡献度情况而言,可以看到中美印处于第一梯队,后续英国、巴西、德国处于第二梯队,澳大利亚、巴基斯坦、新加坡等则处于第三梯队。值得注意的是,虽然新加坡的开发者数量并不占优,在开发者来源的数量分布中相对靠后,但在贡献度层面却很靠前,而以色列近年来科技产业的崛起在这个数据中也得到了显现。

更详细的数据显示,DeepSeek 吸引到了大量在过去半年中深耕大语言模型领域的开发者和爱好者。如 LiteLLM(OpenRank 193)的创始人和 CEO Krish Dholakia(@krrishdholakia)、SGLang(OpenRank 180)的核心维护者 Yineng Zhang(@zhyncs)、Promptfoo(OpenRank 46) 的核心维护者 Michael(@mldangelo)、avante.nvim(OpenRank 57)的作者 yetone(@yetone),Mem0 AI(OpenRank 31) 的联合创始人 Dev Khant(@Dev-Khant)、LangBot 的作者 Junyan Qin(@RockChinQ)、ChatHub 的作者 wong2(@wong2)等等。当然也包含一些在企业中做 AI 相关业务的负责人,如来自微软的 PowerShell 团队 AIShell 项目的 Dongbo Wang(@daxian-dbw)、来自 Intel 的 AutoAround 团队的 Wenhua Cheng(@wenhuach21)等。

通过上述清单也可以看到,中国和印度确实在这波大语言模型的浪潮中开始崭露头角并深度交流协同,而北美的开发者可能更多在使用 DeepSeek 却没有太多加入到真正的讨论之中,即便是一些美国企业也是在美华人参与的更多一些,我们也希望未来可以看到更多北美开发者可以深入参与到讨论协作之中。

关键发现

DeepSeek 系列大模型的发布,无疑是2025年初全球人工智能领域的一颗重磅炸弹。从 OpenDigger 数据来看,DeepSeek 的多个 GitHub 仓库在 R1 发布后的两周内就获得了超过 15 万 Star,活跃开发者近 1700 人,显示了全球开发者对这一创新成果的高度认可,也使得 DeepSeek 的 OpenRank 值产生了阶跃式的增长。

尽管 HuggingFace 和魔搭等平台承担了大部分模型托管功能,GitHub 依然成为了 DeepSeek 开发者讨论和交流的重要阵地,对 GitHub 数据的分析我们可以看到:

  • 从 Star 整体增长的国家分布来看,DeepSeek-R1 模型展现出强大的全球影响力,其在 GitHub 的开发者覆盖度几乎遍及全球所有国家和地区
  • 从 Star 的日增地域来源来看,美国开发者依然具有极强的科技敏感度,在 DeepSeek-R1 模型发布初期其响应速度甚至快于中国开发者
  • OpenRank 贡献度分布来看,学生群体、AI 爱好个人开发者和企业 AI 项目负责人或 AI 初创企业合伙人形成三足鼎立之势。
  • OpenRank 贡献度地域分布数据显示,印度开发者在此次 AI 浪潮中不仅扮演着重要角色,而且他们也更愿意和中国的开发者建立连接,不少的印度 AI 初创企业的创始人或合伙人深度参与到了 DeepSeek 的模型讨论之中。
  • 更详细的数据可以看到,虽然北美开发者关注数量较多,但从参与讨论贡献的情况来看,更多的美国开发者可能主要还是以使用和观望为主,参与深入讨论协同的开发者也多以学生或华人群体为主

结语

多年以来,中国在开源世界里多以消费者的形象出现,也曾因只使用不贡献而遭到诟病。而现在中国开源项目如 DeepSeek 已经开始引领全球,这不仅体现在技术上的突破,更在于吸引了全球开发者的广泛参与和贡献,我们也希望今后看到更多欧美的开发者深度参与到中国顶级项目的共建之中。

总体而言,DeepSeek 不仅在技术上取得了巨大成功,更在行业和社会层面产生了深远影响,吸引着全球开发者深度参与到人工智能的开发进步之中。期待 DeepSeek 在未来继续引领全球 AI 技术的发展,为人类社会带来更多可能性。

2024 年 12 月开源生态数据洞察报告

· 阅读需 7 分钟
赵生宇
X-lab 开源博士 / OpenDigger 作者
王伟
华东师范大学 教授 / X-lab 创始人

OpenRank 指标是对工信部电子标准院的“信息技术 开源治理”系列标准中评价指标的开源实现,能够有效反映开源项目在开发者中的协作影响力,从而帮助我们了解开源世界,发现开源趋势,洞察开源事件。

热点事件1:Ghostty 重磅发布,归来仍少年

  • 数据事实:根据 OpenDigger 数据显示,Ghostty 项目在发布后的 5 天内,该仓库就吸引到超过 530 位开发者参与,超 1000 条讨论,获得超过 1.6 万 Star,OpenRank 强势突破 100,定格 105。

  • 详情分析:Ghostty 是一款运行在 MacOS 或 Linux 系统上的终端模拟器,通过使用本地 GPU 资源可以使终端拥有更丰富的功能和流畅的使用体验。2024.12.26,Ghostty 项目经过 2 年多的私仓开发后终于开源并正式发布 1.0 版本,而其作者正是在 23 岁时创立了 HashiCorp 的 Mitchell Hashimoto。这位只想做码农的创始人在 2016 年辞去 CEO 的职务,担任 HashiCorp 的 CTO,2021 年底又辞去 CTO 职务回归个人程序员并于 2023 年底离开了他一手创建的开源上市公司。根据数据显示,Ghostty 项目创建于 2022 年 3 月,代码量超百万行,在最初的两年间,这个项目均由 Mitchell 一人独立开发,直到 2024 年年中才有其他开发者参与进来,但 Mitchell 依然是该项目的主力开发人员,贡献了项目超过 90% 的代码。

  • 作者点评:作为创建了 HashiCorp 的创始人,Mitchell 热爱代码,是 Vagrant、Consul、Terraform、Vault 等一众云计算知名开源项目的创始工程师和核心开发者。开源世界代码为王,虽已是亿万富翁,但他还是那个热爱代码的少年,这或许也是这个项目备受开发者关注的重要因素之一。

  • 进阶阅读:

热点事件2:生成式 AI 赋能具身智能,Genesis 正式发布

  • 数据事实:根据 OpenDigger 数据显示,Genesis 项目自 2024.12.19 发布以来,该仓库在 10 天内吸引到超过 500 位开发者参与讨论,有 21 人成为项目贡献者,获得近 2 万 Star,OpenRank 定格 85。

  • 详情分析:Genesis 是一个结合了生成模型能力的具身智能研究平台,这个研究平台由通用物理引擎、机器人仿真平台、照片级渲染系统和数据生成引擎构成,而其中的数据生成引擎使用了生成式 AI 技术,可以将自然语言转换成各类不同模块的训练数据。该项目由 MIT-IBM 沃森人工智能实验室的首席科学家淦创博士带领的团队所开发,该团队在 2023 年底发表论文介绍了一个利用生成式 AI 技术为机器人提供无限学习数据并全自动化训练的框架 RoboGen,引发了全球关注。经过一年多的开发,RoboGen 框架正式开源为具身智能研究平台 Genesis 并引爆全网。

  • 作者点评:具身智能作为人工智能领域的前沿研究方向,其相关的开源研究平台并不多,2019 年由 Facebook 开源的 Habitat 平台是标志性项目之一。而生成式 AI 爆发以来,不少科学家也在研究如何将该技术应用于具身智能领域并加速智能机器人的发展,淦创博士的团队在发表论文后基于扎实的理论基础潜心打造科研平台,深度融合生成式 AI 技术,相信未来在该领域会有突出的贡献。

  • 进阶阅读:

本月推荐项目

eliza

  • eliza 是一个面向个人开发者的轻量级 AI 智能体框架,可赋能个人快速创建自己的 AI 智能体和工作流。该项目 2024.7 开源以来主要以开发为主,2024.12 全网爆火,Star 数已突破 1 万,12 月全月活跃开发者共计 441 人,OpenRank 已达到 149。
  • 仓库地址:https://github.com/elizaOS/eliza

blink.cmp

  • blink.cmp 是一款用于 Neovim 编辑器的代码补全插件,与目前流行 Copilot 不同,该插件是传统的基于文本索引和模糊检索的补全工具。该插件以高效为其特点,在 2 万索引量下可以做到毫秒级响应,因此受到 Neovim 用户的喜爱。该项目 2024.10 开源,12 月全月活跃开发者共计 294 人,OpenRank 来到了 108。
  • 仓库地址:https://github.com/Saghen/blink.cmp

关于 OpenDigger 标签工作的思考与规划

· 阅读需 17 分钟
赵生宇
X-lab 开源博士 / OpenDigger 作者

这段时间,对 OpenDigger 的标签做了一次较大的更新,主要是新增了一批项目和企业的标签,以及对国家和地区的开发者占比做了统计,主要用于 BenchCouncil 中的榜单发布(全球行政区划开发者 OpenRank 排行榜, 全球企业 OpenRank 排行榜, 全球项目 OpenRank 排行榜)。因此也有了一些新的思考,这里分享一下,也希望可以抛砖引玉,看接下来如何进一步规划和优化 OpenDigger 的标签体系。

总体而言,OpenDigger 的标签工作分为两部分,标签体系建设和标签工具建设。标签体系的重点在于如何构建以一套有效且易维护的标签结构,而标签工具则是使用怎样的技术方案来实现和维护上述的标签体系。

标签体系建设

OpenDigger 的标签体系早期是源于 OpenDigger 本身的数据需求而逐渐建立起来的。主要是各类数据报告中需要有不同的指标聚合方式,尤其是如企业、国家维度的聚合,所以最初的设计中最主要标注的也就是企业、国家的数据,后续又陆续增加了基金会、技术领域和项目群的相关标签。然而随着标签数据越来越多,维护的难度也开始逐渐上升,缺乏顶层设计的缺陷也逐渐凸显。截止到 2024 年 12 月,已经有上千个标签,涵盖 200 多家企业、数十个基金会和 500 多个项目,这也需要 OpenDigger 建立一套标准化的标签体系,方便后续的持续维护和进一步拓展。

总体而言,早期标签的加入是需求驱动的,并没有进行顶层的统一设计,因此结构上也是趋向于扁平化的,即每类标签单独在一个文件夹下,通过标签之间的 ID 进行交叉引用。但在过去一段时间丰富标签的过程中,发现目前主要的标签需求之间其实存在某种关联性,这种关联性也进而导致了后续的一些设计上的变化,例如:

  • 项目一般都是由某个实体发起,后续可能捐献给基金会的,因此项目可以不单独使用某个目录,而是在其对应的发起实体的目录下维护。
  • 项目发起的实体可以是个人、企业、高校、政府机构(如美国退伍军人事务部、英国司法部)、研究机构(如欧洲核子研究中心)等。这些实体的类型不一而足,但大多与各国当地的机构结构有关,因此总体上虽然结构相似,但在不同国家也会有细微的差异。
  • 对于上述的各类实体,需要一套标准化可行的分类方式,这种分类方式不仅体现在维护性上,而且也是后续各种聚合查询的基础,因为构建在这套标签体系之上的指标查询工具将使用这套标签体系来进行查询。

基于上述的一些反思,因此对于指标体系的建设可以从几个方面来说:

指标结构

从指标结构上来说,之前是扁平化展开的,国家、企业、基金会、高校、机构、项目都是放在同级目录下的,然后会进行交叉引用,例如国家会以高校、企业、基金会等为子标签。然而上述的标签其实都是从项目发起方的角度来看的,因此应该可以构建在同一个目录下,形成“行政区划”-“发起机构”-“开源项目”的三层结构。

  • 行政区划一级主要是指地区信息,如国家,当然也可以更进一步细化到省市一级。
  • 发起机构则是指在法律上实体注册在这些行政区划内的机构,这些机构本身可以进一步进行分类,关于这个分类方法后续再进一步讨论。
  • 项目就是 GitHub、Gitee 上的组织或仓库群构成的开源项目,同一个开源项目可以包含多个组织或仓库,也可以托管在多个平台上。

上述的发起方角度应该是整个标签体系构建的基础,在此基础之上,可以进一步增加其他的并行标签内容,如项目类型、技术领域等,这些标签均以项目标签为基础构建,即它们仅可引用项目级标签为自己的子标签,而不能单独使用平台上的仓库或组织为自己的标签数据内容。即当某个领域出现一个新的项目要标注时,需要先鉴别其对应的发起方及其所在的行政区划,并设置好这些数据后引用该项目标签,而不要直接使用仓库或组织数据。

行政区划

行政区划是发起方所属国家或地区的信息,这部分事实上已经有一些标准可以直接采用。例如 OpenDigger 目前使用 ISO 3166 标准进行国家标注,国家和地区编码部分使用的是 ISO 3166-1 alpha-2 标准,该标准下所有国家和地区使用一个 2 位的英文字母进行标识,同时也包含该国家对应的全称,而恰好 GitHub 发布的全球开发者区划分布也是按照该标准发布(区别在于该数据将欧盟作为一个一级区划),因此较容易进行关联性建立。而对应的 ISO 3166-2 标准则进一步对国家和地区内部的一级行政区划进行了定义,因此国家和国家内部的一级行政区划可以完全使用 ISO 3166 系列标准进行定义。

发起主体

这部分需要比较专业的知识,可能本人的理解也有出入,欢迎指出。

如上所述,发起主体与各国中对于法律实体的定义有关,因此情况也最为复杂。相对而言,高校、政府机构、研究机构是相对明确简单的,而企业和基金会是最为复杂的。

以中美的差异为例,对于大部分企业而言其结构是相似的,尤其是私营企业主要以独资企业、合伙企业、有限责任公司、股份有限公司等形式为主,在 OpenDigger 的标签体系中可以不做额外的区分,就是公司/企业标签即可。主要难点在于基金会的分类:

在中国的实体分类中,一般性企业属于工商部管理范畴,而社会团体、民办非企业单位和基金会则属于民政部管理范畴,这也是为什么国内部分唯二的开源基金会(开放原子开源基金会、重庆开工开物开源基金会)都注册在民政部,其对应的统一社会信用代码以 53 开头,即民政部下属基金会属性单位。可见基金会在中国是一个独立的法人实体类型。且在中国,法律认可的非营利性组织也只有社会团体、民办非企业单位和基金会三类。

但在美国的法律体系中,并不包含一种名为基金会的法人实体,所有的非营利组织在美国都属于企业性质,只是分类会略有不同,主要都在 501(c) 分类下。常见的非营利组织类型包括慈善组织 501(c)(3),如 Apache 基金会就是这类组织;还有商业联盟性质的 501(c)(6),如 Linux 基金会就属于这类组织。它们在财务规定和监管层面有一定的差异,这也是为什么近年来 Linux 基金会可以通过企业捐赠快速扩张发展,而 Apache 基金会则更加佛系的根本原因之一。

也正是由于上述区别,基金会这个名称在中美有了很大的差异,在中国是一类非常明确的法人实体类型,而在美国基金会是非营利组织可选的一种注册名称而已。如美国的连接标准联盟与 Linux 基金会相同也是一个 501(c)(6) 组织,但其名称确为"联盟"。而正是由于这种命名的随意性,使得追踪海外基金会变得非常困难,例如一些自称为基金会的组织,我们甚至在网上无法查证其组织类型以及是否真的是非营利性的组织。

另外一个有趣的差别是,在美国,在一般性企业和非营利性组织之间,还存在一种叫做 PBC(Public Benefit Corporation) 的企业类型,即公益法团。如最近大火的社交平台 Bluesky 背后的公司即属于这类。该类型是一种具有公益性质的营利性组织。对应中文语境中的“社会企业”,但在中国,目前“社会企业”还并非一种具有法律认可的实体类型,主要是由中国慈展会定期进行公开评定,可给各类企业或非营利性组织进行非正式的社会企业认证。当然,在 OpenDigger 的标签体系中,这类还是统一被归为企业类型。

综上所述,在发起主体层面,除明确的高校(University)、政府机构(Agency)、研究机构(Institution)外,其他则分为公司(Company)和非营利组织(NPO)。则在各国法律体系下,基金会均属于非营利组织范畴,而基金会排名对比时则也是与其他非营利组织统一排名,如行业联盟等。

社区项目

虽然上面提到在新的设计中,我们希望为所有项目均找到对应的法人实体发起方。但在现实中,依然会存在没有明确发起人的项目,或发起人希望该项目是完全社区驱动的,又或者发起人为个人的项目,这类项目难以对应到具体的法人实体,因此需要一个社区项目类型来涵盖这部分项目。

需要注意的是这里的社区也只是一种无明确发起方的分类方式,而社区(Community)本身并不是 OpenDigger 标签体系中的一部分。这是由于我发现社区本身的定义非常宽泛和模糊,一个企业项目也可以称自己为社区,一个兴趣团体也可以称自己为社区,因此这会导致该标签可能被滥用,而其对应的排行也就没有太多意义了。不过可能确实存在某些群体需要一个独立身份的情况,后续可能根据需求的变化会进一步细化这部分设计。

总结

因此最新的设计下,总体的标签结构示例应该为:

label_data
├── division # 行政区划
│ ├── cn # 中国
│ │ ├── gd # 广东
│ │ │ └── huawei # 华为
│ │ │ └── openharmony
│ │ └── zj # 浙江
│ │ └── alipay # 蚂蚁集团
│ │ └── tugraph
│ └── us # 美国
│ ├── ca # 加利福尼亚州
│ │ └── linux_foundation # Linux 基金会
│ │ └── valkey
│ └── md # 马里兰州
│ └── apache_software_foundation # Apache 软件基金会
└── technology # 技术领域
├── cloud_native # 云原生
│ ├── platform # 平台
│ └── runtime # 运行时
└── database # 数据库
├── graph # 图数据库 -> 引用 :division/cn/zj/alipay/tugraph
└── kv # 键值数据库 -> 引用 :division/us/ca/linux_foundation/valkey

标签工具建设

标签工具建设是更加偏向技术的一部分,是上述标签体系的具体实现。该实现不仅需要考虑到上述标签体系的所有能力和业务需求,同时也需要向下适配与数据库交互的结构以及标签数据的常见运算,如集合的交并差等。

目前的标签工具是使用 TypeScript 编写的,直接在运行时基于标签数据文件在内存中构建整套标签数据,可实现基础的运算和标签关系查询能力。但长远而言,从可扩展性以及查询效率上,还是希望标签数据可以直接落库,则最终的指标查询只需要做一个联表查询即可。

但由于存在多层标签的父子标签溯源问题(如某个项目是哪个国家发起的),这种溯源在数据库中需要递归 CTEs 特性的支持,而 OpenDigger 目前底层的 ClickHouse 版本尚不支持该特性,因此需要等待 ClickHouse 升级后再进行改造。

2024 年 11 月开源生态数据洞察报告

· 阅读需 8 分钟
赵生宇
X-lab 开源博士 / OpenDigger 作者
王伟
华东师范大学 教授 / X-lab 创始人

OpenRank 指标是对工信部电子标准院的“信息技术 开源治理”系列标准中评价指标的开源实现,能够有效反映开源项目在开发者中的协作影响力,从而帮助我们了解开源世界,发现开源趋势,洞察开源事件。

热点事件1:BlueSky 爆火背后,美国大选与 AI 浪潮

  • 数据事实:根据 OpenDigger 数据,GitHub 上 BlueSky 的多个仓库出现了数据激增,包括其自研的去中心化社交媒体协议仓库 atproto 和客户端仓库 social-app。其组织下所有仓库 11 月的活跃开发者总数同比增长 173% 达到 1082 人,所有仓库星标数增长 5.8k,OpenRank 总值同比增长 67%,达到了 340 分。

  • 详情分析:BlueSky 是前 Twitter CEO 杰克·多尔西创建的一个独立项目,使用全新的自研 AT 社交网络协议开发,旨在实现一个去中心化的社交媒体。11 月 5 日美国大选以来,部分对大选结果不满的用户选择离开 Twitter 寻找新的社交平台,BlueSky 成为了他们的一个重要选项,而大选一周后,其客户端应用也登顶了苹果 App Store 美国区的免费榜应用榜榜首。另外 11 月 16 日,Twitter 平台更新其隐私权政策(Privacy Policy),允许三方平台利用其用户数据进行生成式 AI 训练,而随后 BlueSky 官方发文表示不会使用用户数据进行生成式 AI 的训练,该事件也导致大量高质量内容创作者开始迁移到 BlueSky 平台以保护自己生产的数字化内容。该平台截止 2024 年 9 月全平台注册用户约 1000 万,11 月以来多个事件导致其平台用户激增,截止 11 月 20 日,该平台注册用户数已突破 2000 万。

  • 作者点评:技术世界从不是独立存在的,现实中的事件会以不同的方式反映到开源社区中。而生成式 AI 的火爆也开始使其底层矛盾愈加凸显,开发者和用户会用自己的真实行动来投票。

  • 进阶阅读:

热点事件2:Redis 尝试控制周边项目,Valkey 社区持续增长

  • 数据事实:根据 OpenDigger 数据,Redis 的 Rust 客户端仓库 rust-rs 在 2024 年 11 月活跃开发者数量增长 54% 达到 40 人,其中大部分参与了关于 Redis 公司希望其作者转让项目而引发的讨论 Issue。而 2024 年 3 月分叉的 Valkey 社区则持续增长,在各项数据层面都已全面超越 Redis 主仓库。

  • 详情分析:2024 年 11 月 25 日,Redis 的 Rust 客户端项目 rust-rs 的作者 Armin Ronacher 在仓库上开启了一个 Issue 讨论关于该项目与 Reids 公司的关系,称 Redis 公司要求将其项目控制权进行转让,而 Redis 的 PHP 客户端 Pedis 的维护者表示也收到了同样的要求。事实上这已经不是 Redis 公司第一尝试控制周边社区项目了,在 2020 年至 2024 年间 Redis 公司分别将 Redis 的社区客户端 Jedis、Redis-py 和 Lettuce 转移至其 GitHub 组织中。而与此同时也有开发者担忧社区客户端被 Redis 公司控制后新版本是否会与 Valkey 不再兼容。Valkey 是 2024 年 3 月 Redis 公司宣布修改其项目许可证后分叉出的社区,由原 Redis 项目中来自 AWS、阿里云、Google、腾讯云等云厂商的核心开发者牵头成立,目前已托管在 Linux 基金会中。在 Redis 社区分裂后,Valkey 项目稳定发展,而 Redis 项目已逐渐不再活跃,根据 OpenDigger 数据,11 月 Valkey 主仓库的 OpenRank 已达 71 分,而 Redis 的主仓库则从 3 月份的 62 分将至 27 分。

  • 作者点评:软件所有权不仅仅是代码的归属问题,更涉及到项目的可持续发展和社区的信任。当一个开源项目的所有权转移到一家商业公司手中时,社区成员往往会担心项目的中立性和开放性会受到影响。Redis 和 Valkey 的未来会向哪个方向发展,还需要进一步的跟踪观察。

  • 进阶阅读:

本月推荐项目

Julia

  • Julia 是 2009 年开始开发的一款面向高性能数值分析和计算科学的动态编程语言,并在 2018 年发布了 1.0 版本。后续一直稳定的持续发展,随着语言内核的持续完善,目前的开发重心也逐渐转向上层的标准库支持。2024 年 11 月,社区将线性代数相关的标准库从主仓库中抽离为一个独立仓库并转移了与其相关的上千个 Issue 到新仓库中。由于这种迁移在日志中会被记录为新建 Issue,因此该仓库也被数据洞察注意到。而 Julia 本身的发展也非常稳定,截止 2024 年 11 月,其所有仓库 OpenRank 值已达到 242 分。
  • 仓库地址:https://github.com/JuliaLang/julia

Zen Browser

  • Zen 浏览器是一个基于 Firefox 内核开发的开源浏览器,自 2024 年 4 月开源,8 月后突然火爆,11 月仓库参与开发者人数达 882 人。该项目以其优秀的用户体验深受用户的喜爱,所有试用体验类文章都不乏溢美之词。如分屏显示功能作为受众多用户喜欢的一项功能,目前在 Chrome 浏览器中依然只能通过插件进行实现。根据 OpenDigger 数据,该仓库 11 月 OpenRank 值达 262 分,强势增长 48 位进入全球仓库 OpenRank 榜 63 名。
  • 仓库地址:https://github.com/zen-browser/desktop

2024 年 10 月开源生态数据洞察报告

· 阅读需 10 分钟
赵生宇
X-lab 开源博士 / OpenDigger 作者
王伟
华东师范大学 教授 / X-lab 创始人

OpenRank 指标是对工信部电子标准院的“信息技术 开源治理”系列标准中评价指标的开源实现,能够有效反映开源项目在开发者中的协作影响力,从而帮助我们了解开源世界,发现开源趋势,洞察开源事件。

热点事件1:Linux 移除俄罗斯维护者,华为发布原生鸿蒙操作系统

  • 数据事实:根据 OpenDigger 数据,OpenHarmony 自 2019 年 8 月开源以来,OpenRank 成长迅速,已经成为中国排名第一的开源社区。目前 OpenHarmony 社区项目主要托管于 Gitee 平台,共计仓库数超 2000 个,总计贡献者超 8000 人,社区活跃开发者数量超 15000 人。有包括润和软件、软通动力、深开鸿、九联科技(按贡献者数量排名)等在内的 70 多家科技单位参与共建。

  • 详情分析:在 2024 年 10 月下旬,Linux 社区由于“合规性要求”,从 Linux 内核维护者名单中移除了十余名俄罗斯开发者,Linus 在随后的邮件列表中对其他开发者的质疑作出了强硬回复。此事件在开源领域引起了广泛关注,凸显了地缘政治对开源技术社区影响的日益加深。事实上,技术领域受地缘政治影响的现象并不新鲜,早在 2019 年 5 月,华为就因被美国商务部列入实体清单而无法使用谷歌开发的安卓操作系统。作为应对,华为在同年 8 月推出了鸿蒙操作系统,并将其核心代码以 OpenHarmony 项目的形式开源,并于 2020 年 5 月捐赠给开放原子开源基金会。经过五年多的发展,OpenHarmony 已成为中国 OpenRank 排名最高的开源项目群。2024 年 10 月底,华为基于 OpenHarmony 的研发成果,正式发布了完全自主研发的原生鸿蒙系统,标志着 OpenHarmony 项目的成熟。

  • 作者点评:技术本身无国界,但技术从业者有国籍。在国际局势发生重大变化的背景下,我们既需保持开放合作的姿态,也必须随时准备主导和发展自己的核心技术领域。只有这样,我们才能借助科技的力量推动国家发展,并确保在全球竞争中具有强劲的竞争力。

  • 进阶阅读:

热点事件2:开源之夏收官在即,全球暑期活动异彩纷呈

  • 数据事实:根据 OpenDigger 数据,由于受到十一国庆长假影响,中国大部分项目十月的 OpenRank 会出现普降。然而由于 OSPP、GSoC 等项目的火热,今年参与的相关的项目在 10 月总体而言有逆势 3.5% 的增长,上千人参与到暑期活动之中。

  • 详情分析:OSPP(开源之夏)和 GSoC(Google 编程之夏)在十月都迎来了收官,据官网数据显示,OSPP 和 GSoC 2024 年的项目数量都再创新高,分别达到了 561 个和 1133 个项目。根据 OpenDigger 数据洞察显示,除上述两个耳熟能详的暑期项目外,此类暑期期间面向高校学生群体的开源活动在全球各地也越来越多涌现出来。如在印度发起的 GSSoC24(GirlScript 编程之夏)项目也在十月正式启动,其发放证书的仓库中有超过 2000 名学生进行登记,使得该仓库被数据洞察注意到。而由韩国的 Woowa 社区发起编程培训课程也优先针对学生群体,因此暑期期间格外活跃,在他们的 GitHub 组织中,涉及到 Java、Android 和前端的应用开发学习项目,相关的 10 个学习仓库在 2024 年 10 月共收到了超过 4500 个学习 PR,而且学习讨论异常热烈,有超过 28000 个 PR Review 评论,因此多个仓库登上 OpenLeaderboard 十月全球榜。

  • 作者点评:近年来,面向高校学生的开源暑期活动越来越多,形式也越来越丰富。开源不仅孕育了海量优秀的软件,也为高校学生提供了大量的编程学习和实战的机会,此类的活动和课程已经成为推动学生技术成长和创新能力发展的重要平台。

  • 进阶阅读:

本月推荐项目

freeCodeCamp

  • freeCodeCamp 是一个非常受欢迎的在线学习平台,旨在通过交互式的学习方式教授编程和 web 开发技能。它是完全免费的,提供了丰富的课程资源,包括数千个编程挑战、项目、算法和前端开发实践。其主仓库以 40 万的 star 数常年稳居 GitHub star 榜第一。2024 年 10 月,freeCodeCamp 参与到了 Hacktoberfest 活动中,该活动为这个本就非常活跃的项目带来了更多的开发者,当月有 380 名开发者参与到协作之中,最终开出了 435 个 PR 并有 2200 多条讨论,助力该项目最终 OpenRank 当月增长 50% 定格 151。
  • 仓库地址:https://github.com/freeCodeCamp/freeCodeCamp
  • 点评:freeCodeCamp 和 Hacktoberfest 都是 2014 年开始的项目,历经十年发展,两个项目的结合依然可以迸发出强大的创造力。

Bolt.new

  • 2024 年 10 月初,WebContainer 项目的开发公司 StackBlitz 发布了他们新产品 Bolt.new,该产品深度集成了基于大语言模型的 AI 助手和基于 WebContainer 技术的 Web IDE,因此可以在浏览器本地进行代码生成以及 Node.js 的代码运行,从而使得基于 Node.js 的软件项目可以完全在本地浏览器中完成开发、调试和部署的一站式工作。该产品的推出受到了众多开发者的追捧,其在 Twitter 上的发布贴有超 60 万次浏览,而该仓库仅开源一个月时间,收到了超过 6600 个 Star,超过 1100 名开发者参与到社区讨论和协作,最终 OpenRank 定格 163。
  • 仓库地址:https://github.com/stackblitz/bolt.new
  • 点评:随着大语言模型的出现,编程生产力得到了显著提升,而 WebContainer 等技术的发展则彻底改变了应用的运行和部署方式,使得服务器应用可以直接在浏览器中运行和调试。这两种技术的结合为开发者提供了前所未有的便利和体验,极大激发了他们的热情与创造力。

Hackpad

  • Hackpad 是由全球各地的高中生极客组成的 Hack Club 发起的一个有趣的黑客松项目。Hackpad 开放一个仓库用于在活动期间接收任何开发者提交的迷你键盘的设计,包括 PCB 板设计、硬件模型设计以及对应的程序软件,从而可以创作出各种有趣的迷你键盘。而组织方则会在活动结束后对合入的方案制作实体键盘发放给参赛者。该仓库在 2024 年 10 月有 178 位参与者提交了 287 个 PR,也助力该仓库 OpenRank 定格 100 分。
  • 仓库地址:https://github.com/hackclub/hackpad
  • 点评:开源协作平台提供了全球性社区发展的沃土,而 Hack Club 这种由青少年组成的全球性技术社区让人眼前一亮,他们的组织中不乏有趣的想法和活动,让人看到了年轻人的想象力与执行力。在严肃的企业软件之外,也让人们意识到最初的黑客精神,就是 just for fun!

OSPP 2023 深度洞察报告

· 阅读需 15 分钟
赵生宇
X-lab 开源博士 / OpenDigger 作者
王伟
华东师范大学 教授 / X-lab 创始人

背景介绍

开源之夏 OSPP 是中国科学院软件研究所发起的“开源软件供应链点亮计划”系列暑期活动,旨在鼓励高校学生积极参与开源软件的开发维护,促进优秀开源软件社区的蓬勃发展,至今已成功举办五届(2020 ~ 2024),X-lab 开放实验室从第一届就开始深度参与。

OpenDigger 作为一直以来深入参与 OSPP 的开源数据研究项目,也在此就 OSPP 2023 年的数据做一次深度的分析,也算是对 OSPP 社区的一次回馈。

OSPP 2023 宏观数据

根据 OSPP 社区的数据报告,2023 年度,OSPP 总共发布了项目 593 个,有学生中选项目共计 504 个,最终结项项目为 421 个,结项率高达 71%

OSPP 2023 年度高校贡献度排行榜
项目总数中选项目数结项项目数结项率(%)高校数量
593increase/decrease91
504increase/decrease56
421increase/decrease73
71increase/decrease2
144increase/decrease13

最终结项项目大部分除了个别与操作系统内核相关的社区使用了自己的 git 仓库外,大部分社区均托管于 GitHub(298 个)、Gitee(112 个)等代码托管平台上,平台的总体分布如下:

从结项项目的学生所属高校来看,结项的 421 个项目由分别来自 144 所高校的学生最终完成,其中北京邮电大学、浙江大学、华中科技大学以 20 个以上的学生数量领跑各高校,具体的分布如下所示:

年度贡献度分析

除了上述一些统计数据外,我们也希望可以给出一些更加深入的洞察,例如每个高校中不同学生在社区中具体的贡献度等,这种精细化的分析也有助于我们进一步观察学生在整个过程中对于项目的协同参与程度,而不仅仅局限于学生是否仅是完成了一个特定的任务。

注意:受限于 OpenDigger 目前的底层基础数据,下述分析将仅包含 GitHub、Gitee 平台上的数据。

我们使用了 2023 全年的贡献度数据和社区 OpenRank 算法对参与到各社区学生的参与度进行了详细的分析,最终统计到各高校总体贡献度前 20 名如下表所示:

OSPP 2023 年度高校贡献度排行榜
#高校名称OpenRank参数学生数人均 OpenRank
1华中科技大学
67.3increase/decrease43.57
21increase/decrease3
3.21increase/decrease1.89
2浙江大学
61.23increase/decrease16.62
23increase/decrease9
2.66increase/decrease2.9
3北京邮电大学
60.19increase/decrease35.17
27increase/decrease5
2.23increase/decrease0.75
4西安电子科技大学
60.05increase/decrease37.86
13increase/decrease4
4.62increase/decrease2.15
5复旦大学
59.7increase/decrease7.51
4increase/decrease8
14.93increase/decrease10.58
6西安邮电大学
55.67increase/decrease24.09
10increase/decrease3
5.57increase/decrease3.14
7华东师范大学
54.15increase/decrease19.2
13increase/decrease2
4.17increase/decrease2.5
8电子科技大学
50.6increase/decrease35.74
14increase/decrease8
3.62increase/decrease1.14
9重庆邮电大学
48.92increase/decrease24.29
5increase/decrease3
9.78increase/decrease2.53
10上海交通大学
48.34increase/decrease40.83
6
8.06increase/decrease6.8
11杭州电子科技大学
41.99increase/decrease34.6
11increase/decrease8
3.82increase/decrease1.35
12陇东学院
39.48new
1new
39.48new
13中国科学院大学
37.36increase/decrease23.15
18increase/decrease10
2.08increase/decrease0.3
14南京大学
33.9increase/decrease32.41
17increase/decrease15
1.99increase/decrease1.25
15同济大学
21.35increase/decrease15.98
6increase/decrease4
3.56increase/decrease0.87
16武汉大学
19.02increase/decrease11.33
1increase/decrease3
19.02increase/decrease17.09
17东南大学
18.57increase/decrease8.54
8increase/decrease3
2.32increase/decrease0.32
18北京工业大学
18.52increase/decrease18.52
3increase/decrease2
6.17increase/decrease6.17
19成都信息工程大学
18.11new
1new
18.11new
20福州大学
16.21increase/decrease8.01
5increase/decrease4
3.24increase/decrease20.98

我们在给出了高校总体贡献度的同时也给出了校人均 OpenRank 贡献度,可以看到华中科技大学、浙江大学、北京邮电大学依凭学生数量优势依然排在贡献榜前三位,但也有些高校因为很高的人均 OpenRank 贡献度而上榜,如复旦大学、陇东学院、武汉大学、成都信息工程大学等,他们在学生数量上并不占优,但因为个别学生的贡献度较高而使得最终的排名较高。

为了进一步观察学生的贡献情况,我们也对学生贡献者进行了 OpenRank 贡献度的排名,OpenRank 前 20 的学生如下:

OSPP 2023 年度学生贡献度排行榜
#学生姓名OpenRank学校参与社区活跃月数
1王**50.361复旦大学Apache HugeGraph16
2潘**44.955上海交通大学MatrixOne19
3姬**39.475陇东学院Spring Cloud Alibaba19
4孟**34.52重庆邮电大学Apache SkyWalking18
5刘**25.838西安电子科技大学OpenMessaging10
6王**25.15电子科技大学MegEngine(旷视天元)13
7谭**24.831华中科技大学GraphScope12
8张**19.65西安电子科技大学泰晓科技9
9乔*19.016武汉大学Apache RocketMQ社区14
10周**18.924中国科学院大学openEuler 社区9
11黄**18.115成都信息工程大学CubeFS15
12朱**17.194华东师范大学OpenDigger14
13应**16.561杭州电子科技大学Volcano社区10
14李**14.307华东师范大学OpenDigger14
15丛**14.045山东大学Apache HugeGraph12
16徐*13.995华东理工大学Apache Kvrocks (Incubating)8
17刘*13.865华中科技大学Apache HugeGraph16
18陈**13.452浙江大学Curve6
19张**12.606西安邮电大学Linux内核之旅开源社区16
20兰**12.581四川大学DLRover8

通过对于学生个体的分析,一些贡献度极高的学生就可以清晰的看到,例如来自陇东学院的姬同学在 Spring Cloud Alibaba 社区、来自成都信息工程大学的黄同学在 CubeFS 社区、来自武汉大学的乔同学在 Apache RocketMQ 社区的参与,他们都仅凭一己之力将自己学校的总体贡献度拉入到高校前 20。

同时上表也给出了这些同学从 2023 年 1 月到 2024 年 7 月中在参与项目中的活跃月数,可以看到前 20 位的同学的活跃月数均达到了 6 个月以上,而上述提到的几位同学贡献时长都达到了 12 个月以上,这里也体现出了 OpenRank 鼓励长期贡献的价值取向。

相应的,我们也给出了 2022 年学生贡献排名前 20 位的同学:

OSPP 2022 年度学生贡献度排行榜
#学生姓名OpenRank学校参与社区活跃月数
1唐**42.181华东师范大学Apache ECharts29
2程*40.912浙江大学Karmada23
3杨*35.699中国传媒大学Element Plus22
4朱**31.264东北大学Apache Dubbo23
5容*25.844百色学院Apache APISIX27
6黄**24.218福州大学Apache RocketMQ 社区12
7孟**24.177重庆邮电大学Apache Pulsar30
8宋**22.948复旦大学Apache SkyWalking27
9陈*19.426北京邮电大学Milvus25
10范**16.426University College London, University of LondonApache Pulsar8
11张**14.617华东师范大学DevLake17
12赵**13.8北京邮电大学OpenMLDB5
13杨*13.085西安邮电大学Curve18
14崔**12.279桂林电子科技大学MegEngine(旷视天元)28
15叶**11.502College of William and MaryAlluxio6
16韩**9.98北京邮电大学KubeVela15
17张**9.443湖南工业大学科技学院Apache DolphinScheduler9
18杨**9.157中国原子能科学研究院Jina AI10
19吴**9.077浙江大学Linux内核之旅开源社区9
20吴**8.831New York UniversityHypercrx30

后续持续贡献分析

我们可以看到,OSPP 拉动了大量高校的优秀学生在校期间就深入参与到开源社区的贡献之中,那么这些学生后续的活跃情况如何呢?为此我们也进行了更长期的跟踪分析,看一下在 OSPP 结束之后,还有多少的同学继续留在社区中持续的参与贡献。

上图是 2022 年 1 月到 2024 年 7 月所有结项学生的贡献度变化情况,我们可以看到虽然在每年的 9 月份是一个贡献高峰期,但在全域的贡献上保持了一种相对稳当的状态,说明学生们除了参与 OSPP 以外,后续也持续的参与到了开源世界其他项目的贡献之中,也说明 OSPP 为他们打开了一扇通往开源世界的大门。

学生全域贡献度排行榜
学生姓名OpenRank学校参与项目
杨*315.068中国传媒大学YunLeFun/status
YunYouJun/valaxy
element-plus/element-plus
姬**148.622陇东学院alibaba/spring-cloud-alibaba
spring-cloud-alibaba-group/spring-cloud-alibaba-group.github.io
apache/hertzbeat
刘**136.224杭州电子科技大学iyear/tdl
iyear/pure-live-core
devstream-io/devstream
唐**132.826华东师范大学hypertrons/hypertrons-crx
X-lab2017/open-wonderland
X-lab2017/open-research
郑**132.375浙江大学eunomia-bpf/eunomia-bpf
eunomia-bpf/bpftime
eunomia-bpf/bpf-developer-tutorial
刘**107.148电子科技大学SciSharp/LLamaSharp
SciSharp/TensorFlow.NET
Oneflow-Inc/oneflow
容*91.659百色学院apache/apisix-ingress-controller
apache/apisix
apache/apisix-helm-chart
崔**89.637桂林电子科技大学PaddlePaddle/Paddle
PaddlePaddle/PaddleSeg
openvinotoolkit/openvino
左*89.047哈尔滨医科大学Well2333/nonebot-plugin-bilichat
djkcyl/BBot-Graia
IceTiki/ruoli-sign-optimization
林**88.883华东交通大学Undertone0809/promptulate
PKUFlyingPig/cs-self-learning
langchain-ai/langchain

我们可以看到除了 OSPP 的开源社区外,很多同学还大量参与了其他开源社区的贡献,而来自陇东学院与百色学院的两位同学则是长期参与到了自己参加的 OSPP 的社区之中,成为了稳定的贡献者甚至 Committer。