[MNBVC]超大规模中文语料集[Ver.2024.03.15]春季数据包

动漫搬运工 2024-3-19 379

详情：

6.16TB

Ver.2024.03.15

MNBVC(Massive Never-ending BT Vast Chinese corpus

，超大规模中文语料集）项目介绍

https://mnbvc.253874.net/
Github

https://github.com/esbatmop/MNBVC

wiki

https://wiki.mnbvc.org

https://mnbvc.253874.net/workboard.htm

1. MNBVC

符尧博士

https://yaofu.notion.site/GPT-3-5-360081d91ec245f29029d37b54573756

(

)

2023.1.1

(

)

MNBVC

NLP

MNBVC

wiki

MNBVC

我们欢迎所有有热情和有能力的网友能够来加入MNBVC项目。

目标是达到chatGPT的40T数据

2023

️1

286.6GB

0.7%
️1

363.36GB

0.9%
️1

615.5GB

1.5%
2

1021.81GB

2.5%
2

1870GB

4.7%
2

2169.9B

5.4%
3

2180.4GB

5.4%
3

2213GB

5.5%
3

2376.12GB

5.9%
3

2552.28GB

6.4%
3

2683.9GB

6.7%
4

2782.3GB

7.0%
4

3508.3GB

8.8%
5

3512.8GB

8.9%
6

4938GB

12.3%
6

5039GB

12.6%
7

5237GB

13.1%
7

5311GB

13.3%
8

5400GB

13.5%
9

7984GB

19.96%
9

10118GB

25.20%
9

14243GB

35.60%
9

16561GB

41.40%
10

20811GB

52.03%
11

26201GB

65.50%
12月14日，数据量27480GB，进度68.7%
2024年
1月28日，总数据量 27520GB，目前进度68.8%
3月11日，总数据量 31867GB，目前进度79.67%

3.

3.1

[email protected]
3.2

https://mnbvc.253874.net/guestbook
3.3

https://253874.net/
3.4 “

”

txt

https://mnbvc.253874.net/upload/form.htm

4.

253874

txt

json

links.txt

url

png

html&xml

txt

csv&tsv

json

huggingface

5.1

p2p

:B4MVPVJTK3DOOAOPVLJ3E7TA7RWW4J2ZEAXJRMRSRHSBPDB7OAFHUQ

https://link.verysync.com/#f=MNBVC%40xclimbing&sz=105E4&k=P4AJDJXHY3RCCOCDJZX3S7HO7FKK4X2NSOLXFAFGFVGPDRP7COTVIE&d=SJZHVB7GAZZLS2ZN43D3NNEBHPMU&t=1&tm=1676793101554&v=v2.16.0&a=1
5.2

https://github.com/esbatmop/MNBVC/blob/main/dupan/README.md

6. FAQ

40Tb

MNBVC

[email protected]

txt

wiki

MIT License

标签：

MNBVC 超大规模中文语料集 Ver 春季数据包

下载地址：

番组表

动漫搬运工

主题数
218572

帖子数
0

精华数
0

注册排名
2

关注动漫公众号