| 名称: | 互联网语料库2.0 |
|---|---|
| 关键词: | Web页面、网络语料 |
| 摘要: | 互联网语料库(SogouT1.0)产品推出四个多月以来,经过与实际数据用户的交互和需求了解,我们认为1.0版本产品的主要问题在于数据采集量少,数据质量也较低。为了解决这一问题,实验室研发人员经过一个多月的努力,推出了互联网语料库2.0版本产品。产品真正成为了一个包括Terabyte规模数据网页数据(原始数据大小)的网页语料数据集合。希望这个产品能够为各种从事中文互联网信息处理的研究人员更好的服务。 |
| 介绍: | 互联网语料库2.0版本是一个包含了约1亿(100,054,692)互联网页面,原始语料规模超过1Terabyte的海量网络页面语料库。语料收集时间为2007年2月,一定程度上反映了中国互联网网页语料的整体面貌。数据收集时注意吸取了产品1.0版本的经验与教训,在保证页面数量的同时,兼顾较高的数据质量,覆盖了中国互联网中绝大部分的重要网页。 |
| 说明: | 网页数据以如下格式组织在一系列文本格式文件中: |
| 下载: |
mini版(gz格式) 473K mini版(zip格式) 473K 精简版(gz格式) 19M 精简版(zip格式) 19M 示例版(gz格式) 550M 完整版 (由于产品存储规模巨大,请参照相关联系方式,提供硬盘进行拷贝) |
| 反馈: |