| 名称: | 互联网语料库(SogouT) |
|---|---|
| 版本: | 2008 |
| 介绍: | 来自互联网各种类型的1.3亿个原始网页, 压缩前的大小超过了5TB |
| 格式说明: | <url>标签后一行直到</doc>标签结束的中间部分即为网页原始内容,保留了HTML标记 |
| 相关任务: | 相关性排序; 文本分类; 新词发现; 机器翻译; 分词 |
| 相关资源: | 网页搜索结果评价 链接关系库 SogouRank库 Microsoft Anonymous Web Data MSNBC Anonymous Web Data Syskill Webert Web Data |
| 成果列表: | 1.Data Cleansing for Web Information Retrieval using Query Independent Features. Yiqun Liu, Min Zhang, Rongwei Cen, Liyun Ru, Shaoping Ma. Journal of the American Society for Information Science and Technology. DOI: 10.1002/asi.20633. 2.R-SpamRank: A Spam Detection Algorithm Based on Link Analysis Chenmin Liang, Liyun Ru, Xiaoyan Zhu, to be appeared at the Journal of Computational Information Systems. 3.Web Page Quality Estimation Based on Linear Discriminant Function Rongwei Cen, Yiqun Liu, Min Zhang, Liyun Ru, Shaoping Ma, to be appeared at the Journal of Computational Information Systems. |
| 下载: | 下载前请仔细阅读“SogouLab 数据使用许可证” 迷你版(样例数据, 61KB):tar.gz格式,zip格式 完整版(1TB):(硬盘拷贝) 历史版本(130GB):V2.0(硬盘拷贝) |
| 反馈: | 在搜狗实验室吧与搜狗核心研发团队分享您的研究成果。 在实验室博客搜狗核心研发团队的官方博客,一起记录实验室成长的点点滴滴。 在线上反馈留下您的宝贵意见和建议。 在资源下载FAQ中查找您遇到的资源下载问题的答案 |