| 名称: | 互联网语料库(SogouT) |
|---|---|
| 版本: | 2008 |
| 介绍: | 来自互联网各种类型的1.3亿个原始网页, 压缩前的大小超过了5TB |
| 格式说明: | <url>标签后一行直到</doc>标签结束的中间部分即为网页原始内容,保留了HTML标记 |
| 相关任务: | 相关性排序; 文本分类; 新词发现; 机器翻译; 分词 |
| 相关资源: | 网页搜索结果评价 链接关系库 SogouRank库 Microsoft Anonymous Web Data MSNBC Anonymous Web Data Syskill Webert Web Data |
| 成果列表: | 1.Data Cleansing for Web Information Retrieval using Query Independent Features. Yiqun Liu, Min Zhang, Rongwei Cen, Liyun Ru, Shaoping Ma. Journal of the American Society for Information Science and Technology. DOI: 10.1002/asi.20633. 2.R-SpamRank: A Spam Detection Algorithm Based on Link Analysis Chenmin Liang, Liyun Ru, Xiaoyan Zhu, to be appeared at the Journal of Computational Information Systems. 3.Incorporating Web Browsing Information into Anch or Texts for Web Search Bo Zhou, Yiqun Liu, Min Zhang, Yijiang Jin, Shaoping Ma. Information Retrieval Volume 14, Issue 3: 290-314, 2011. |
| 下载: | 下载前请仔细阅读“SogouLab 数据使用许可证” Please read the "License for Use of Sogou Lab Data" carefully before downloading. 迷你版(样例数据, 61KB):tar.gz格式,zip格式 完整版(1TB):(硬盘拷贝) 历史版本(130GB):V2.0(硬盘拷贝) |
| 反馈: | 在搜狗实验室论坛与搜狗核心研发团队分享您的研究成果。 在实验室博客搜狗核心研发团队的官方博客,一起记录实验室成长的点点滴滴。 在线上反馈留下您的宝贵意见和建议。 在资源下载FAQ中查找您遇到的资源下载问题的答案 |