本次实验目的是对信息检索中网页文本预处理的流程和涉及的技术有一个全面的了解,包括抓去网页、网页正文提取、分词处理、停用词处理等环节。本次实验所要用到的知识如下: 网页的抓取和正文提取 爬取至少 1000 个网页,其中包含附件的网页不少于 100 个 ...