以同程旅游为例的爬虫入门
在海量数据处理课程中,我们需要自行爬取一些旅游网站上的旅游攻略并聚合到我们自己构建的搜索引擎中,我负责的是同城旅游中的游记。使用的爬虫框架是 Scrapy,简单来说,爬虫框架就是一个帮助你访问网页内容然后根据特定规则把需要的信息抽取出来的工具。
Don't Panic!
在海量数据处理课程中,我们需要自行爬取一些旅游网站上的旅游攻略并聚合到我们自己构建的搜索引擎中,我负责的是同城旅游中的游记。使用的爬虫框架是 Scrapy,简单来说,爬虫框架就是一个帮助你访问网页内容然后根据特定规则把需要的信息抽取出来的工具。
深度学习是机器学习领域的一个发展分支,其概念源于对人工神经网络的研究,意在通过建立模拟人类大脑的神经连接结构来对文本、声音和图像等复杂信号进行分层抽象处理,进而给出数据的分层特征表示 [1]。与之对应的是传统的隐马尔可夫模型、最大熵模型和支持向量机等等的浅层机器学习方法,浅层学习多依靠人工抽取经验进行特征抽取,再使用对应的模型学习获得没有层次结构的特征函数。而深度学习通过对原始信号进行逐层特征变换,将样本在原空间的特征表示变换到新的特征空间,自动地学习得到层次化的特征表示,从而更有利于分类或特征的可视化。
因为在海量数据处理课程上布置了一个计算中文文档相似度的作业,在网上找了一圈没有得到比较直接又漂亮的结局方案,不得已自己动手了 :]。当然也不可能自己从零开始,那就自己去找轮子以及组装轮子的办法咯~