1. 首页
  2. 教学科研
  3. 研究生教育
  4. 正文
点击显示栏目

研究生教育

数据挖掘工作坊No.5丨Python爬虫程序补充知识及实践操作

  • 来源:新闻传播学院
  • 发布者:新闻传播学院01
  • 浏览量:

    5月27日下午,由我校新闻传播学院邓磊博士主讲的“数据挖掘”工作坊培训课程在我校雁塔校区大数据舆情监测中心会议室开展。邓磊老师继续对新闻传播学院的部分学生讲解Python爬虫程序的补充知识,并基于Python语言进行数据爬虫的实践操作。

01知识回顾与实际操作

在本次补充知识课程中,邓磊老师首先带领大家简单回顾了之前Python课程讲解的内容,并分享关于数据挖掘的公众号,以便同学们日后知识的扩充与学习。“不能局限于学术工作坊这几周的课程,数据挖掘技术要想有所成就必须进行日积月累的学习与练习”。之后,邓磊老师根据课程相关内容让同学们实际操作了通过Python代码建立相关的Excel表格,并针对同学们实际操作中的问题进行相关讲解。

02数据表示及字符串编码

邓老师向我们介绍了常用的信息分为数值信息和非数值信息,并解释了其中的整数机器数和浮点数机器数的表示法。此外邓老师还重点讲解了Python的编码转换中的相关知识点。例如:encode()和decode()函数。当然,邓老师在此处提醒大家在做编码转换时,通常需要以unicode作为中间编码,即先将其他编码的字符串解码(decode)成unicode,再从unicode编码(encode)成另一种编码。

03Session与Cookie

session 从字面上讲,就是会话。服务器要知道当前发请求给自己的是谁。为了做这种区分,服务器就要给每个客户端分配不同的“身份标识”,然后客户端每次向服务器发请求的时候,都带上这个“身份标识”,服务器就知道这个请求来自于谁了。至于客户端怎么保存这个“身份标识”,可以有很多种方式,对于浏览器客户端,大家都默认采用 cookie 的方式。cookie由服务器生成,发送给浏览器,浏览器把cookie以 K-V形式保存到某个目录下的文本文件内,下一次请求同一网站时会把该cookie发送给服务器。由于cookie是存在客户端上的,所以浏览器加入了一些限制确保cookie不会被恶意使用,同时不会占据太多磁盘空间,所以每个域的cookie数量是有限的。

04Xml与Json格式的处理及AJAX网站的爬取

最后,邓磊老师通过xml与HTML的区别引入了此知识点,通过具体文本实例向我们介绍了Xml与Json格式的处理与案例分析,实际操作示例了AJAX网站的爬取,这有助于同学们进一步了解相关知识。

数据挖掘工作坊第五期课程在同学们的疑问与老师的解答中圆满结束。通过这五期的学习操作,学员们对于Python和网络的基本知识、爬虫的原理和流程、数据的简单抓取已经有了一定了解。对于下一期数据工作坊,邓磊老师预告:将对前五期知识点进行收尾总结与具体实际操作的重点讲解。期待最后一期数据挖掘工作坊的到来,也期待同学们能够在这几期工作坊中有所收获,真正学以致用。