对于计算机程序,我这个已过而立之年的大叔也就算刚刚入门,连小成都算不上,更别说以后在计算机程序界登堂入室,崭露头角了,顶多是为了娱乐,手里边多一个可以把玩的东西而已。
闲话少扯,咱们书归正转。
今天说些什么呢,大数据的大时代背景下,什么热门,当然数据,数据从哪儿来,最常用的手段那就是爬了,从哪儿爬?隔壁.......嘻嘻!
今天首要说的是爬取音乐,这时候有人问了,有的音乐不是可以下载的嘛?干嘛还要去爬取?我自认为原因有二,一是爬的快,几分钟就可以把整个网站的音乐爬取下来,其二,爬来的数据可以规范保存,比如可以直接存到数据库,还有其它的原因吗?当然有啦,我不说,你也知道!
爬取数据,其实最难的并不是写一个爬虫程序,那最难的是什么呢,当然是分析网页结构,并找到要爬取的数据,别看寥寥两句话,真正做起来,还真是有难度,而且费眼睛。不信你看这样一个网页:
要爬取到黄鼠狼爱上鸡幽版,就得一步一步去找这首歌曲得MP3文件到底在哪儿,我们首先得找到这首歌在哪儿能播放,那就先点击一下这首歌得标题,看看网页跳转到哪儿呗,经过分析我们可以看到结果如下:
也就是说我们把地址转到如下地址就可以获取到该首歌曲
一首歌曲还不够,我们还要看其它歌曲是不是也是这种情况,通过多次分析,基本确定该网站通过此流程就可以获取该歌曲。
那还说什么呢,写爬虫吧.........嘘!
最简单的,莫过于使用Nodejs写爬虫啦,即使你没什么编程基础,从Nodejs文档照抄都可以,
当然啦,你得掌握一个编辑器的使用哦,最流行的,那就是visual studio code啦!,这里我结合
MongoDB简单写了上半部分,剩下的,留给读者朋友们吧!我是一个门外汉,说多了漏洞就多啦!