2011年1月24日星期一

网站流量上去了,但是完全高兴不起来啊 | observer专栏杂记

 

← MacBook翻/墙术

防DDoS脚本 in python →

网站流量上去了,但是完全高兴不起来啊

Posted on January 23, 2011 by observer

晚上在simplecd上搜某音乐时就觉得不对劲,5分钟热度值也太高了点,登陆51.la看了以后真是吓了一跳,15分钟在线从平时的200-300+跳到了1000+,绝对有啥事情发生了。

经过浏览流量来源,果然不出所料有状况:VC发神经把音乐给砍了。根据一些搜索和尝试,是先砍专栏,再砍搜索,然后逐条删敏感数据的砍法,到时候也不知道会有多少资源幸存。

流量上去了,一开始还是挺哈皮的,因为在线上千以后,可以进一步观察网站程序的性能,实在是不可多得的样本。我非常想PV能高一点,在线搞个几千甚至上万,目前优化的性能表现是否和我预想的一样,还有哪些不足,等等。

不过这样的流量上去,实在不是啥好事,很担心simplecd会成为下一个和/谐目标;另外为什么热度居高不下的会是啥黑暗/圣经这种和/谐物?而且五分钟热度清一色清凉美女封面这是怎么回事?真是太牙败了,看来VC采用人工推荐制度,而不是像simplecd这样自动热度生成是非常有道理的。

很担心啊,也许某天这里和simplecd都被和/谐了也说不定,虽然不用太用微博,不过还是需要有一个方便的第三方媒介来以防万一的。所以请follow我吧,不过我一般几百年都不会吭一声的。

twi/tter: observerss
新浪微博: observer_ss

23日更新两张图,这个流量是怎么回事?有人在抓站吗?实在是太恐怖了。

This entry was posted in 其他 and tagged VeryCD. Bookmark the permalink.

← MacBook翻/墙术

防DDoS脚本 in python →

37 Responses to 网站流量上去了,但是完全高兴不起来啊
  1. xiaoguo says:

    January 23, 2011 at 3:01 am

    流量还会继续涨的,已经在不少地方看到在推荐simplecd了.

    Reply

  2. woshisanhu says:

    January 23, 2011 at 3:38 am

    你这twitter真的是几百年不说话的。总共7条推,2010年2条……

    Reply

  3. mike says:

    January 23, 2011 at 3:40 am

    今天败给让人无语的verycd,发现了这里。
    支持你。

    Reply

  4. ziyuxingyuan says:

    January 23, 2011 at 4:32 am

    估计verycd要全面倒了,能不能镜像下资料版块啊,SimpleCD好多建筑的书资源都是06年的,现在就怕它倒,以后不知道哪里找下载链接了

    Reply

  5. Jimmy says:

    January 23, 2011 at 6:25 am

    这次VC不仅把音乐砍了,还把电影、剧集都砍掉了。还好一直有上SimpleCD的习惯。

    Reply

  6. leaflying says:

    January 23, 2011 at 7:30 am

    佩服有先见之明的。

    Reply

  7. 卡壳 says:

    January 23, 2011 at 9:30 am

    simple如果有一天被和谐….嘛嘛,先别想这些了,还是把要下的赶紧给下了吧。真的要是和谐了…只能纯论坛制了吧…

    Reply

  8. kylin says:

    January 23, 2011 at 12:28 pm

    老大您还是赶快抓取verycd吧!然后能不能更新下数据库啊?都两个月没更新的了

    Reply

  9. iamgo says:

    January 23, 2011 at 1:20 pm

    先写作者 然后搬着板凳等待最新版镜像..

    Reply

  10. dodgepudding says:

    January 23, 2011 at 3:02 pm

    看了你那篇写python爬虫的文章,本想自己爬一个,想不到verycd就来奄奄一息了,下载了你的镜像看看

    Reply

  11. sherry says:

    January 23, 2011 at 3:32 pm

    VeryCD关了拉倒吧,现在已经是个太监了.

    Reply

  12. he says:

    January 23, 2011 at 4:32 pm

    简直是太帅了,非常非常的支持,热泪盈眶的

    不用考虑路边5元了

    Reply

  13. 龙警察 says:

    January 23, 2011 at 4:46 pm

    好好搞啊,我已经在和身边的人介绍了,vc倒了之后,simplecd的来源怎么解决?
    还有www.simplecd.org为什么上不了?

    Reply

  14. simplefans says:

    January 23, 2011 at 7:51 pm

    observer
    大侠,您好!我想请教下simplecd去爬verycd页面的思路,
    想了解下您是怎么识别上面新发布的资源和已更新的资源,
    整站遍历比对?还是读取更新列表(rss),
    或者……有更高效的算法?(最想学习的重点)
    能简述下获取流程吗?想学习一下思想,
    还有,observer大侠,您快快发布下最新增补数据库吧!
    减轻下simplecd压力?!verycd是彻底阉啦!
    盼望您在这给我留言~

    Reply

    • observer says:

      January 23, 2011 at 8:48 pm

      1. 判断算法是这样的:
      a。读取资源列表,查询数据库看是否存在ID,不存在则更新
      b。如果已经存在该资源,则比较“更新时间”,查看是否不同,不同则读取资源页面
      c。比较“ed2k链接”,如果ed2k链接不同,则抓取并更新数据库

      2.增补数据库,等停了抓站再搞吧,ssh都卡死我了,生成数据库可是很考验硬盘IO的,现在肯定干不了,真想扁那些抓站的一顿。

      Reply

      • simplefans says:

        January 25, 2011 at 4:08 am

        observer
        大侠,多谢您的指点~希望simplecd别再倒下了,就像您站上写的那样,怕了国内那些大爷了,还有那些抓站的,确实欠扁!

        Reply

  15. ithinco says:

    January 23, 2011 at 7:57 pm

    这两微博服务你都不咋用啊……求截至目前完整数据库打包emule下载链接……

    Reply

  16. Allen says:

    January 23, 2011 at 8:40 pm

    大神要坚持住啊,VC倒了的话,其他几类资源没地找会很蛋疼的……

    Reply

  17. SCF says:

    January 23, 2011 at 9:05 pm

    是不是开始有大量网友在用站长开发的桌面端从simplecd的主页升级11月份以后的数据库?坐等停止不可能的,流量只会越来越大的……

    还不如先闭站一阵把数据库弄出来,放emule或者网盘给他们下载。
    之后再开放,估计压力就会减轻了。

    Reply

  18. zephyr says:

    January 23, 2011 at 10:51 pm

    obmem同学你好..(之前发过邮件)
    自VCD倒台后,simplecd必定会遇到流量激增,访问迟缓的情况(现在已露端倪)。为了缓解这一症状:

    1.能否在feed输出里增加ED2K的链接,这样一来,只要用google reader订阅更新,即可搜索资源及下载。减轻服务器压力;

    2.能否再推出一个Simplecd的简化版?只要有搜索本地数据库的功能即可(已经没有爬取官方数据的价值。而且也缺少高端帐号或获取资源)
    这样一来,即使是拥有低端VPS的群众,只要定时更新贵网跟踪的数据库。就能实现“同步更新”
    减轻服务器压力。

    ——Simplecd的关注者,希望贵网能越办越好。

    Reply

    • observer says:

      January 23, 2011 at 11:22 pm

      1.这不是关键,测试了很多情况,结论是服务器本应该没啥压力的,有压力都是因为抓站,和磁盘IO,输不输出ed2k其实无所谓。

      2.官方数据还是有更新的,不过不登陆或者白盘看不到而已。原来也有想过同步更新的问题,很遗憾以目前的架构实现起来很困难。

      谢谢建议:)

      Reply

      • zephyr says:

        January 24, 2011 at 1:31 am

        你可以尝试下RSS直接输出ED2K下载链接,如果大家习惯用订阅器下载也许能减轻压力。

        Reply

  19. yu says:

    January 23, 2011 at 11:35 pm

    是不是下那个800m的数据库,带来的流量啊?博主只要把网站上那个资源撤了,留下地址,用迅雷下就是了。

    Reply

  20. Peter says:

    January 24, 2011 at 2:56 am

    obmem你好,之前一直就有在关注SimpleCD
    非常非常感谢你可以做出这样的一个网站可以让互联网仍旧有自由存在

    Reply

  21. be.truth says:

    January 24, 2011 at 3:25 am

    对了,爬站的都是些神马人物,能查到?不会有。。。海产局的

    Reply

  22. xc.cn says:

    January 24, 2011 at 4:02 am

    一直收藏着站长的这个站,也拜读过一些教程啊什么的,只不过不是这行的看不懂啊。。囧
    今天上午发现vcd出了问题,上这里来看了看,安心了。。
    刚才看到了googlereader的rss,就过这里来看一下
    希望站长能找到好的原因吧,加油。。

    Reply

  23. R says:

    January 24, 2011 at 4:27 am

    前阶段关音乐网站神马的就有不好预感了…
    政府学人家发达国家反盗版TAT 多少年还是那样..

    唉 千言万语 净土越来越少了…希望这里别倒

    Reply

  24. 沿阶草 says:

    January 24, 2011 at 1:03 pm

    搞个https是不是会好点,可以减少被墙的几率。

    Reply

    • observer says:

      January 24, 2011 at 1:30 pm

      搞https会增加被墙几率,根据我去年obmem.com被墙的经验来看。
      原本还能监控的,搞个https,不能监控以后就索性先墙了再说。

      Reply

  25. itstone says:

    January 24, 2011 at 1:09 pm

    这个全站数据库也是从sc网站直接下载的呀,就算不抓站点左上角下载,流量还是很大的呀。

    Reply

  26. fnebula says:

    January 24, 2011 at 1:32 pm

    这悲剧的
    希望不要再河蟹它资源

    Reply

  27. arion says:

    January 24, 2011 at 1:40 pm

    支持站长大人,中国的亿万网民需要你

    Reply

  28. be.truth says:

    January 24, 2011 at 3:06 pm

    那啥,我觉得推荐那边应该修正一下了。

    Reply

  29. Sea says:

    January 24, 2011 at 3:30 pm

    支持你们的做法啊,verycd现在失去了最吸引我的东西,又在你这里找到了,泪奔。我差点以为要和高清、高保真诀别了。

    Reply

  30. myname says:

    January 24, 2011 at 5:23 pm

    我能发现这里纯粹要感谢谷哥吖.

    Reply

网站流量上去了,但是完全高兴不起来啊 | observer专栏杂记

没有评论:

发表评论