#21
|
|||
|
|||
从配置上看是web服务器配置有可优化的地方。
这台主机性能应该不错,要不早挂掉了。 showthread.php 这个脚本不应该占用24MB的常住内存,不知最近是否有修改vbb的配置?比如增加插件,或者修改过服务配置等 判断是否是爬虫的问题前,可先分析服务器日志,看看爬虫访问量是否有异常。主要的爬虫比如google可通过对方提供的webmasters接口限制速度。
__________________
Infrastructure for IT companies 此篇文章於 2011-01-15 04:04 PM 被 edenCC 編輯。 |
#22
|
|||
|
|||
robots.txt 里也有个抓取速度的设置,Googlebot会忽略这个设置,其他的spider不清楚。
__________________
Infrastructure for IT companies |
#23
|
||||
|
||||
__________________
Life, it is. https://sky.tw
|
#25
|
||||
|
||||
增加搜尋每筆之間的時間不知道有沒有幫助?
有些網站執行 "搜尋" 後, 下一次再執行 "搜尋" 的時間是20秒後或1分鐘後. |
#26
|
|||
|
|||
__________________
Infrastructure for IT companies |
#28
|
||||
|
||||
可以把一些沒必要的功能關掉 或拿掉!
像是最下面那個上傳圖片的!!:P 我想大多數人 應該都有自己習慣用的image host
__________________
|
#29
|
|||
|
|||
如果被搜尋引擎的 bot 灌爆,首先先找出來是那些網頁,可能是ㄧ些對搜尋沒用的網頁,但又特別吃資源,例如以我用的 CMS ,在 Tags 頁會相當吃資源,就被 yahoo 和 百度 攻陷
yahoo 或 google ,可以改 robot.txt ,要他們把無用的網頁不要探索,但如百度他們是不管 robot.txt 的,就直接用 .htaccess 擋掉 ( Windows 主機請改用封 ip 或裝 URLrewrite 的相關軟體 ) 建議哈大,竟然已經知道超大流量的時間,先去開 apache log 找那段時間的存取紀錄,應該很簡單就可以找到答案
__________________
AJAX 線上 IDN 轉換 Punycode |
#30
|
|||
|
|||
百度很難擋,我覺得他們家的蜘蛛甚至比谷哥還多。
|