發布時間:2022-02-13 12:49:59 人氣:
1. 先去各個搜索引擎網站注冊,讓各個搜索引擎的爬蟲找得到你。當然,你也可以不注冊,但那樣爬蟲(搜索引擎)注意到你會晚很久,影響排名。
2. 利用SEO原理優化網站,對題目、關鍵詞、元素都進行優化。這些可以參考一些專業介紹和書籍。優化一步步來,這個可以自己不斷學習。
3. 和其他網站進行互鏈,增加頁面權重。鏈接越多越好,越是牛的網站鏈接你的網站帶來的權重越高。盡量多做互鏈,這個權重很高。
4. 保持網站不斷更新,更新越勤快,爬蟲和搜索引擎認為網站約有價值,搜索排名會不斷提高。當然,內容要不斷創新,帶給用戶不斷新的價值和體驗。
總之,勤奮、專注是成功之道,最好自己維護。
你可以先評估一下自己的爬蟲是io密集還是cpu密集。
io密集:程序大部分時間花在了io等待上,比如網絡io,即,即文件讀寫等。
cpu密集: 程序大部分時間花在了cpu計算上,比如文本處理,數值計算等。
如果是io密集,那么你可以將這部分的功能通過線程池或者協程池進行并發,這樣就提升了速度。
不過這里的網絡io有個前提,你的帶寬不是你爬蟲的瓶頸。
如果是cpu密集,那么可以把這部分工作通過進程池(多進程)進行并行處理,這樣就提升了速度。多進程則意味著你的機器是多核的。
不過還有一些地方是值得優化的,比如一些庫的選擇上,例如beautifulsoup雖然很方便,但是有更快的實現方式,比如selectolax的速度要快很多。
如果你無法判斷,那么就先多線程,然后多進程吧。
如果是單機解決不了,就用工作隊列吧,比如celery。多機并行,一定能提升速度,而且是水平擴展的,當然了,這得讓你的任務能夠分布式。