golang爬虫系列1

参考

经历

这里只是获取一个主页的新闻,找到其中的链接,进去读取每页的文章,本来参考文章是存储到数据库,我这边使用mysql,是8版本的mysql,windows下使用异常,在阿里云下面使用没有什么问题,用本地的navcat可以连接处理,但是用golang源码的“github.com/go-sql-driver/mysql”库使用就出现连接异常,不是那个密码格式改了的问题,后面就把对应的内容存储到本地文件,每个链接存储为一篇文章,但是可能有些链接会重复,用了去重处理。

去重代码

func removeCopySlice(list []string) []string {
    result := make([]string, 0, len(list))
    temp := map[string]struct{}{}
    for _, value := range list {
        if _, ok := temp[value]; !ok {
            temp[value] = struct{}{}
            result = append(result, value)
        }
    }
    return result
}

完整代码

package main

import (
    "fmt"
    "github.com/PuerkitoBio/goquery"
    "log"
    "net/http"
    "os"
    "regexp"
    "strconv"
    "sync"
    "time"
)

func main() {
    url := "https://www.gamersky.com/news/"
    resp, err := http.Get(url)
    if err != nil {
        log.Fatal(err) //出现错误时直接退出
    }
    defer resp.Body.Close()
    if resp.StatusCode != 200 {
        log.Fatalf("status code error: %d %s", resp.StatusCode, resp.Status)
    }
    //NewDocumentFromReader returns a Document from an io.Reader
    html, err := goquery.NewDocumentFromReader(resp.Body)

    var newList []string
    newList = getNewsLists(html, newList)
    fmt.Println("new:", len(newList))
    newnewList := removeCopySlice(newList)
    fmt.Println("newnew:", len(newnewList))

    var wg sync.WaitGroup
    for i := 0; i < len(newnewList); i++ {
        wg.Add(1)
        go getNews(newnewList[i], &wg)
    }
    wg.Wait()

}

func removeCopySlice(list []string) []string {
    result := make([]string, 0, len(list))
    temp := map[string]struct{}{}
    for _, value := range list {
        if _, ok := temp[value]; !ok {
            temp[value] = struct{}{}
            result = append(result, value)
        }
    }
    return result
}

func getNewsLists(html *goquery.Document, newList []string) []string {
    html.Find("a[class=tt]").Each(func(i int, selection *goquery.Selection) {
        url, _ := selection.Attr("href")
        newList = append(newList, url)
    })
    return newList
}

type News struct {
    Title   string
    Media   string
    Url     string
    PubTime string
    Content string
}

func getNews(url string, wg *sync.WaitGroup) {
    resp, err := http.Get(url)
    if err != nil {
        log.Println(err)
        wg.Done()
        return
    }
    defer resp.Body.Close()

    if resp.StatusCode != http.StatusOK {
        log.Printf("Error:status code %d", resp.StatusCode)
        wg.Done()
        return
    }
    html, err := goquery.NewDocumentFromReader(resp.Body)
    news := News{}

    html.Find("div[class=Mid2L_tit]>h1").Each(func(i int, selection *goquery.Selection) {
        news.Title = selection.Text()
    })
    if news.Title == "" {
        wg.Done()
        return
    }

    var tempTime string
    html.Find("div[class=detail]").Each(func(i int, selection *goquery.Selection) {
        tempTime = selection.Text()
    })
    reg := regexp.MustCompile(`\d+`)
    timeString := reg.FindAllString(tempTime, -1)
    news.PubTime = fmt.Sprintf("%s-%s-%s %s:%s:%s", timeString[0], timeString[1], timeString[2], timeString[3], timeString[4], timeString[5])

    html.Find("div[class=Mid2L_con]>p").Each(func(i int, selection *goquery.Selection) {
        news.Content = news.Content + selection.Text()
    })

    //db := mysql2.DBCon()
    //
    //stmt,err:=db.Prepare(
    //  "insert into game gamesky (`title`,`url`,`media`,`content`,`pub_time`) values (?,?,?,?,?)")
    //if err!=nil{
    //  log.Println(err)
    //  wg.Done()
    //}
    //defer stmt.Close()
    //
    //rs,err:=stmt.Exec(news.Title,news.Url,news.Media,news.Content,news.PubTime)
    //if err != nil{
    //  log.Println(err)
    //  wg.Done()
    //}
    //if id,_:=rs.LastInsertId();id>0{
    //  log.Println("插入成功")
    //}
    writeFile(news, wg)
    wg.Done()

}

//func writeFile(content string) {
func writeFile(news News, wg *sync.WaitGroup) {
    fmt.Println(news.Title)
    fmt.Println(news.Url)
    fmt.Println(news.PubTime)
    fmt.Println(time.Now().Unix())
    fmt.Println(strconv.FormatInt(time.Now().UnixNano(), 10))
    curentPath, _ := os.Getwd()
    //dirpath := curentPath + "\\" + "game" + string(time.Now().Unix())
    dirpath := curentPath + "\\" + news.Title + strconv.FormatInt(time.Now().UnixNano(), 10)
    filePath := dirpath + ".txt"
    fmt.Println("filePath", filePath)
    //if checkFileIsExist(filePath) {
    //  err := os.Remove(filePath)
    //  log.Fatal(err)
    //}
    file, _ := os.OpenFile(filePath, os.O_CREATE|os.O_WRONLY|os.O_APPEND, 0777)
    n, _ := file.WriteString(news.Title)
    //var file *os.File
    //file, _ = os.Create(filePath)
    //n, _ := io.WriteString(file, news.Title)
    defer file.Close()
    if n == 0 {
        wg.Done()
        return
    }
    //io.WriteString(file, news.Url)
    //io.WriteString(file, news.PubTime)
    file.WriteString("\n")
    file.WriteString(news.Url)
    file.WriteString("\n")
    file.WriteString(news.PubTime)
    file.WriteString("\n")
    file.WriteString(news.Content)

}

func checkFileIsExist(filePath string) bool {
    _, err := os.Stat(filePath)
    if err != nil {
        return false
    }

    return true
}

package mysql

import (
    "database/sql"
    "fmt"
    _ "github.com/go-sql-driver/mysql"
    "os"
)

var db *sql.DB

func init() {
    db, _ := sql.Open("mysql", "root:password@tcp(ipaddr:3306)/game_news?charset=utf8")
    //db, _ := sql.Open("mysql", "root:password@tcp(127.0.0.1:3306)/game?charset=utf8")
    db.SetMaxIdleConns(1000)
    err := db.Ping()
    if err != nil {
        fmt.Println("Failed to connect to mysql,err:" + err.Error())
        os.Exit(1)
    }

}

func DBCon() *sql.DB {
    return db
}

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 215,463评论 6 497
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,868评论 3 391
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 161,213评论 0 351
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,666评论 1 290
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,759评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,725评论 1 294
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,716评论 3 415
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,484评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,928评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,233评论 2 331
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,393评论 1 345
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,073评论 5 340
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,718评论 3 324
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,308评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,538评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,338评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,260评论 2 352