使用node爬虫实现国际化

很多网站都实现了国际化。而且很多基于国际化的解决方法是建立多个语言文件。
这对开发而言就很不友好啦,每次都要考虑到多个语言包。而且key还不能写错,语言也不能写错。就比较麻烦。
可不可以自动生成语言包。
结合之前写的翻译全栈的方法。获取浏览器全部中文,通过第三方翻译网站翻译之后保存成一个系统想要的文件格式就可以啦。

const cheerio = require('cheerio');
const request = require('request');
const fs = require('fs');
const MD5 = require('./MD5');
const path = require('path');
const superagent= require('superagent');
const url = 'http://192.168.0.46:8015/';


getHtml(url,false);
function getHtml(url,ifMume) {
    let cookies = {
        Cookie: 'ASP.NET_SessionId=dz0s3e4pnmzm4bie3uqcl0dp; X1.Core.Language.Current=zh-CN; MENU_ID=; .ASPXAUTH=2449D191C89B823A5AC172A9FDA15AF4A288656BCEE0DDE84BBD9A7F33CD038C1BEA0BF8E168FBB77BBE84D5ED81E62CEF01052834B2ACA1F678454F5E1EC52511F5B535A2E92240FB4D604DA89D7E207B586290C46443605A5D5CB125FF14D0ABA3EA807B1DDE520498245BE8ACF0B9602CD2514F56FC0FFF2AD79563842F60B4021DFAE6AB8E4441D605590D4ABB0F16760BCC94574A9F43642A6016D82349932F726B34EEC684C5D26C1C3ABC5CFCBC86E59B136E72CD03F9556A9DC84832'
    }
    // 引入所需要的第三方包
    let hotNews = [];                     
    superagent.get(url).set('Cookie',cookies.Cookie).end((err, data) => {
        if (err) {
            // 如果访问失败或者出错,会这行这里
            console.log(`抓取失败 - ${err}`);
        } else {
            // 首先获取菜单
            if(ifMume) {
                let hotNews = [];
                let $ = cheerio.load(data.text);
                  // 找到目标数据所在的页面元素,获取数据
                $('html').children().each((idx, ele) => {
                    $(ele).html()
                    // 保存所有HTML
                    let strChineseList = [];
                    // strChineseList = $(ele).html().split(/[\u4e00-\u9fa5]/g);
                    strChineseList = splitStr($(ele).html());
                    hotNews.push(...strChineseList)            
                });
                let ifMumeNo = ifMume.replace(new RegExp("/","g"),'')
                let ifMumeSplit = ifMume.split('/')[1]
                getTranslateData(hotNews,ifMumeNo,ifMumeSplit, $);
            }else {
                getHotNews(data);
            }
            // hotNews = getHotNews(data)
            // res.json(hotNews);
        }
    });
}


// 获取菜单遍历菜单去获取里面的内容
let getHotNews = (res) => {
  let $ = cheerio.load(res.text);
  // 保存菜单
  let mume = [];
  $('.page-sidebar-menu li a').each((idx, ele) => {
      if($(ele).attr('href') != 'javascript:;') {
        mume.push($(ele).attr('href'))
      }
  })

  for(let i = 0; i < mume.length; i++) {
      setTimeout(() => {
        getHtml(url + mume[i],mume[i]);
      },3000*(i+1))
  }
};


function getTranslateData(list,mkdir,splitMkdir,$) {
    let appid = '*********************';
    let key = '*******************';
    let salt = (new Date).getTime();
    let query = list.toString();
    let from = 'zh';
    let to = 'en';
    let str1 = appid + query + salt + key;
    let sign = MD5.MD5(str1);
    let url = `http://api.fanyi.baidu.com/api/trans/vip/translate?q=${encodeURI(query)}&sign=${sign}&from=${from}&to=${to}&appid=${appid}&salt=${salt}`;
    request.get(url, (err,data) => {
        if(data.body == '') {
            console.log(mkdir+'页面数据过大,没有翻译成功');
            return;
        }
        let trans_resultEn = JSON.parse(data.body);
        if(trans_resultEn.error_code) {
            return;
        }
        let transSplit = trans_resultEn.trans_result[0].dst.split(',');

       
        // decodeURI(JSON.parse(data.body).trans_result[0].src);
        fs.mkdir(`./${mkdir}`,function(err) {
            if(err) {
                console.log(err);
                return;
            }
            // 生成cshtml
            let strchHtml = $('html').html();
            // 先换页面
            let strHtmlDiv = $('html .page-content').html();
            strHtmlDiv = unescape(strHtmlDiv.replace(/&#x/g,'%u').replace(/;/g,''))
            for(let i = 0; i < transSplit.length; i++) {
                let transSplitList = transSplit[i].replace(/\s*/g,"");
                if(list[i] != undefined) {
                    // console.log(strHtmlDiv.indexOf(list[i]))
                    // strHtmlDiv = strHtmlDiv.replace(list[i],`@LanguageService.Translate("${splitMkdir +'.'+ transSplitList}")`)
                }
            }
            strchHtml = strchHtml.replace($('html .page-content').html(),strHtmlDiv);
            // 在换js
            for(let i = 0; i < transSplit.length; i++) {
                let transSplitList = transSplit[i].replace(/\s*/g,"");
                if(list[i] != undefined){
                    strchHtml = strchHtml.replace(`"${list[i]}"`, `$.Translate("${splitMkdir +'.'+ transSplitList}")`)
                }
            }
            fs.writeFile(`./${mkdir}/index.cshtml`,strchHtml, function(err) {
                if(err) {
                    console.log(err);
                    return;
                }
            })


            // 生成英文
            let data = {};
            for(let i = 0; i < transSplit.length; i++) {
                let transSplitList = transSplit[i].replace(/\s*/g,"");
                data[splitMkdir +'.'+ transSplitList] = transSplit[i].replace(/(^\s*)/g,"");
            }
            fs.writeFile(`./${mkdir}/en-US.js`,"var data = " + JSON.stringify(data), function(err) {
                if(err) {
                    console.log(err);
                    return;
                }
            })
            // 生成中文
            let dataZnCh = {};
            for(let i = 0; i < transSplit.length; i++) {
                transSplit[i] = transSplit[i].replace(/\s*/g,"");
                dataZnCh[splitMkdir+'.'+transSplit[i]] = list[i];
            }
            fs.writeFile(`./${mkdir}/zh-cn.js`,"var data = " + JSON.stringify(dataZnCh), function(err) {
                if(err) {
                    console.log(err);
                    return;
                }
            })
        })
        
    });
}


function splitStr(str) {
    var arr = new Array();
    var i = 0;
    let arrList = [];
    while (i<str.length) {
      var s="";
      while (str.charCodeAt(i) < 256) {
        s=s+str.charAt(i);
        i++;
      }
      arr.push(s);
      var s="";
      while (str.charCodeAt(i) > 256) {
        s=s+str.charAt(i);
        i++;
      }
      arr.push(s);
    }
    let re= /[\u4e00-\u9fa5]/g;

    for (var i = 0; i < arr.length; i++) {
      var obj = arr[i];
          // 中文
        if(re.test(obj)) {
            arrList.push(obj);
        }
    }

    return arrList;
}

里面的MD5.js 是百度翻译的md5.js 直接拿过来就OK。
简单讲一个逻辑吧,应该是通过登录获取cookie的,但是因为这是我们自己的系统。所以就直接登录上写死了cookie,登录之后获取所有的菜单,然后循环每一个菜单,获取里面的中文,去翻译,翻译之后保存成自己想要的格式。node写爬虫很方便,使用cheerio就像使用jq一样获取dom之后直接操作就OK啦。而且这样还有一个好处,如果我要翻译日语等别的语言,直接改成日语就OK啦。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 203,937评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,503评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,712评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,668评论 1 276
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,677评论 5 366
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,601评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,975评论 3 396
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,637评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,881评论 1 298
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,621评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,710评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,387评论 4 319
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,971评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,947评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,189评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 44,805评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,449评论 2 342

推荐阅读更多精彩内容