2009年3月29日

百度百科txt版

制作样品和制作软件下载 

第一步 用迅雷等新建批量下载 http://baike.baidu.com/view/(*).htm 如8000-8999
一千篇当中有一些实际是不存在的,所以得到900篇上下,下载到一个设置好的目录比如:百科

第二步 用工具然软件中的crb_html2txt.exe 将整个百科文件夹的htm文件全部转化为txt

第三步 用工具软件中的合并txt工具直接选中百科中所有文件,合并所有转化完的txt, 得到10M左右大小txt文件到桌面

第四步 用最后一个软件删去里面的废话,一是用特征替换去掉“百度百科中的词条内容仅供参考”和“权利申明::”之间的废话,二是用一般替换去掉如下这三段废话:

"目前本词条已有其它待审版本,可能会与您的编辑内容发生版本冲突。

目前本词条已有多个待审版本,可能会发生版本冲突,
建议您稍后再进行编辑。

我的百科我的贡献草稿箱百度首页登录新闻网页贴吧知道图片视频百科帮助添加到搜藏返回百度百科首页编辑词条"

注:
1.这个txt版本显然不适合在电脑上看的,电脑上直接上网页看多方便。甚至电脑上常用的记事本都很难打开这么大的txt文件。当然在电脑上咱会经常习惯性地干其他事,所以我决定弄到手机上看,地铁上看,日后如果上下班两个小时就有事情做了。这样也不用花费手机上网流量。

2.在手机上视手机软件支持的txt的合适大小,适当选择每个txt所含条目,为了跳过一些不感兴趣的条目,建议使用便于快搜搜索的读书软件。把搜索字设为“百度百科” 即每个条目开始时的关键字。

3.建议下载前100000条目看,包含了一些政治经济文化历史科学名人城市等等挺有价值的内容,往后的除了一些新出来的事物和名词,越来越越不靠谱,或者无关痛痒。

4.每一千个条目批量整理成的txt大概有五百万字,其中除去一些垃圾条目和不感兴趣的条目外,还是有几十万值得看的内容,所以阅读量不算很大,而且总能遇到感兴趣的条目,空余时间看看挺适合的。

5.用迅雷下载时,切勿用多线程,同时进行的任务数不要太多,四五个吧,否则百度会暂时封你ip...然后添加1000个批量任务时,迅雷似乎反应很慢,解决的办法是每次添加任务前,到C:\Program Files\Thunder\Profiles把history文件删掉 history rescue也删掉

为什么没弄维基百科?
维基百科适合用洋文看,由于条目url结尾都是条目名,不适合也没有很好的办法一千条一千条地批量下载,同时维基百科有很适合在手机上阅读的mobile版网页

但这并不意味着,维基百科不能下载下来看,打开一个列表页list of什么什么的,然后用迅雷下载所有链接,然后简单筛选一下,再整理成所需的格式。由此可以制成一些有点意思的电子书,比如美国历届总统详解,世界五百强公司详解,世界知名大学,中国历史之类的乱七八糟的书,这些书绝对比不比同名同内容的书差。缺点是下载下来的网页文件实际是不含图片的,所幸大多数情况下没有图片对了解知识影响不是很大。

下载下来的东西都是没有后缀名的,打开记事本,写入
@echo off
ren * *.htm
保存,后缀名改成bat 丢到下载下来的东西所在的文件夹内,双击一下便可批量改成htm

其实若要离线带图片的网页版,可以到verycd上下载,但是我不是很喜欢这种阅读方式,分门别类的虽然很方便阅读,但没有那种随机阅读的快感。

看百度百科前必读 一年前写的,只强调了百度百科的缺点,其实他还是挺有价值的,在知识的普及方面做了相当大的贡献

在此,我真的希望百度百科借鉴下维基百科好的方面,比如分类和列表而不是使用根本不具有可用性的开放分类/taglist

 

3 条评论:

踏歌行 说...

看到最后,发现两字:折腾
直接笑倒……

Sunforever 说...

有没有办法批量转成mobireader的prc文件……
保留链接多方便……

mw 说...

你直接把所有htm文件拖到mobireader里面不久转换好了

如果要合在一起的,用工具里面那个软件,可以合并htm为一个的,然后在用mobireader转化

发表评论