抓住下一只涨停的股票----操盘手软件评测
G801试用活动火热进行,G801手机大奖花落谁家?
夏新智能手机专区
掌中的无线精灵 诺基亚维信试用评测 快来抢注手机MSN个性账号
 
发新话题
打印

New York Times 不定期连载。

New York Times 不定期连载。

New York Times 不定期连载。
iSiloX 4.0制作,没有图片,只有文字,保留了原文的排版。按照我自己的要求,排版还没有达到“完美”的标准。最后希望达到的目的是只保留有价值的信息,除此以外的内容,全部不要。
每次的文章来自于链接:http://www.nytimes.com/pages/todayspaper/index.html

简单说一下制作过程:
1. 从上面的索引页中,提取有效的链接,处理后,重新制作本地的索引文件
2. 利用本地的索引文件,使用下载软件(我用的是免费软件Free Download Manager)下载NY times当日的文章。每天约有100~200篇。
3. 为下载到本地的文章(html格式),制作index.html索引文件。
4. 利用从index.html,用iSiloX制作pdb文件。
上面的1、3步,如果利用正则表达式脚本,可以大幅提高效率。

原来用python学习正则表达式时,写过一个脚本,可以自动处理以上1~3步骤。后来,硬盘失败,导致下载了一年的文章丢失,有点灰心,就没有继续了。现在,NY Times改版,不再坚持原来的收费政策,原来为了绕过这些限制的很多代码,现在都成了累赘。
但是,暂时没有心情重新写脚本,就用了上面这种“刀耕火种”的手工操作。按照我的经验,这种纯粹手工劳动很是折磨人的身心,所以,将本贴命名为“不定期”连载。

另外,说两句对英语学习方法的体会:少背单词,多阅读。

[ 本帖最后由 dongge 于 2007-10-23 19:59 编辑 ]
附件: 您所在的用户组无法下载或查看附件

TOP

占位。

TOP

占位。

TOP

占位。

TOP

赞人品!

TOP

我也编过书,很理解楼主的心情,鼓励下!加油

TOP

顶起…………谢谢楼大~

TOP

好贴子哦,大家不顶说不过去

TOP

发新话题