查看完整版本: New York Times 不定期连载。

dongge 2007-10-23 19:31

New York Times 不定期连载。

New York Times 不定期连载。
iSiloX 4.0制作,没有图片,只有文字,保留了原文的排版。按照我自己的要求,排版还没有达到“完美”的标准。最后希望达到的目的是只保留有价值的信息,除此以外的内容,全部不要。
每次的文章来自于链接:[url=http://www.nytimes.com/pages/todayspaper/index.html]http://www.nytimes.com/pages/todayspaper/index.html[/url]

简单说一下制作过程:
1. 从上面的索引页中,提取有效的链接,处理后,重新制作本地的索引文件。
2. 利用本地的索引文件,使用下载软件(我用的是免费软件Free Download Manager)下载NY times当日的文章。每天约有100~200篇。
3. 为下载到本地的文章(html格式),制作index.html索引文件。
4. 利用从index.html,用iSiloX制作pdb文件。
上面的1、3步,如果利用正则表达式脚本,可以大幅提高效率。

原来用python学习正则表达式时,写过一个脚本,可以自动处理以上1~3步骤。后来,硬盘失败,导致下载了一年的文章丢失,有点灰心,就没有继续了。现在,NY Times改版,不再坚持原来的收费政策,原来为了绕过这些限制的很多代码,现在都成了累赘。
但是,暂时没有心情重新写脚本,就用了上面这种“刀耕火种”的手工操作。按照我的经验,这种纯粹手工劳动很是折磨人的身心,所以,将本贴命名为“不定期”连载。

另外,说两句对英语学习方法的体会:少背单词,多阅读。

[[i] 本帖最后由 dongge 于 2007-10-23 19:59 编辑 [/i]]

dongge 2007-10-23 19:36

占位。

dongge 2007-10-23 19:37

占位。

dongge 2007-10-23 19:37

占位。

fleur 2007-11-11 15:43

赞人品!

401 2007-11-27 00:19

我也编过书,很理解楼主的心情,鼓励下!加油

若非爱 2007-12-1 11:59

顶起…………谢谢楼大~

记忆中的恐龙 2008-5-31 22:12

好贴子哦,大家不顶说不过去
页: [1]
查看完整版本: New York Times 不定期连载。