|
发表于 2008-8-4 23:44:49
|
显示全部楼层
来说点废话。
一个计算项目,是通过基础数据和算发构成的。
基础数据如果具有分散性和对称性是最好的。就是数据可以相对独立的计算,不发生太多关联,并且这部分数据和那部分数据的算法基本相同。
算法也需要可描述性、简易性和通用性为上。就是算法是被描述明确的,算法的开发过程简单,算法可以被大量任务所使用。
涉及到分布式任务,则算法的分布式逻辑也需要很简单,也就是分布计算后的结果汇总也要易于开发和运行。
目前需要较大计算量的任务一般有数据分析、模型计算、数理计算等等。
数据分析例如天文数据分析,基因数据分析,气候数据分析,股票数据分析等等。这里对数据的要求很高。一般很难拿到专业机构的天文数据和基因数据及气候数据吧。相对来说股票数据的标准化非常好,股票软件都提供标准格式的历史数据下载。原生数据量大,也导致了结果数据量大。
模型计算例如工程计算、分子力学模拟(要不我们来模拟核试验?)、3D渲染等等。但都涉及数据不通用以及算法的独立性。
数理计算似乎最理想了。原生数据量小,有大量的论文来描述算法。但是计算结果不具备商业价值。
可以关注一下每年的全国大学数学建模竞赛的内容,历年来的题目涉及非常广泛,也非常典型。我念书的时候赶上这么几个题目。100万RMB的资金,10中不同的收益和风险的投资项目,如何调节投资比例达到风险更小,收益更高。我那时候用奔腾133算了1个多小时。当投资项目入今天的100中以上,投资金额大到1GRMB以上的时候,的确具备很高的商业价值。原生数据少,通用性好,算法简单。
还有一个是交通路由计算的题目,20个地点之间不同的距离,在完成某个特定的运输任务,寻找成本最底的路径。这个对交通、物流业有非常重大的价值。如果设计全国大部分省的绝大部分市甚至县(公开数据,但整理需要时间。不知道各个交大有没有现成的数据),则计算量非常大。原生数据少,而且通用性也很强,算法可以反复使用。在物资中转地的设定,道路的扩建,降低物流成本方面都有很大的用处。
还有一个简单的石油开采的计算。但我个人认为是糊弄孩子们的,在实际应用中缺乏很多约束关系。
等等之类的项目其实很多。其他的体目我没参加,不太清楚。
可以筛选一下,选择几个适合基于互联网的分布式计算项目。 |
|